U većini jezika postoje riječi s istim pisanim oblikom, ali različitim značenjem pa tako i u hrvatskom jeziku. Takve se riječi nazivaju homografi. Ako je kod homografa uz jednak pisani oblik, identičan i prozodijski oblik (jednako se izgovaraju), onda se radi o homofonima, a ukoliko slijede različite prozodijske oblike onda se radi o heterofonima. Primjer homofonskog homografa su riječi kòsa ‘vlasi’ i kòsa ‘oruđe’ – homograf kòsa ima dva različita značenja. Kod heterofonskih homografa, razlika u prozodijskom obliku se očituje u različitom naglasku kao primjerice kod riječi pȁs ‘životinja’ i pȃs ‘pojas’. U hrvatskom jeziku uobičajeno je da se u pismu ne pišu naglasci pa su onda i ovakvi slučajevi homografa dvosmisleni. Različiti naglasak kod homografa osim različitog leksičkog značenja može označavati i različiti morfološki oblik kao primjerice kod riječi róda ‘ptica’ i rȍda (genitiv od rod). Neki se navedeni slučajevi višeznačnosti mogu razriješiti pomoću morfo-sintaktičkih oznaka koje se pridružuju riječima u rečenici kao primjerice kod roda – nominativ jednine ženskog roda i roda – genitiv jednine muškog roda. Za razrješavanje višeznačnosti u takvim primjerima koristio bi se Hrvatski naglasni leksikon koji je nastao kao rezultat disertacije Lucije Načinović Prskalo u kojem se nalaze svi osnovni i izvedeni oblici riječi s pripadajućim naglaskom i morfo-sintaktičkom oznakom (primjerice rod rȏd N-msnn). Za slučajeve poput pȁs ‘životinja’ i pȃs ‘pojas’ ili kòsa ‘vlasi’ i kòsa ‘oruđe’ koje imaju iste ili različite naglaske i iste morfo-sintaktičke oznake, za razrješavanje višeznačnosti nije dovoljna samo morfo-sintaktička analiza već je potrebno primijeniti i semantičku analizu obzirom da se problem višeznačnosti tada može razriješiti samo na temelju konteksta.
Jedan od većih problema vezan uz homografe kod automatskih postupaka u području obrade prirodnog jezika poput strojnog prevođenja je da za hrvatski jezik ne postoji leksikon homografa na temelju kojeg bi se na takve riječi posebno obratila pažnja primjerice u postupku postprocesiranja, preprocesiranja ili u samom postupku učenja prijevodnih modela. U prvoj će se fazi projekta stoga izraditi baza svih homografa u hrvatskom jeziku s pripadajućim značenjima razvrstanih po različitim kategorijama – heterofonski homografi, homofonski homografi, homografi različitog morfološkog oblika, homografi istog morfološkog oblika obzirom da je za pojedine automatske postupke važna i informacija o kategoriji homografa. Tako uređeni leksikon homografa predstavljao bi važan resurs u hrvatskom jeziku koji bi se mogao koristiti u automatskim postupcima u području jezičnih tehnologija za hrvatski jezik. Leksikon će kao jedan od rezultata projekta biti javno dostupan.
Za razrješavanje višeznačnosti pojedinih slučajeva kod kojih je višeznačnost moguće riješiti pomoću morfo-sintaktičke oznake, kao što je ranije rečeno, koristit će se Hrvatski naglasni leksikon. Za slučajeve gdje se višeznačnost može razriješiti samo uz pomoć konteksta primijenit će se postupci strojnog učenja. U tu svrhu razvit će se anotirani korpus u kojem će se iz postojećih korpusa hrvatskog jezika kao što su primjerice hrWac ili Hrvatski nacionalni korpus pronaći rečenice u kojima se pojavljuju homografi te će se homografu u različitim kontekstima pridružiti određena kategorija koja će predstavljati jedno od dva ili više značenja koje homograf može imati. Takav će korpus poslužiti učenju modela na temelju kojih će se moći automatski odrediti značenje homografa u datom kontekstu kad se na njega naiđe u tekstu. U postupku određivanja klase, tj. ispravnog značenja homografa, isprobat će se različiti modeli strojnog učenja za klasifikaciju poput stabla odlučivanja, Naivnog Bayesovog klasifikatora, Maximum Entropy klasifikatora, Support Vector Machines i sl. te će se njihove performanse u postupku razrješavanja višeznačnosti riječi usporediti i analizirati. Kao jezične značajke na kojima će se učiti modeli klasifikacije, osim prisutnosti odnosno odsutnosti riječi u kontekstu homografa i njihove frekventnosti, u obzir će se uzeti i različiti odnosi između samog homografa i riječi koje se nalaze u njegovom kontekstu, a zato će se koristiti različite mjere sličnosti.
Obzirom da homografi imaju veliku ulogu u rezultatima strojnog prevođenja, postupak razrješavanja višeznačnosti primijenit će se u postupku strojnog prevođenja za hrvatsko-engleski i englesko-hrvatski jezični par te će se na taj način provjeriti jesu li se primjenom automatskog razrješavanja višeznačnosti dobili bolji rezultati strojnog učenja.
Rezultati prvoga i drugoga dijela istraživanja u osnovi su primjenjiva i za druge južnoslavenske jezike, uz određene prilagodbe, što znači da primjena rezultata istraživanja nadmašuje okvire samo hrvatskoga standardnog jezika. Osim toga, automatsko razrješavanje višeznačnosti riječi poboljšava performanse postupaka i kod nekih područja koja su tematski i terminološki uža te se često pojavljuju pojmovi ili kratice koje mogu imati više značenja (MG za miligram i magnezij) kao što je primjerice biomedicina. Automatsko razrješavanje višeznačnosti je tako primjerice primjenjivo kod medicinskih klasifikacija i indeksiranja koje postaju bitne zadaće zbog sve većeg broja informacija dostupnih istraživačima. Primjer skraćenice koja se često pojavljuje u biomedicinskoj literaturi je MG koja se može odnositi na kemijski element magnezij ili mjernu jedinicu miligram. Modeli koji će se naučiti za razrješavanje višeznačnosti homografa na temelju konteksta mogu se primijeniti i na ovakve slučajeve.
Obzirom da su za provedbu predloženog projekta uz poznavanje algoritama i metoda strojnog učenja potrebna i lingvistička znanja, u suradničkom timu projekta nalaze se stručnjaci iz informacijskih znanosti, ali i lingvisti i kroatisti što će učvrstiti suradnju različitih institucija Sveučilišta u Rijeci te pospješiti suradnju s ostalim predloženim institucijama drugih sveučilišta. Također, ovaj projekt doprinijet će znanstvenoj izvrsnosti Odjela za informatiku Sveučilišta u Rijeci u području jezičnih tehnologija.