Identifikacija i automatsko razrješavanje višeznačnosti homografa u hrvatskom jeziku

Razrješavanje višeznačnosti riječi predstavlja postupak automatskog pridruživanja odgovarajućeg značenja riječi (homografa) koja ima više značenja na temelju teksta koji je okružuje tj. na temelju konteksta. Problem razrješavanja višeznačnosti jedan je od važnih zadataka u području računalne obrade prirodnog jezika te se može primijeniti u različitim drugim područjima kako bi se poboljšali rezultati postupaka poput strojnog prevođenja (machine translation), dohvaćanja informacija (information retrieval), kategorizacije teksta (text categorization), sumarizacije teksta (text summarization) i slično.

Homografija u hrvatskome standardnom jeziku obuhvaća riječi koje su različite značenjem, a svojom su izraznom stranom jednake u konvencionalnom i uobičajenom načinu zapisivanja, dok se prozodijski razlikuju tako što nose različit naglasak. Primjer za takve homografe su: pȁs ‘životinja’ i pȃs ‘pojas’, lȕk ‘biljka’ i lȗk ‘1.dio kružnice omeđen dvjema točkama; 2. jednostavno oružje’. Broj takvih homografa povećava se uzmu li se u obzir morfološki i tvorbeni oblici, npr.: gòre ‘planine’, gȍrē ‘lošije’, gȍre ‘visoko’, gòrē ‘plamte’. Drugu skupinu čine homografi koji se razlikuju svojim sadržajem, a izrazno se podudaraju i u pismu i na prozodijskoj razini, npr. kòsa ‘vlasi’ i kòsa ‘oruđe’. Broj primjera i ovdje se povećava kad se uzmu u obzir morfološki i tvorbeni oblici, npr. sȕpruga ‘G jd. imenice suprug’ i sȕpruga ‘N jd. imenice supruga’. Baza takvih slučajeva za hrvatski standardni jezik ne postoji. Projektne aktivnosti usmjerit će se u prvome koraku na izradu takve baze, na način da ona sadrži sve podatke na temelju kojih će se moći primijeniti u strojnom prevođenju. U drugome dijelu istraživanja razvijat će se modeli strojnog učenja pomoću kojih će se homografima u tekstu nakon njihove identifikacije automatski pridruživati određeno značenje. Za potrebe razvoja modela kod nadziranog strojnog učenja razvit će se anotirani korpus u kojima će dvosmislenim riječima biti pridruženo odgovarajuće značenje ovisno o kontekstu. Uz frekventnost pojavljivanja pojedinih riječi u kontekstu, eksperimentirat će se i sa različitim značajkama mjerama sličnosti kao značajkama za razvoj modela. Rezultati automatskog razrješavanja višeznačnosti primijenit će se u postupku strojnog prevođenja za hrvatsko-engleski i englesko-hrvatski jezični par.

Arhiva

Meta