Sukurtas lietuvių kalbos žodžių semantinio tinklo prototipas

2012 05 21 Šaltinis: UAB "Tilde IT"
Informacijos šaltinis: UAB „Tilde IT“

Lietuvoje baigtas kurti pirmasis lietuvių kalbos žodžių semantinių ryšių tinklo duomenų bazės prototipas. Sukurta bazė galės būti naudojama, kuriant naujas paieškos sistemas, sudarant sinonimų, antonimų, homonimų ar hiponimų žodynus, tobulinant mašininio vertimo sistemas, kurių populiarumas ir poreikis nuolatos auga.

Semantinio tinklo kūrimu rūpinosi kalbinių technologijų plėtojimu užsiimanti bendrovė “Tilde IT” drauge su partneriais: Lietuvių kalbos institutu (LKI) ir UAB “CID Baltic”. Darbai truko šiek tiek daugiau nei vienus metus.

“Sakoma, kad kalba, kuri neįsitvirtins elektroninėje erdvėje bus pasmerkta išnykti iš kalbų žemėlapio. Mūsų, dirbančiųjų kalbinių technologijų srityje, misija yra pasirūpinti, kad su lietuvių kalba taip neatsitiktų, todėl stengiamės kurti įvairius šiuolaikinius produktus, kurie leistų greitai ir patogiai dirbti kompiuteriu lietuvių kalba”, − sako “Tilde IT” direktorė Renata Špukienė.

Sukurtas semantinio tinklo prototipas nurodo ir atvaizduoja įvairių lietuvių kalbos žodžių tarpusavio ryšius. Pavyzdžiui, žodis “stalas” gali būti susietas ne tik su žodžiais “staliukas” ir “baldas”, bet ir su jį apibūdinančiais žodžiais: medinis, stiklinis, mažas, raudonmedžio, ąžuolinis ir t. t.

Semantinio tinklo duomenų bazės prototipas yra paruoštas tolimesniems duomenų integravimo procesams ir praktiniam duomenų panaudojimui. “Artimiausiu metu šį prototipą ketiname panaudoti tobulinant savo sukurtą mašininio vertimo sistemą. Turbūt kiekvienas, kuris nors kartą naudojosi mašininio vertimo sistema, pastebėjo, kad automatiškai verčiant tekstus dažnai susiduriama su žodžių daugiaprasmiškumo problema. Ji gali būti sprendžiama pasitelkiant žodžių semantinių ryšių duomenų bazę, kuri, būdama mašininio vertimo įrankio dalimi, analizuotų visą verčiamo teksto kontekstą ir leistų išvengti įvairių kurioziškų situacijų, kai, pavyzdžiui, kulinariniame tekste žodis “oil” išverčiamas ne kaip aliejus, o kaip nafta”, − ateities planais dalijasi R. Špukienė.

Pasak “Tilde IT” direktorės, svarstomos ir kitos prototipo panaudojimo galimybės. Kadangi “CID Baltic” yra aktuali semantinė paieška, todėl planuojama drauge kurti tokios paieškos įrankį, kuris ieškotų ne visų, o tik tinkamame kontekste paminėtų raktinių žodžių. Su Lietuvių kalbos institutu “Tilde IT” planuoja drauge parengti naujus elektroninius žodynus.

Lietuviškų žodžių semantinių ryšių tinklo duomenų bazės prototipo sukūrimas buvo finansuotas Europos Sąjungos struktūrinės paramos ir Lietuvos Respublikos lėšomis pagal Ekonomikos augimo veiksmų programos, 2.1 prioriteto “Ūkio konkurencingumui ir ekonomikos augimui skirti moksliniai tyrimai ir technologinė plėtra” priemonę Intelektas LT. Projekto įgyvendinimui buvo skirta daugiau nei 500 tūkst. Lt Europos Sąjungos paramos. Projektas buvo įgyvendinamas nuo 2011 m. sausio iki 2012 balandžio mėn.

Atgal į sąrašą
Į viršų