Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Uspešne aktivnosti

Kot uspešne aktivnosti izpostavljamo dejavnosti, ki izpolnjujejo naslednja kriterija: 1. dostopnost jezikovnih virov in tehnologij za južnoslovanske jezike in 2. nastanek teh virov in tehnologij na podlagi sinergijskega sodelovanja. Ta kriterija sta izredno pomembna zaradi treh razlogov: 1. sodelovanje zagotavlja prenašanje znanja v skupnosti, 2. sodelovanje zagotavlja tudi, da so novi viri in tehnologije primerljivi, zaradi česar sta nadaljnji razvoj jezikovnih tehnologij in njihova uporaba lažja in 3. južnoslovanski jeziki razpolagajo z omejenimi finančnimi sredstvi, zato je treba izkoristiti velike možnosti za sinergijsko delovanje na tem področju, da ne bi južnoslovanski jeziki začeli zaostajati za bolje financiranimi jeziki zahodne Evrope.

Trenutno še ni veliko rezultatov dejavnosti CLASSLE, ki bi povsem ustrezali obema kriterijema (razen cevovoda CLASSLA, jezikovnega modela BERTić, in korpusov besedil iz Wikipedije CLASSLA, ki le delno ustrezajo drugemu, sinergijskemu kriteriju), zato v nadaljevanju predstavljamo uspešne dejavnosti, ki so nas spodbudile k temu, da smo ustanovili središče znanja CLASSLA. Vsem je skupen projekt ReLDI, zaradi česar je sinergijski fenomen teh dejavnosti postal znan kot “učinek projekta ReLDI”. Upamo, da bomo v bližnji prihodnosti lahko začeli govoriti o tem fenomenu kot o “učinku CLASSLE”.

V nadaljevanju predstavljamo naslednje uspešne aktivnosti:

Učna nabora podatkov za jezikovno obdelavo nestandardne hrvaščine in srbščine

Eden izmed ciljev slovenskega nacionalnega projekta JANES (2014-2018) je bil učni nabor podatkov, namenjen razvoju jezikovnih orodij za obdelavo nestandardne, spletne slovenščine. Rezultat projekta je učni nabor podatkov Janes-Tag s 75.000 pojavnicami, ročno označenimi za potrebe tokenizacije, členitve na stavke, normalizacije besed, oblikoskladenjskega označevanja, lematizacije in označevanja imenskih entitet. V tem obdobju je potekal tudi projekt ReLDI, namenjen hkratnemu razvijanju jezikovnih virov in tehnologij za hrvaščino in srbščino, in raziskovalci s tega projekta so tesno sodelovali s kolegi s projekta JANES, ob čemer se je porodila zamisel, da bi po vzoru slovenskega nabora podatkov ustvarili še hrvaškega in srbskega. Nabora podatkov sta tako nastala z občutno manjšimi stroški v primerjavi s stroški slovenskega nabora podatkov, saj so pri tem izkoristili 1. isto metodo zbiranja podatkov s Twitterja, 2. isto tehnologijo za ročno označevanje in 3. zelo kompleksne smernice za označevanje, ki jih je bilo treba samo prilagoditi dvema dodatnima jezikoma. Tretja točka se je izkazala za zelo pomembno, saj slovnice vseh treh jezikov ne obravnavajo posebnosti nestandardnega jezika, zaradi česar so morale smernice zelo podrobno opisati vse ravni jezika. V sklopu tega sinergijskega sodelovanja sta tako nastala učni nabor podatkov za nestandardno spletno hrvaščino ReLDI-NormTagNER-hr in primerljiv učni nabor podatkov za srbščino ReLDI-NormTagNER-sr. Ta nabora podatkov sta med temeljnimi viri, na podlagi katerih lahko s cevovodom CLASSLA jezikovno obdelamo tudi nestandardni spletni jezik, ne le slovenskega, ampak tudi hrvaškega in srbskega.

Učna nabora podatkov za jezikovno obdelavo standardne hrvaščine in srbščine

Zbrati kakovostne podatke za učni nabor podatkov standardne hrvaščine ni bilo preprosto. Prve dejavnosti na tem področju so se začele kot neuradni projekt dveh raziskovalcev, v sklopu katerega je nastal nabor podatkov SETimes.HR. Z različnimi mednarodno financiranimi projekti so nato nabor povečevali in izboljševali, kar je vodilo do sedanjega nabora podatkov hr500k. Čeprav so prvi eksperimenti pokazali, da je učenje modelov za obdelavo srbščine na hrvaškem naboru podatkov uspešno, so se pri projektu ReLDI zavedali potreb po izvirnem srbskem naboru podatkov. To je spodbudilo nastanek nabora podatkov SETimes.SR, pri katerem so izkoristili 1. isti vir podatkov kot pri hrvaškem naboru, 2. skoraj enake smernice in tehnologijo za označevanje in 3. modele, učene na hrvaščini, s katerimi so zelo natančno označili srbske podatke pred ročnim označevanjem. Tako je s pametnim izkoriščanjem sinergije in s porabo le deleža sredstev, drugače potrebnih za izdelavo takšnega jezikovnega vira, nastal še en nabor podatkov, SETimes.SR. Podobno kot zgoraj predstavljena nabora podatkov za nestandardna jezika, nabora za standardna jezika danes omogočata osnovno jezikovno obdelavo hrvaščine in srbščine, ne le s cevovodom CLASSLA, temveč tudi z drugimi cevovodi, ki temeljijo na projektu Univerzalne odvisnostne drevesnice.

Oblikoslovna leksikona za hrvaščino in srbščino

V sklopu zbiranja učnega nabora podatkov za standardno hrvaščino je z uporabo strojnega učenja in obsežnih korpusov nastal tudi oblikoslovni leksikon hrLex. Ob tem so pri projektu ReLDI dobili zamisel, da bi podobno storili tudi za srbščino, še posebej z ozirom na dejstvo, da kar zadeva pregibno oblikoslovje, med jezikoma ni velikih razlik. Tako je z nizkimi stroški nastal še en ključni jezikovni vir za srbščino, oblikoslovni leksikon srLex. Predstavljena leksikona seveda pripomoreta k uspešnejši lematizaciji hrvaščine in srbščine s cevovodom CLASSLA.