Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

CLASSLA: K-CENTER ZA JUŽNOSLOVANSKE JEZIKE

K-center oz. središče znanja CLARIN za južnoslovanske jezike (CLASSLA) zagotavlja strokovno podporo pri uporabi jezikovnih virov in tehnologij za južnoslovanske jezike. Glavne dejavnosti središča CLASSLA vključujejo (1) posredovanje informacij prek dokumentacije o razpoložljivih virih in tehnologijah raziskovalcem, študentom, ljubiteljskim znanstvenikom in drugim zainteresiranim posameznikom, (2) tehnično podporo pri ustvarjanju, preoblikovanju in objavljanju virov in tehnologij in (3) organizacijo izobraževanj. CLASSLA je podrobneje predstavljena v članku pobude Tour de CLARIN, v katerem izveste več o aktivnostih in poslanstvu centra.

Tehnična podpora, na katero se obrnete na naslovu helpdesk.classla@clarin.si, vam lahko pomaga z dodatnimi pojasnili glede dokumentacije središča CLASSLA (več spodaj) in nudi podporo pri uporabi, preoblikovanju, ustvarjanju in objavljanju virov in tehnologij za južnoslovanske jezike.

V središču znanja CLASSLA so trenutno na voljo pogosta vprašanja z odgovori (FAQ) za slovenščinohrvaščino, srbščino, bolgarščino in makedonščino. Poleg tega pa tam najdete tudi navodila za uporabo spletnih storitev CLARIN.SI, ki so trenutno prilagojene za slovenščino, hrvaščino in srbščino.

Središče znanja CLASSLA upravljajo raziskovalni infrastrukturi CLARIN.SI in CLADA-BG ter Institut za hrvaški jezik in jezikoslovje.

Nedavne novice

V nadaljevanju so predstavljene najpomembnejše novice, ki jih obravnavamo na poštnem seznamu središča CLASSLA. Če želite biti obveščeni o novih virih, tehnologijah, dogodkih in projektih za južnoslovanske jezike, se mu lahko pridružite na tej povezavi.

6. maj 2022 – Na repozitoriju na voljo novi obsežni prosto dostopni enojezični in vzporedni južnoslovanski korpusi

Na repozitorij CLARIN.SI smo objavili nove visokokakovostne enojezične in vzporedne južnoslovanske spletne korpuse, ki so prosto dostopni. Korpusi so eden od rezultatov projekta MaCoCu, v sklopu katerega pripravljamo enojezične in vzporedne zbirke besedil iz spleta za evropske tehnološko manj podprte jezike, vključno z južnoslovanskimi jeziki.

Korpusi so nastali s pajkanjem (ang. “crawling”) nacionalnih spletnih domen, pri čemer je pajek pobral besedila tudi iz nekaterih splošnih domen. Več informacij o zbiranju korpusov in povezave do prosto dostopnih orodjih za pajkanje in čiščenje korpusov najdete v opisih virov na repozitoriju CLARIN. SI (glej povezave spodaj).

Na repozitoriju CLARIN.SI so odslej na voljo naslednji novi južnoslovanski korpusi:

Korpuse smo že začeli uporabljati za učenje jezikovnih modelov tipa BERT, pripravljamo pa tudi korpuse z jezikovnimi oznakami, ki bodo na voljo prek naših konkordančnikov. V naslednjem letu bodo na voljo posodobljeni korpusi, poleg tega pa bodo zbrani in objavljeni še dodatni južnoslovanski enojezični in vzporedni korpusi, in sicer korpusi za bosanski, srbski in črnogorski jezik.

20. april 2022 – Prvi odprti razpoznavalnik hrvaškega govora in prosto dostopna hrvaška govorna baza

Prvi odprti razpoznavalnik za avtomatsko razpoznavo hrvaškega govorjenega jezika je zdaj na voljo na platformi Hugging Face. Razpoznavalnik je trenutno naučen na 72 urah zapisov govora iz hrvaškega parlamenta, ki so zbrani v govorno bazo ASR training dataset for Croatian ParlaSpeech-HR v1.0 in objavljeni na repozitoriju CLARIN.SI. Avtorji razpoznavalnika in govorne baze so Nikola Ljubešić, Ivo-Pavao Jazbec, Vuk Batanović, Lenka Bajčetić, Danijel Korzinek in Peter Rupnik. K nastanku teh virov pa so pomembno pripomogli tudi raziskovalci iz projekta ParlaMint: Darja Fišer, Tomaž Erjavec, Maciej Ogrodniczuk in Petya Osenova.

21. december 2021 – CLASSLA v publikaciji Tour de CLARIN

CLASSLA je bila izpostavljena v publikaciji Tour de CLARIN, pobudi CLARIN ERIC, ki predstavlja javnosti delo svojih nacionalnih konzorcijev, središč znanja in ponudnikov storitev (B-centrov). V članku, objavljenem tukaj, si lahko preberete več o aktivnostih, storitvah in poslanstvu CLASSLE. Nova izdaja publikacije Tour de CLARIN zajema tudi intervju z Zrinko Kolaković o tem, kako uporablja naše jezikovne vire in orodja pri raziskovanju jezikoslovnih značilnosti južnoslovanskih jezikov. 

13. december 2021 – Delavnica o regionalni zaznamovanosti v besedilu

Šestega in sedmega novembra 2021 je potekala spletna delavnica o regionalni zaznamovanosti v besedilu, ki so jo organizirali središče ReLDI, Univerza v Zürichu in CLASSLA. Gradivo z delavnice, na voljo tukaj, predstavlja, kako se išče po korpusih s konkordančnikoma noSketchEngine in KonText ter kako lahko s poizvedbami z jezikom CQL (Corpus Query Language) in morfosintaktičnimi oznakami preučujemo neenako obravnavo spolov v družbi.

26. november 2021 – Uspešne aktivnosti

V središče znanja CLARIN za južnoslovanske jezike (CLASSLA) smo dodali novo vsebino. Na strani Uspešne aktivnosti predstavljamo aktivnosti, pri katerih so raziskovalci izkoristili možnosti sinergijskega sodelovanja in z malimi stroški ustvarili pomembne jezikovne vire za slovenščino, hrvaščino in srbščino. Te aktivnosti so vzpodbudile nastanek centra CLASSLA.