Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije

Splošne informacije

Poslanstvo in vizija

Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije CLARIN.SI je del evropske infrastrukture CLARIN, katere splošni cilj je spodbujanje raziskovalne dejavnosti na področju humanistike in družboslovja. CLARIN.SI je usmerjen k raziskovalcem s področja računalniškega in korpusnega jezikoslovja ter digitalne humanistike in k posameznikom z drugih raziskovalnih in poslovnih področij, kjer se izdelujejo in uporabljajo jezikovni podatki.

Vizija podpore razvoju raziskovalnih dejavnosti se uresničuje z gradnjo in vzdrževanjem raziskovalne infrastrukture v skupni uporabi, ki raziskovalcem in drugim zainteresiranim posameznikom na evropski ravni zagotavlja enostaven in dolgoročen dostop do jezikovni virov in tehnologij ter strokovno znanje. S tem podpira napore usmerjene v odprto znanost, spodbuja meddisciplinarno sodelovanje in širšo skupnost ozavešča o uporabnosti tehnoloških rešitev pri delu z jezikovnimi podatki. Uporabnikom nudi že pripravljene vire in orodja, ki jih lahko tudi obdelujejo in nadgrajujejo, hkrati pa jim omogoča dolgotrajno hrambo njihovih raziskovalnih podatkov in računalniških programov. CLARIN.SI zagotavlja tehnično in strokovno podporo uporabnikom, kar je ključni dejavnik za vitalnost infrastrukture. Infrastruktura sicer ni jezikovno omejena, vendar njen poglavitni del sestavljajo viri in orodja za slovenščino, hrvaščino in srbščino.

CLARIN.SI sodeluje tudi z drugimi raziskovalnimi infrastrukturami v Sloveniji, kot sta DARIAH-SI (slovenski del evropske raziskovalne infrastrukture za umetnost in humanistiko DARIAH) in ADP (slovenski del evropskega združenja arhivov družboslovnih podatkov CESSDA). Plodovitost sodelovanja se kaže v različnih skupnih projektih, kot je bila delavnica ParlaFormat s poudarkom na analizi parlamentarnih korpusov, pa tudi v dolgoročnejših partnerstvih, npr. v okviru vozlišča RDA-Slovenija, ki se osredotoča na zagotavljanje odprtega dostopa do raziskovalnih podatkov v Sloveniji.

Storitve in dejavnosti centra CLARIN.SI

CLARIN.SI zagotavlja različne storitve in skrbi za strokovno in tehnično podporo raziskovalcem.

Več o tem, kaj najdete na straneh CLARIN.SI, si lahko preberete na spodnjih povezavah:

  • REPOZITORIJ – platforma, ki omogoča dolgotrajno hranjenje in dostop do jezikovnih virov in orodij za obdelavo naravnega jezika;
  • SPLETNI KONKORDANČNIKI – programi s spletnim uporabniškim vmesnikom, ki omogočajo iskanje po besedilnih zbirkah (jezikovnih korpusih) in analizo podatkov;
  • DRUGA ORODJA IN STORITVE – samodejno označevanje besedil z orodjem ReLDIanno, ročno označevanje besedil z WebAnno, hranjenje, prevzem in sodelovalni razvoj projektov na platformah GitHub in GitLab;
  • STROKOVNA PODPORA – odgovori na pogosta vprašanja o računalniški obdelavi južnoslovanskih jezikov in možnost za ostala vprašanja.

CLARIN.SI od leta 2018 razpisuje tudi natečaj, prek katerega finančno podpira projekte, ki so povezani z izdelavo ali nadgradnjo jezikovnih virov in orodij. Več informacij najdete na strani Projekti CLARIN.SI.

Med ključnimi poslanstvi centra CLARIN.SI je tudi ozaveščanje zainteresirane javnosti o dejavnostih mreže CLARIN.SI ter organizacija in podpora izobraževalnih dogodkov, ki imajo pogosto mednarodni značaj. Konzorcij CLARIN.SI se že od samega začetka zaveda pomena interakcije z uporabniki, zato v Sloveniji dejavno podpira dogodke in pobude, ki spodbujajo vključevanje uporabnikov. Med drugim CLARIN.SI od leta 2016 sodeluje pri organizaciji konference »Jezikovne tehnologije in digitalna humanistika«, zagotavlja snemanje in spletni dostop do rednih mesečnih predavanj o jezikovnih tehnologijah »JOTA«, ki jih organizira Slovensko društvo za jezikovne tehnologije (SDJT), leta 2018 je podprl organizacijo 18. Mednarodnega kongresa EURALEX, leta 2019 pa 22. Mednarodno konferenco »Text, Speech and Dialogue«.

Nekaj več o delu centra CLARIN.SI si lahko preberete tudi v spodnjih blogih (v angleščini), ki so nastali v okviru pobude Tour de Clarin na ravni evropskega konzorcija CLARIN:

 

CLARIN.SI skozi čas

Prvi koraki

Evropska komisija je pripravljalno fazo izgradnje evropske raziskovalne infrastrukture CLARIN financirala od 2008 do 2011, kjer je Slovenija prek Instituta »Jožef Stefan« in podjetja Alpineon najprej sodelovala le kot opazovalka. Leta 2009 je Vlada RS pozvala slovenske raziskovalce, naj se opredelijo glede sodelovanja v evropskih raziskovalnih infrastrukturah. Na podlagi tega je bil oblikovan Načrt razvoja raziskovalnih infrastruktur 2011–2020, ki je bil uradno potrjen aprila 2011. V tem dokumentu je bila med prednostne mednarodne raziskovalne infrastrukture vključena tudi infrastruktura CLARIN.

Po izteku pripravljalnega obdobja je bil v začetku 2012 na evropski ravni kot nadaljevanje pripravljalne faze izgradnje infrastrukturnega projekta ustanovljen evropski konzorcij ERIC (European Research Infrastructure Consortium). Njegove ustanovne države članice so bile Avstrija, Bolgarija, Češka, Nemčija, Danska, Estonija, Nizozemska in Poljska. Deveta članica je bila Nizozemska jezikovna zveza – meddržavno telo, ki sta ga ustanovili Nizozemska in Flamska.

Za včlanitev v evropski konzorcij raziskovalne infrastrukture CLARIN mora vsaka država članica oblikovati nacionalni konzorcij in zagotavljati letno članarino ter delujoč infrastrukturni sistem. Prva nacionalna sredstva za vzpostavitev slovenskega konzorcija pod okriljem evropske infrastrukture CLARIN je oktobra 2013 prejel Institut »Jožef Stefan« (IJS). Tako so se lahko začela dela za vzpostavitev spletne strani in slovenskega repozitorija jezikovnih virov in orodij. Kot nalogo je IJS prevzel tudi selitev portala projekta Sporazumevanje v slovenskem jeziku na strežnike IJS.

Ustanovitev nacionalnega centra

Slovensko društvo za jezikovne tehnologije je objavilo poziv za oblikovanje slovenskega konzorcija CLARIN.SI in v začetku junija 2014 so se s podpisom ustanovnega sporazuma v CLARIN.SI povezale vse večje javne institucije ter podjetja in društva, ki so se takrat v Sloveniji ukvarjali z jezikoslovjem in jezikovnimi tehnologijami: Univerza v Ljubljani, Univerza v Mariboru, Univerza na Primorskem, ZRC SAZU, IJS, Slovensko društvo za jezikovne tehnologije, Trojina, zavod za uporabno slovenistiko, Alpineon d.o.o., in Amebis d.o.o. Jeseni istega leta sta se konzorciju CLARIN.SI pridružila še Inštitut za novejšo zgodovino in Društvo za domače raziskave, leta 2015 pa Univerza v Novi Gorici, tako da se je število članov povečalo na dvanajst. Tega leta je Ministrstvo za izobraževanje, znanost in šport RS začelo s plačevanjem članarine v konzorciju CLARIN ERIC, in Slovenija se je lahko prek centra CLARIN.SI tudi uradno pridružila članom evropske raziskovalne infrastrukture CLARIN.

CLARIN.SI danes

Od ustanovitve konzorcija je CLARIN.SI vzpostavil certificirani repozitorij, ki sedaj hrani že prek 150 jezikovnih virov in orodij, dva spletna konkordančnika, ki omogočata dostop do skoraj 100 jezikovnih korpusov in njihovo analizo, in nekatera druga orodja in storitve.

CLARIN.SI že od ustanovitve financira manjše projekte za prilagajanje obstoječih jezikovnih virov, s čimer ti postanejo primerni za arhiviranje v repozitoriju. Od leta 2018 pa finančno podpira tudi večje projekte, katerih namen je izdelava in nadgradnja jezikovnih virov in orodij.

Leta 2019 je CLARIN.SI (skupaj z bolgarskim nacionalnim centrom CLARIN) ustanovil središče znanja CLASSLA za podporo računalniški obdelavi južnoslovanskih jezikov.

CLARIN.SI tudi ozavešča zainteresirane javnosti o svojih dejavnostih ter organizira in podpira izobraževalne dogodke. Med drugim CLARIN.SI od leta 2016 sodeluje pri organizaciji konference »Jezikovne tehnologije in digitalna humanistika« in zagotavlja snemanje in spletni dostop do rednih mesečnih predavanj o jezikovnih tehnologijah »JOTA«, ki jih organizira Slovensko društvo za jezikovne tehnologije.