Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

O repozitoriju CLARIN.SI

Eden izmed osnovnih namenov infrastrukture CLARIN je zagotavljanje zanesljivega arhiviranja in dostopa do jezikovnih virov, kot so korpusi, leksikoni, avdio- in videoposnetki, slovnice, jezikovni modeli itd.

CLARIN.SI vzdržuje certificiran repozitorij, v katerem je deponiranih prek 500 jezikovnih virov in orodij oz. 3.7 TB podatkov za 90 jezikov. Večina jih je za slovenščino in ostale južnoslovanske jezike. Repozitorij arhivira:

  • velike oz. ročno označene eno- in večjezične pisne in govorne korpuse
  • leksikonske vire, kot so besedišča,  terminološki in drugi slovarji
  • velike jezikovne modele za uporabo v jezikovnih orodjih
  • nekatere različice programske opreme (več na CLARIN.SI@GitHub)

Repozitorij je redno vzdrževan, certificiran po standardih Core Trust Seal in nudi deponiranje in prevzem jezikovnih virov v skladu z jasno določenimi tehničnimi in pravnimi standardi. Podpira enostavno overjanje in pooblaščanje uporabnikov ter dodeljevanje stalnih spletnih identifikatorjev virom. Viri in orodja so v repozitoriju hranjeni po načelih FAIR in pod izrecnimi pogoji uporabe v skladu z določili izbrane licence. Repozitorij zagotavlja dolgoročno arhiviranje, saj bi celo v primeru popolne prekinitve financiranja centra CLARIN.SI arhivirane vire lahko prenesli v repozitorije drugih nacionalnih centrov CLARIN, pri čemer bi trajni identifikatorji (PID) ostali isti.

Repozitorij CLARIN.SI je vpisan v več katalogov, ki popisujejo repozitorije raziskovalnih podatkov, kot so OpenAIRE in re3data. Evropska raziskovalna infrastruktura CLARIN pa omogoča tudi združeno iskanje po vseh repozitorijih centrov CLARIN prek pregledovalnika VLO.

Repozitorij CLARIN.SI

Za podrobnejše informacij sledite naslednjih povezavam: