Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Pogosta vprašanja o jezikovnih virih in tehnologijah za slovenščino

Ta pogosta vprašanja z odgovori (FAQ) so del dokumentacije središča CLASSLA, ki je središče znanja za južnoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. Če opazite manjkajoče ali napačne informacije, prosimo, da nas o tem obvestite v e-poštnem sporočilu z zadevo »FAQ_slovenščina« na naslov helpdesk.classla@clarin.si

Vprašanja v tem razdelku so razdeljena v tri glavne sklope:

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

Spodaj so našteti glavni slovarski portali, ki jih ponujajo člani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:

Slovarji drugih ponudnikov:

  • Večjezično terminološko zbirko Evroterm in obsežen seznam slovarjev, dostopnih prek spleta, ponuja Sektor za prevajanje Generalnega sekretariata Vlade Republike Slovenije.
  • Islovar je terminološki slovar informatike, ki ga ureja Slovensko društvo Informatika.
  • Wikislovar je slovenski del splošnega, večjezičnega, prostodostopnega in prostourejevalnega slovarja.

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

CLARIN.SI omogoča dostop do treh konkordančnikov, ki uporabljajo isto zaledje in nabor korpusov, vendar imajo različen čelni del sistema:

  • CLARIN.SI Crystal noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine. Navodila za uporabo so dostopna tukaj. Prijava v noSketch Engine ni niti potrebna niti ni mogoča. To ima tudi pomanjkljivosti, saj si npr. vsi uporabniki delijo nastavitve zaslona.
  • KonText je konkordančnik, za katerega je značilen drugačen uporabniški vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednejših možnosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.
  • CLARIN.SI Bonito noSketch Engine je stara različica programa noSketch Engine, ki ima bistveno drugačen izgled uporabniškega vmesnika kot Crystal. Stara različica omogoča nekatere funkcionalnosti, ki jih novi noSketch Engine ne, predvsem dostop do rezultatov poizvedb v formatu XML, kjer zadošča, da na konec URL-ja poizvedbe dodamo parameter “format=XML”.

Navodila za iskanje po korpusih prek vmesnikov, podobnih konkordančniku Sketch Engine, najdete na tej povezavi.

Dobro je vedeti, da plačljivo orodje Sketch Engine prav tako omogoča dostop do številnih korpusov slovenščine, poleg tega pa ponuja tudi dodatne možnosti analiziranja korpusa, ki jih pri brezplačnem konkordančniku NoSketch Engine ne najdemo. Med drugim omogoča analiziranje kolokacij (Besedne skice), sopomenk in protipomenk (Tezaver), ustvarjanje frekvenčnih seznamov večbesednih enot (N-grami) in luščenje ključnih besed in terminov. Uporabniki pa lahko ustvarijo tudi lastne korpuse.

Nekateri korpusi slovenščine, še posebej tisti, ki so bili zbrani v okviru projekta »Sporazumevanje v slovenskem jeziku«, imajo svoje posebne spletne konkordančnike, prim. seznam korpusov pri vprašanju V1.3.

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

Gigafida je osrednji referenčni korpus za slovenščino (1 milijarda besed), po katerem lahko iščete prek posebnega vmesnika ali prek konkordančnikov  Crystal noSkE, Bonito noSkE in KonText. Na voljo je tudi različica korpusa, v kateri so odstranjeni vsi (skoraj) identični odstavki, prim. noSkE ali KonText. Uravnoteženi podkorpus Gigafide se imenuje KRES (100 milijonov pojavnic), iskanje po njem pa je omogočeno prek posebnega vmesnika.

Celoten seznam korpusov, po katerih lahko iščete s konkordančniki, ki jih ponuja CLARIN.SI, je na voljo v kazalu na spletnih mestih Crystal noSkE, Bonito noSkE in KonText. Spodaj je naštetih nekaj najpomembnejših, ki so opremljeni s povezavo do konkordančnika Crystal noSketch Engine:

  • korpus splošnega jezika je (poleg Gigafide) tudi korpus slWaC, obsežen korpus slovenskih spletnih besedil (900 milijonov pojavnic);
  • specializirani korpusi vključujejo korpus akademske slovenščine KAS, korpus znanstvenih objav s portala Open Science OSS, korpus slovenskih uporabniških besedil Janes, spremljevalni korpus Trendi, korpus govorjene slovenščine GOS, korpusa parlamentarnih razprav siParl in ParlaMint-SI, korpus besedil iz Wikipedije CLASSLAWiki-sl, korpus starejše slovenščine IMP, korpus Pregovori, korpus 100 romanov ELTeC-slv, korpus mladinske književnosti MAKS in korpus pisnih šolskih izdelkov ŠOLAR;
  • ročno označeni korpusi zajemajo korpus ssj500k (vzorčen iz Gigafide), korpus starejše slovenščine goo300k (vzorčen iz korpusa IMP), korpus s termini označenih besedil RSDO5 in korpusa slovenskih uporabniških besedil Janes Norm (vzorčen iz korpusa Janes), ki je ročno normaliziran, in Janes Tag (vzorčen iz Janes-norm), ki je ročno lematiziran ter označen z oblikoskladenjskimi oznakami in imenskimi entitetami;
  • združeni korpus metaFida, ki zajema 4 milijarde pojavnic, združuje najpomembnejše javno dostopne slovenske korpuse in omogoča enovito in pregledno iskanje po njih;
  • vzporedni korpusi vključujejo večjezični korpus prevodov Generalnega direktorata za prevajanje EU DGT-UD: Slovenian, slovensko-angleški korpus TRANS5, italijansko-slovenski korpus ISPAC, francosko-slovenski korpus LeMonde in japonsko-slovenski korpus jaSlo.

Poleg tega ponuja več slovenskih korpusov tudi plačljivi Sketch Engine, npr. korpus lektoriranih avtorskih besedil in prevodov Lektor, po katerem lahko iščete tudi prek posebnega vmesnika, korpus EUR-Lex Slovenian 2/2016, vzporedni korpus zapisnikov razprav Evropskega parlamenta EUROPARL7 in vzporedni korpus 40 jezikov OPUS2.

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

Večina zgoraj omenjenih korpusov je oblikoskladenjsko označenih z naborom oznak MULTEXT-East za slovenski jezik. Na skladenjski ravni se, še posebej pri starejših korpusih, uporablja nabor oznak SSJ, ki je bil razvit posebej za slovenščino.

Pri novejših korpusih se vedno bolj uporabljajo smernice, oblikovane v okviru projekta Univerzalne odvisnostne drevesnice (UD). Imenske entitete so navadno označene v skladu s smernicami za imenske entitete JANES.

V1.5: Kje lahko prevzamem vire za slovenščino?

Glavno mesto za arhiviranje in prevzemanje virov za slovenščino je repozitorij CLARIN.SI.

Repozitorij poleg virov, omenjenih pri drugih vprašanjih, ponuja še:


2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

Cevovod CLASSLA, ki temelji na najnovejših tehnologijah in metodah jezikovne obdelave, omogoča obdelavo standardne in nestandardne (spletne) slovenščine, in sicer tokenizacijo in členitev na stavke, oblikoskladenjsko označevanje, lematizacijo, odvisnostno razčlenjevanje ter razpoznavo imenskih entitet. Za obdelavo standardne slovenščine se uporablja tokenizator Obeliks4J, ki deluje na podlagi pravil, za druge primere pa tokenizator reldi-tokeniser. V sklopu cevovoda CLASSLA so tudi že pripravljeni modeli za lematizacijo standardne in nestandardne slovenščine ter za oblikoskladenjsko označevanje standardnega in nestandardnega slovenskega jezika.

Navodila za namestitev in uporabo cevovoda CLASSLA najdete tukaj. Za slovenščino je na voljo tudi nekaj dodatnih možnosti obdelave, podrobneje opisanih tukaj, in sicer uporaba slovenskega nabora oznak SSJ, oblikoslovnega leksikona in predhodno tokeniziranih podatkov.

Poleg tega je tokenizacijo, oblikoskladenjsko označevanje in lematizacijo besedil mogoče izvesti tudi s storitvami CLARIN.SI ReLDIanno. Navodila za uporabo teh storitev prek spletnega vmesnika ali kot spletne storitve so na voljo tukaj. Orodja lahko uporabljate tudi lokalno, npr. tokenizator, oblikoskladenjski označevalnik in lematizator.

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI ReLDIanno. Uporaba storitev je opisana tukaj. Rediakritizator REDI lahko tudi namestite in ga uporabljate lokalno.

Za normalizacijo na ravni besed, npr. v besedilih v starejši in spletni slovenščini, lahko namestite normalizator besedil CSMTiser.

V2.3: Kako lahko v besedilu označim imenske entitete?

Razpoznavo imenskih entitet lahko izvedete prek cevovoda CLASSLA, ki ponuja že pripravljene modele za standardno in nestandardno slovenščino. Poleg tega je v okviru storitev CLARIN.SI ReLDIanno na voljo tudi spletno orodje za razpoznavo imenskih entitet (NER). Prenesete pa si lahko tudi orodje janes-ner.

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

Slovenska besedila lahko skladenjsko razčlenite na več načinov:


3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

  • CLARIN.SI-embed.sl je zbirka vektorskih vložitev besed, ki so bile naučene na najobsežnejši zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS idr.).
  • Zbirke naučenih vektorskih vložitev za slovenščino so na voljo tudi v orodjih SketchEngine in fastText.
  • Če želite naučiti svoje vektorske vložitve, lahko uporabite slovenski del podatkovne zbirke Commoncrawl, ki je največja prostodostopna zbirka slovenskih besedil.

Poleg tega lahko uporabite tudi najsodobnejši slovenski vnaprej naučeni jezikovni model BERT/RoBERTa SloBERTa, ki predstavlja besede/pojavnice kot kontekstualne besedne vložitve. Model omogoča izluščitev vektorskih vložitev vseh pojavitev besed, kar lahko uporabite za učenje modela v določen namen. Skripti in programi za pripravo podatkov in učenje modela so na voljo tukaj.

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

Za učenje normalizatorjev spletnih besedil v slovenščini je na voljo nabor podatkov Janes-norm, za normalizacijo podatkov v starejši slovenščini pa nabor podatkov goo300k.

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

Referenčni nabor podatkov, ki je na voljo za učenje standardnega označevalnika, je ssj500k. Uporabite lahko tudi nabor podatkov jos1M, ki predstavlja srebrni standard in je razširitev nabora podatkov ssj500k. Obstajata pa tudi učna nabora podatkov za spletno slovenščino (Janes-Tag) in starejšo slovenščino (goo300k).

Poleg tega lahko uporabite tudi orodja CLASSLA skupaj z zbirko vektorskih vložitev besed CLARIN.SI-embed.sl in učnim naborom podatkov ssj500k, da naučite in evalvirate lasten oblikoskladenjski označevalnik. Podrobna navodila najdete tukaj.

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

Za učenje lematizatorjev lahko uporabite podatke za učenje označevalnika (ssj500k, jos1M, Janes-Tag, goo300k; podrobnosti najdete pri vprašanju o učenju oblikoskladenjskega označevalnika) in/ali oblikoslovni leksikon Sloleks.

Za učenje lastnega lematizatorja standardne ali nestandardne slovenščine lahko uporabite tudi orodja CLASSLA, ki pri lematizaciji uporabljajo zunanji leksikon (Sloleks). Navodila se nahajajo tukaj.

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

Najboljši vir za učenje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov ssj500k. Za učenje orodij NER za spletna, nestandardna besedila je na voljo nabor podatkov Janes-Tag. Če pa želite učiti modele NER za besedila v starejši slovenščini, je najbolje uporabiti nabor podatkov goo300k.

Svoje orodje za razpoznavo imenskih entitet lahko učite tudi prek orodij CLASSLA. Navodila za učenje najdete tukaj.

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Če želite za odvisnostno razčlenjevanje uporabiti shemo Univerzalne odvisnostne drevesnice, učne podatke dobite v repozitoriju Univerzalne odvisnostne drevesnice.

Za učenje razčlenjevalnikov po shemi, razviti posebej za slovenščino, pa vam je na voljo nabor podatkov ssj500k.

Za učenje lastnega skladenjskega razčlenjevalnika lahko uporabite tudi orodja CLASSLA. Podrobnejša navodila najdete tukaj.