Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Pogosta vprašanja o jezikovnih virih in tehnologijah za slovenščino

Ta pogosta vprašanja z odgovori (FAQ) so del dokumentacije središča CLASSLA, ki je središče znanja za južnoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. Če opazite manjkajoče ali napačne informacije, prosimo, da nas o tem obvestite v e-poštnem sporočilu z zadevo »FAQ_slovenščina« na naslov helpdesk.classla@clarin.si

Vprašanja v tem razdelku so razdeljena v tri glavne sklope:

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

Spodaj so našteti glavni slovarski portali, ki jih ponujajo člani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:

Slovarji drugih ponudnikov:

  • Islovar je terminološki slovar informatike, ki ga ureja Slovensko društvo Informatika.
  • Wikislovar je slovenski del splošnega, večjezičnega, prostodostopnega in prostourejevalnega slovarja.

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

CLARIN.SI omogoča dostop do dveh konkordančnikov, ki uporabljata isto zaledje in nabor korpusov, vendar imata različen čelni del sistema:

  • NoSketch Engine je odprtokodna različica znanega orodja Sketch Engine. Registracija ni potrebna niti mogoča, kar ima določene pomanjkljivosti, npr. ni mogoče shraniti nastavitev prikaza zadetkov ali ustvarjati zasebnih podkorpusov.
  • KonText je konkordančnik, za katerega je značilen drugačen uporabniški vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednejših možnosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.

Navodila za iskanje po korpusih prek vmesnikov, podobnih konkordančniku Sketch Engine, najdete na tej povezavi.

Dobro je vedeti, da plačljivo orodje Sketch Engine prav tako omogoča dostop do številnih korpusov slovenščine, poleg tega pa ponuja tudi dodatne možnosti analiziranja korpusa, ki jih pri brezplačnem konkordančniku NoSketch Engine ne najdemo. Med drugim omogoča analiziranje kolokacij (Besedne skice), sopomenk in protipomenk (Tezaver), ustvarjanje frekvenčnih seznamov večbesednih enot (N-grami) in luščenje ključnih besed in terminov. Uporabniki pa lahko ustvarijo tudi lastne korpuse. Dostop do orodja Sketch Engine je sicer za nepridobitne namene v obdobju 2018–2022 za raziskovalce v EU brezplačen.

Nekateri korpusi slovenščine, še posebej tisti, ki so bili zbrani v okviru projekta »Sporazumevanje v slovenskem jeziku«, imajo svoje posebne spletne konkordančnike, prim. seznam korpusov pri vprašanju V1.3.

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

Gigafida je osrednji referenčni korpus za slovenščino (1 milijarda besed), po katerem lahko iščete prek posebnega vmesnika ali prek konkordančnikov noSkE in KonText. Na voljo je tudi različica korpusa, v kateri so odstranjeni vsi (skoraj) identični odstavki, prim. noSkE ali KonText. Uravnoteženi podkorpus Gigafide se imenuje KRES (100 milijonov pojavnic), iskanje po njem pa je omogočeno prek posebnega vmesnika.

Celoten seznam korpusov, po katerih lahko iščete s konkordančnikoma, ki jih ponuja CLARIN.SI, je na voljo v kazalu na spletnem mestu noSkE in KonText. Spodaj je naštetih nekaj najpomembnejših, ki so opremljeni s povezavo do konkordančnika noSketch Engine:

  • korpus splošnega jezika je (poleg Gigafide) tudi korpus slWaC, obsežen korpus slovenskih spletnih besedil (900 milijonov pojavnic);
  • specializirani korpusi vključujejo korpus akademske slovenščine KAS, korpus slovenskih uporabniških besedil Janes, korpus govorjene slovenščine GOS, korpusa parlamentarnih razprav siParl in ParlaMint-SI, korpus besedil iz Wikipedije CLASSLAWiki-sl, korpus starejše slovenščine IMP, korpus 100 romanov ELTeC-slv, korpus mladinske književnosti MAKS in korpus pisnih šolskih izdelkov ŠOLAR;
  • ročno označeni korpusi zajemajo korpus ssj500k (vzorčen iz Gigafide), korpus starejše slovenščine goo300k (vzorčen iz korpusa IMP), korpus s termini označenih besedil RSDO5 in korpusa slovenskih uporabniških besedil Janes-norm (vzorčen iz korpusa Janes), ki je ročno normaliziran, in Janes-tag (vzorčen iz Janes-norm), ki je ročno lematiziran ter označen z oblikoskladenjskimi oznakami in imenskimi entitetami;
  • vzporedni korpusi vključujejo večjezični korpus prevodov Generalnega direktorata za prevajanje EU DGT-UD: Slovenian, slovensko-angleški korpus TRANS5, italijansko-slovenski korpus ISPAC, francosko-slovenski korpus LeMonde in japonsko-slovenski korpus jaSlo.

Sketch Engine, ki je za nepridobitne namene med letoma 2018 in 2022 brezplačen, tudi ponuja več slovenskih korpusov, npr. korpus lektoriranih avtorskih besedil in prevodov Lektor, po katerem lahko iščete tudi prek posebnega vmesnika, korpus EUR-Lex Slovenian 2/2016, vzporedni korpus zapisnikov razprav Evropskega parlamenta EUROPARL7 in vzporedni korpus 40 jezikov OPUS2.

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

Večina zgoraj omenjenih korpusov je oblikoskladenjsko označenih z naborom oznak MULTEXT-East za slovenski jezik. Na skladenjski ravni se, še posebej pri starejših korpusih, uporablja nabor oznak SSJ, ki je bil razvit posebej za slovenščino.

Pri novejših korpusih se vedno bolj uporabljajo smernice, oblikovane v okviru projekta Univerzalne odvisnostne drevesnice (UD). Imenske entitete so navadno označene v skladu s smernicami za imenske entitete JANES.

V1.5: Kje lahko prevzamem vire za slovenščino?

Glavno mesto za arhiviranje in prevzemanje virov za slovenščino je repozitorij CLARIN.

Repozitorij poleg virov, omenjenih pri drugih vprašanjih, ponuja še:

  • ročno označene korpuse in podatkovne zbirke, kot so zbirka primerov rabe vejice Vejica 1.3, zbirka idiomatskih besednih zvez SloIE, korpus metafor KOMET, dvojezična zbirka izluščene terminologije KAS-biterm, korpus novic SentiNews z označenim sentimentom, korpus tvitov Janes-Preklop z označenim kodnim preklapljanjem, zbirka družbeno nesprejemljivega diskurza FRENK in korpus popravljenih strojnih prevodov PErr;
  • druge korpuse in podatkovne zbirke, kot so jezikovno označen korpus parlamentarnih razprav ParlaMint.ana, korpus tvitov z označenim sentimentom, zbirka tvitov z avtomatsko označenim sovražnim govorom, slovensko-angleški vzporedni korpus slenWaC, leksikon emojijev z avtomatsko označenim sentimentom, leksikon čustev LiLaH in korpus literature iz maja 1968 Maj68.

2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

Cevovod CLASSLA, ki temelji na najnovejših tehnologijah in metodah jezikovne obdelave, omogoča obdelavo standardne in nestandardne (spletne) slovenščine, in sicer tokenizacijo in členitev na stavke, oblikoskladenjsko označevanje, lematizacijo, odvisnostno razčlenjevanje ter razpoznavo imenskih entitet. Za obdelavo standardne slovenščine se uporablja tokenizator Obeliks4J, ki deluje na podlagi pravil, za druge primere pa tokenizator reldi-tokeniser. V sklopu cevovoda CLASSLA so tudi že pripravljeni modeli za lematizacijo standardne in nestandardne slovenščine ter za oblikoskladenjsko označevanje standardnega in nestandardnega slovenskega jezika.

Navodila za namestitev in uporabo cevovoda CLASSLA najdete tukaj. Za slovenščino je na voljo tudi nekaj dodatnih možnosti obdelave, podrobneje opisanih tukaj, in sicer uporaba slovenskega nabora oznak SSJ, oblikoslovnega leksikona in predhodno tokeniziranih podatkov.

Poleg tega je tokenizacijo, oblikoskladenjsko označevanje in lematizacijo besedil mogoče izvesti tudi s storitvami CLARIN.SI ReLDIanno. Navodila za uporabo teh storitev prek spletnega vmesnika ali kot spletne storitve so na voljo tukaj. Orodja lahko uporabljate tudi lokalno, npr. tokenizator, oblikoskladenjski označevalnik in lematizator.

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI ReLDIanno. Uporaba storitev je opisana tukaj. Rediakritizator REDI lahko tudi namestite in ga uporabljate lokalno.

Za normalizacijo na ravni besed, npr. v besedilih v starejši in spletni slovenščini, lahko namestite normalizator besedil CSMTiser.

V2.3: Kako lahko v besedilu označim imenske entitete?

Razpoznavo imenskih entitet lahko izvedete prek cevovoda CLASSLA, ki ponuja že pripravljene modele za standardno in nestandardno slovenščino. Poleg tega je v okviru storitev CLARIN.SI ReLDIanno na voljo tudi spletno orodje za razpoznavo imenskih entitet (NER). Prenesete pa si lahko tudi orodje janes-ner.

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

Slovenska besedila lahko skladenjsko razčlenite na več načinov:


3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

  • CLARIN.SI-embed.sl je zbirka vektorskih vložitev besed, ki so bile naučene na najobsežnejši zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS idr.).
  • Zbirke naučenih vektorskih vložitev za slovenščino so na voljo tudi v orodjih SketchEngine in fastText.
  • Če želite naučiti svoje vektorske vložitve, lahko uporabite slovenski del podatkovne zbirke Commoncrawl, ki je največja prostodostopna zbirka slovenskih besedil.

Poleg tega lahko uporabite tudi najsodobnejši slovenski vnaprej naučeni jezikovni model BERT/RoBERTa SloBERTa, ki predstavlja besede/pojavnice kot kontekstualne besedne vložitve. Model omogoča izluščitev vektorskih vložitev vseh pojavitev besed, kar lahko uporabite za učenje modela v določen namen. Skripti in programi za pripravo podatkov in učenje modela so na voljo tukaj.

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

Za učenje normalizatorjev spletnih besedil v slovenščini je na voljo nabor podatkov Janes-norm, za normalizacijo podatkov v starejši slovenščini pa nabor podatkov goo300k.

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

Referenčni nabor podatkov, ki je na voljo za učenje standardnega označevalnika, je ssj500k. Uporabite lahko tudi nabor podatkov jos1M, ki predstavlja srebrni standard in je razširitev nabora podatkov ssj500k. Obstajata pa tudi učna nabora podatkov za spletno slovenščino (Janes-tag) in starejšo slovenščino (goo300k).

Poleg tega lahko uporabite tudi orodja CLASSLA skupaj z zbirko vektorskih vložitev besed CLARIN.SI-embed.sl in učnim naborom podatkov ssj500k, da naučite in evalvirate lasten oblikoskladenjski označevalnik. Podrobna navodila najdete tukaj.

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

Za učenje lematizatorjev lahko uporabite podatke za učenje označevalnika (ssj500k, jos1M, Janes-tag, goo300k; podrobnosti najdete pri vprašanju o učenju oblikoskladenjskega označevalnika) in/ali oblikoslovni leksikon Sloleks.

Za učenje lastnega lematizatorja standardne ali nestandardne slovenščine lahko uporabite tudi orodja CLASSLA, ki pri lematizaciji uporabljajo zunanji leksikon (Sloleks). Navodila se nahajajo tukaj.

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

Najboljši vir za učenje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov ssj500k. Za učenje orodij NER za spletna, nestandardna besedila je na voljo nabor podatkov Janes-tag. Če pa želite učiti modele NER za besedila v starejši slovenščini, je najbolje uporabiti nabor podatkov goo300k.

Svoje orodje za razpoznavo imenskih entitet lahko učite tudi prek orodij CLASSLA. Navodila za učenje najdete tukaj.

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Če želite za odvisnostno razčlenjevanje uporabiti shemo Univerzalne odvisnostne drevesnice, učne podatke dobite v repozitoriju Univerzalne odvisnostne drevesnice.

Za učenje razčlenjevalnikov po shemi, razviti posebej za slovenščino, pa vam je na voljo nabor podatkov ssj500k.

Za učenje lastnega skladenjskega razčlenjevalnika lahko uporabite tudi orodja CLASSLA. Podrobnejša navodila najdete tukaj.