Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Pogosta vprašanja o jezikovnih virih in tehnologijah za slovenščino

Ta pogosta vprašanja z odgovori (FAQ) so del dokumentacije središča CLASSLA, ki je središče znanja za južnoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. Če opazite manjkajoče ali napačne informacije, prosimo, da nas o tem obvestite v e-poštnem sporočilu z zadevo »FAQ_slovenščina« na naslov helpdesk.classla@clarin.si

Vprašanja v tem razdelku so razdeljena v tri glavne sklope:

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

Spodaj so našteti glavni slovarski portali, ki jih ponujajo člani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:

Slovarji drugih ponudnikov:

  • Večjezično terminološko zbirko Evroterm in obsežen seznam slovarjev, dostopnih prek spleta, ponuja Sektor za prevajanje Generalnega sekretariata Vlade Republike Slovenije.
  • Islovar je terminološki slovar informatike, ki ga ureja Slovensko društvo Informatika.
  • Wikislovar je slovenski del splošnega, večjezičnega, prostodostopnega in prostourejevalnega slovarja.

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

CLARIN.SI omogoča dostop do štirih konkordančnikov, ki uporabljajo isto zaledje in nabor korpusov, vendar imajo različen čelni del sistema:

  • CLARIN.SI Crystal noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine. Navodila za uporabo so dostopna tukaj. CLARIN.SI ponuja dve instalaciji Crystal noSketch Engine: odprto instalacijo (dostop brez prijave, kar olajša uporabo manj zahtevnim uporabnikom) in različico s prijavo, ki omogoča izdelavo podkorpusov in osebne nastavitve prikazov.
  • KonText je konkordančnik, za katerega je značilen drugačen uporabniški vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednejših možnosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.
  • CLARIN.SI Bonito noSketch Engine je stara različica programa noSketch Engine, ki ima bistveno drugačen izgled uporabniškega vmesnika kot Crystal. Stara različica omogoča nekatere funkcionalnosti, ki jih novi noSketch Engine ne, predvsem dostop do rezultatov poizvedb v formatu XML, kjer zadošča, da na konec URL-ja poizvedbe dodamo parameter “format=XML”.

Navodila za iskanje po korpusih prek vmesnikov, podobnih konkordančniku Sketch Engine, najdete na tej povezavi.

Dobro je vedeti, da plačljivo orodje Sketch Engine prav tako omogoča dostop do številnih korpusov slovenščine, poleg tega pa ponuja tudi dodatne možnosti analiziranja korpusa, ki jih pri brezplačnem konkordančniku NoSketch Engine ne najdemo. Med drugim omogoča analiziranje kolokacij (Besedne skice), sopomenk in protipomenk (Tezaver), ustvarjanje frekvenčnih seznamov večbesednih enot (N-grami) in luščenje ključnih besed in terminov. Uporabniki pa lahko ustvarijo tudi lastne korpuse.

Nekateri korpusi slovenščine, še posebej tisti, ki so bili zbrani v okviru projekta »Sporazumevanje v slovenskem jeziku«, imajo svoje posebne spletne konkordančnike, prim. seznam korpusov pri vprašanju V1.3.

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

Gigafida je osrednji referenčni korpus za slovenščino (1 milijarda besed), po katerem lahko iščete prek posebnega vmesnika ali prek konkordančnikov  Crystal noSkE, Bonito noSkE in KonText. Na voljo je tudi različica korpusa, v kateri so odstranjeni vsi (skoraj) identični odstavki, prim. noSkE ali KonText. Uravnoteženi podkorpus Gigafide se imenuje KRES (100 milijonov pojavnic), iskanje po njem pa je omogočeno prek posebnega vmesnika.

Celoten seznam korpusov, po katerih lahko iščete s konkordančniki, ki jih ponuja CLARIN.SI, je na voljo v kazalu na spletnih mestih Crystal noSkE, Bonito noSkE in KonText. Spodaj je naštetih nekaj najpomembnejših, ki so opremljeni s povezavo do konkordančnika Crystal noSketch Engine:

  • korpusa splošnega jezika sta (poleg Gigafide) tudi korpusa CLASSLA-web.sl (2 milijardi pojavnic) in slWaC (900 milijonov pojavnic), obsežna korpusa slovenskih spletnih besedil;
  • specializirani korpusi vključujejo korpus akademske slovenščine KAS, korpus znanstvenih objav s portala Open Science OSS, korpus znanstvenih besedil sodobne slovenščine KZB, korpus slovenskih uporabniških besedil Janes, spremljevalni korpus Trendi, korpus govorjene slovenščine GOS, korpusi parlamentarnih razprav siParl, ParlaMint-SI, yu1Parl in korpus obravnav deželnega zbora kranjskega Kranjska, korpus besedil iz Wikipedije CLASSLAWiki-sl, korpus starejše slovenščine IMP, korpus slovenske periodike (1771-1914) sPeriodika, korpus Pregovori, korpus daljše proze KDSP, korpus mladinske književnosti MAKS, korpus pisnih šolskih izdelkov ŠOLAR in korpus slovenščine kot tuji jezik KOST;
  • ročno označeni korpusi zajemajo učni korpus SUK, korpus starejše slovenščine goo300k (vzorčen iz korpusa IMP), korpus s termini označenih besedil RSDO5 in korpusa slovenskih uporabniških besedil Janes Norm (vzorčen iz korpusa Janes), ki je ročno normaliziran, in Janes Tag (vzorčen iz Janes-norm), ki je ročno lematiziran ter označen z oblikoskladenjskimi oznakami in imenskimi entitetami;
  • združeni korpus metaFida, ki zajema 6 milijard pojavnic, združuje najpomembnejše javno dostopne slovenske korpuse in omogoča enovito in pregledno iskanje po njih;
  • vzporedni korpusi vključujejo večjezične evropske korpuse parlamentarnih razprav ParlaMint-XX, poravnane s strojno prevedenimi angleškimi korpusi ParlaMint-XX-en, večjezični korpus prevodov Generalnega direktorata za prevajanje EU DGT-UD: Slovenian, slovensko-angleški korpus TRANS5, italijansko-slovenski korpus ISPAC, francosko-slovenski korpus LeMonde in japonsko-slovenski korpus jaSlo.

Poleg tega ponuja več slovenskih korpusov tudi plačljivi Sketch Engine, npr. korpus lektoriranih avtorskih besedil in prevodov Lektor, po katerem lahko iščete tudi prek posebnega vmesnika, korpus EUR-Lex Slovenian 2/2016, vzporedni korpus zapisnikov razprav Evropskega parlamenta EUROPARL7 in vzporedni korpus 40 jezikov OPUS2.

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

Za podrobne informacije se obrnite na pregled jezikoslovnega označevanja slovenskih korpusov na CJVT Wiki. Korpusno označevanje je predstavljeno po sledečih označevalnih nivojih: tokenizacija, stavčna segmentacija, lematizacija, oblikoskladnja JOS/MULTEXT-East v6, skladnja SSJ/JOS, skladnja Universal Dependencies (UD), udeleženske vloge (SRL), imenske entitete (NER), normalizacija, koreference in povezave, predstavljena pa sta tudi sistema za označevanje jezikovnih popravkov v korpusih Šolar (besedila učencev) in KOST (besedila govorcev slovenščine kot tujega jezika). Vsako označevalno ravnino sestavljajo kratka predstavitev, predstavitev oznak oz. procesa, označevalne smernice ter relevantne reference in povezave.

Večina zgoraj omenjenih korpusov je oblikoskladenjsko označenih z naborom oznak MULTEXT-East za slovenski jezik. Na skladenjski ravni se, še posebej pri starejših korpusih, uporablja nabor oznak SSJ, ki je bil razvit posebej za slovenščino. Pri novejših korpusih se vedno bolj uporabljajo smernice, oblikovane v okviru projekta Univerzalne odvisnostne drevesnice (UD). Imenske entitete so navadno označene v skladu s smernicami za imenske entitete JANES.

V1.5: Kje lahko prevzamem vire za slovenščino?

Glavno mesto za arhiviranje in prevzemanje virov za slovenščino je repozitorij CLARIN.SI.

Repozitorij poleg virov, omenjenih pri drugih vprašanjih, ponuja še:


2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

Cevovod CLASSLA, ki temelji na najnovejših tehnologijah in metodah jezikovne obdelave, omogoča obdelavo standardne in nestandardne (spletne) slovenščine, in sicer tokenizacijo in členitev na stavke, oblikoskladenjsko označevanje, lematizacijo, odvisnostno razčlenjevanje ter razpoznavo imenskih entitet. Za obdelavo standardne slovenščine se uporablja tokenizator Obeliks4J, ki deluje na podlagi pravil, za druge primere pa tokenizator reldi-tokeniser. V sklopu cevovoda CLASSLA so tudi že pripravljeni modeli za lematizacijo standardne in nestandardne slovenščine, za oblikoskladenjsko označevanje standardnega in nestandardnega slovenskega jezika, ter za označevanje udeleženskih vlog za standardno slovenščino. Cevovod lahko preizkusite na spletni strani Označevalnika CLASSLA.

Navodila za namestitev in uporabo cevovoda CLASSLA najdete tukaj. Za slovenščino je na voljo tudi nekaj dodatnih možnosti obdelave, podrobneje opisanih tukaj, in sicer uporaba slovenskega nabora oznak SSJ, oblikoslovnega leksikona in predhodno tokeniziranih podatkov.

Poleg tega je tokenizacijo, oblikoskladenjsko označevanje in lematizacijo besedil mogoče izvesti tudi s storitvami CLARIN.SI ReLDIanno. Navodila za uporabo teh storitev prek spletnega vmesnika ali kot spletne storitve so na voljo tukaj. Orodja lahko uporabljate tudi lokalno, npr. tokenizator, oblikoskladenjski označevalnik in lematizator.

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI ReLDIanno. Uporaba storitev je opisana tukaj. Rediakritizator REDI lahko tudi namestite in ga uporabljate lokalno.

Za normalizacijo na ravni besed, npr. v besedilih v starejši in spletni slovenščini, lahko namestite normalizator besedil CSMTiser.

V2.3: Kako lahko v besedilu označim imenske entitete?

Razpoznavo imenskih entitet lahko izvedete prek cevovoda CLASSLA, ki ponuja že pripravljene modele za standardno in nestandardno slovenščino. Poleg tega je v okviru storitev CLARIN.SI ReLDIanno na voljo tudi spletno orodje za razpoznavo imenskih entitet (NER). Prenesete pa si lahko tudi orodje janes-ner.

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

Slovenska besedila lahko skladenjsko razčlenite na več načinov:


3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

  • CLARIN.SI-embed.sl je zbirka vektorskih vložitev besed, ki so bile naučene na najobsežnejši zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS, MaCoCu-sl, idr.).
  • Zbirke naučenih vektorskih vložitev za slovenščino so na voljo tudi v orodjih SketchEngine in fastText.
  • Če želite naučiti svoje vektorske vložitve, lahko uporabite slovenski del podatkovne zbirke Commoncrawl, ki je največja prostodostopna zbirka slovenskih besedil.

Poleg tega lahko uporabite tudi najsodobnejši slovenski vnaprej naučeni jezikovni model BERT/RoBERTa SloBERTa, ki predstavlja besede/pojavnice kot kontekstualne besedne vložitve. Model omogoča izluščitev vektorskih vložitev vseh pojavitev besed, kar lahko uporabite za učenje modela v določen namen. Skripti in programi za pripravo podatkov in učenje modela so na voljo tukaj.

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

Za učenje normalizatorjev spletnih besedil v slovenščini je na voljo nabor podatkov Janes-norm, za normalizacijo podatkov v starejši slovenščini pa nabor podatkov goo300k.

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

Referenčni nabor podatkov, ki je na voljo za učenje standardnega označevalnika, je SUK. Uporabite lahko tudi nabor podatkov jos1M, ki predstavlja srebrni standard. Obstajata pa tudi učna nabora podatkov za spletno slovenščino (Janes-Tag) in starejšo slovenščino (goo300k).

Poleg tega lahko uporabite tudi orodja CLASSLA skupaj z zbirko vektorskih vložitev besed CLARIN.SI-embed.sl in učnim naborom podatkov SUK, da naučite in evalvirate lasten oblikoskladenjski označevalnik. Podrobna navodila najdete tukaj.

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

Za učenje lematizatorjev lahko uporabite podatke za učenje označevalnika (SUK, jos1M, Janes-Tag, goo300k; podrobnosti najdete pri vprašanju o učenju oblikoskladenjskega označevalnika) in/ali oblikoslovni leksikon Sloleks.

Za učenje lastnega lematizatorja standardne ali nestandardne slovenščine lahko uporabite tudi orodja CLASSLA, ki pri lematizaciji uporabljajo zunanji leksikon (Sloleks). Navodila se nahajajo tukaj.

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

Najboljši vir za učenje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov SUK. Za učenje orodij NER za spletna, nestandardna besedila je na voljo nabor podatkov Janes-Tag. Če pa želite učiti modele NER za besedila v starejši slovenščini, je najbolje uporabiti nabor podatkov goo300k.

Svoje orodje za razpoznavo imenskih entitet lahko učite tudi prek orodij CLASSLA. Navodila za učenje najdete tukaj.

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Če želite za odvisnostno razčlenjevanje uporabiti shemo Univerzalne odvisnostne drevesnice, učne podatke dobite v repozitoriju Univerzalne odvisnostne drevesnice.

Za učenje razčlenjevalnikov po shemi, razviti posebej za slovenščino, pa vam je na voljo nabor podatkov SUK.

Za učenje lastnega skladenjskega razčlenjevalnika lahko uporabite tudi orodja CLASSLA. Podrobnejša navodila najdete tukaj.