Pogosta vprašanja o jezikovnih virih in tehnologijah za slovenščino

	Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije Common Language Resources and Technology Infrastructure, Slovenia

Ta pogosta vprašanja z odgovori (FAQ) so del dokumentacije središča CLASSLA, ki je središče znanja za južnoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. Če opazite manjkajoče ali napačne informacije, prosimo, da nas o tem obvestite v e-poštnem sporočilu z zadevo »FAQ_slovenščina« na naslov helpdesk.classla@clarin.si

Vprašanja v tem razdelku so razdeljena v tri glavne sklope:

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

V1.5: Kje lahko prevzamem vire za slovenščino?

2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

V2.3: Kako lahko v besedilu označim imenske entitete?

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

Spodaj so našteti glavni slovarski portali, ki jih ponujajo člani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:

- FRAN omogoča enotno iskanje po vseh slovarjih slovenskega jezika (splošnem, etimološkem, zgodovinskem, terminološkem in narečnem), ki jih upravlja Inštitut za slovenski jezik Frana Ramovša ZRC SAZU. Poleg tega Inštitut ponuja tudi Šolski slovar slovenskega jezika, ki je dostopen na portalu Franček.
- Slovar sopomenk, kolokacijski slovar, manjši slovar tviterščine in slovensko-madžarski slovar so na voljo na portalu Centra za jezikovne vire in tehnologije Univerze v Ljubljani.

Kontekst.io je leksikon semantično povezanih besed za slovenščino, hrvaščino in srbščino, ki je bil narejen avtomatsko na osnovi vložitev besed iz velikih korpusov.
Termania je prosto dostopni spletni slovarski portal za različne jezike in področja, ki ga ponuja podjetje Amebis.
Sloleks, slovenski oblikoslovni leksikon, SSSJ, testni spletni slovar slovenskega jezika, in LBS, prototipna leksikalna baza za slovenščino, so del rezultatov projekta »Sporazumevanje v slovenskem jeziku«, katerega portal gostuje na strežniku infrastrukture CLARIN.SI.
sloWNet, semantični leksikon slovenskega jezika po vzoru leksikona WordNet, IMP, glosar starejše slovenščine, in jaSlo, japonsko-slovenski učni slovar, upravlja Institut »Jožef Stefan«.
WordNet OSWN in sloWNet-USAS, razširjena semantična leksikona slovenskega jezika, ki vključujeta tudi leksikon sloWNet, sta na voljo na repozitoriju CLARIN.SI.
Razvezani jezik, slovar žive slovenščine, ponuja Društvo za domače raziskave.
Repozitorij CLARIN.SI omogoča prenos tudi več terminoloških slovarjev, kot so slovensko-angleški slovar vzgoje in izobraževanja, terminološki slovar umetne inteligence, davčni terminološki slovar in drugi.

Slovarji drugih ponudnikov:

Večjezično terminološko zbirko Evroterm in obsežen seznam slovarjev, dostopnih prek spleta, ponuja Sektor za prevajanje Generalnega sekretariata Vlade Republike Slovenije.
Islovar je terminološki slovar informatike, ki ga ureja Slovensko društvo Informatika.
Wikislovar je slovenski del splošnega, večjezičnega, prostodostopnega in prostourejevalnega slovarja.

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

CLARIN.SI omogoča dostop do štirih konkordančnikov, ki uporabljajo isto zaledje in nabor korpusov, vendar imajo različen čelni del sistema:

CLARIN.SI Crystal noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine. Navodila za uporabo so dostopna tukaj. CLARIN.SI ponuja dve instalaciji Crystal noSketch Engine: odprto instalacijo (dostop brez prijave, kar olajša uporabo manj zahtevnim uporabnikom) in različico s prijavo, ki omogoča izdelavo podkorpusov in osebne nastavitve prikazov.
KonText je konkordančnik, za katerega je značilen drugačen uporabniški vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednejših možnosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.
CLARIN.SI Bonito noSketch Engine je stara različica programa noSketch Engine, ki ima bistveno drugačen izgled uporabniškega vmesnika kot Crystal. Stara različica omogoča nekatere funkcionalnosti, ki jih novi noSketch Engine ne, predvsem dostop do rezultatov poizvedb v formatu XML, kjer zadošča, da na konec URL-ja poizvedbe dodamo parameter “format=XML”.

Navodila za iskanje po korpusih prek vmesnikov, podobnih konkordančniku Sketch Engine, najdete na tej povezavi.

Dobro je vedeti, da plačljivo orodje Sketch Engine prav tako omogoča dostop do številnih korpusov slovenščine, poleg tega pa ponuja tudi dodatne možnosti analiziranja korpusa, ki jih pri brezplačnem konkordančniku NoSketch Engine ne najdemo. Med drugim omogoča analiziranje kolokacij (Besedne skice), sopomenk in protipomenk (Tezaver), ustvarjanje frekvenčnih seznamov večbesednih enot (N-grami) in luščenje ključnih besed in terminov. Uporabniki pa lahko ustvarijo tudi lastne korpuse.

Nekateri korpusi slovenščine, še posebej tisti, ki so bili zbrani v okviru projekta »Sporazumevanje v slovenskem jeziku«, imajo svoje posebne spletne konkordančnike, prim. seznam korpusov pri vprašanju V1.3.

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

Gigafida je osrednji referenčni korpus za slovenščino (1 milijarda besed), po katerem lahko iščete prek posebnega vmesnika ali prek konkordančnikov Crystal noSkE, Bonito noSkE in KonText. Na voljo je tudi različica korpusa, v kateri so odstranjeni vsi (skoraj) identični odstavki, prim. noSkE ali KonText. Uravnoteženi podkorpus Gigafide se imenuje KRES (100 milijonov pojavnic), iskanje po njem pa je omogočeno prek posebnega vmesnika.

Celoten seznam korpusov, po katerih lahko iščete s konkordančniki, ki jih ponuja CLARIN.SI, je na voljo v kazalu na spletnih mestih Crystal noSkE, Bonito noSkE in KonText. Spodaj je naštetih nekaj najpomembnejših, ki so opremljeni s povezavo do konkordančnika Crystal noSketch Engine:

korpusa splošnega jezika sta (poleg Gigafide) tudi korpusa CLASSLA-web.sl (2 milijardi pojavnic) in slWaC (900 milijonov pojavnic), obsežna korpusa slovenskih spletnih besedil;
specializirani korpusi vključujejo korpus akademske slovenščine KAS, korpus znanstvenih objav s portala Open Science OSS, korpus znanstvenih besedil sodobne slovenščine KZB, korpus slovenskih uporabniških besedil Janes, spremljevalni korpus Trendi, korpus govorjene slovenščine GOS, korpusi parlamentarnih razprav siParl, ParlaMint-SI, yu1Parl in korpus obravnav deželnega zbora kranjskega Kranjska, korpus besedil iz Wikipedije CLASSLAWiki-sl, korpus starejše slovenščine IMP, korpus slovenske periodike (1771-1914) sPeriodika, korpus Pregovori, korpus daljše proze KDSP, korpus mladinske književnosti MAKS, korpus pisnih šolskih izdelkov ŠOLAR in korpus slovenščine kot tuji jezik KOST;
ročno označeni korpusi zajemajo učni korpus SUK, korpus starejše slovenščine goo300k (vzorčen iz korpusa IMP), korpus s termini označenih besedil RSDO5 in korpusa slovenskih uporabniških besedil Janes Norm (vzorčen iz korpusa Janes), ki je ročno normaliziran, in Janes Tag (vzorčen iz Janes-norm), ki je ročno lematiziran ter označen z oblikoskladenjskimi oznakami in imenskimi entitetami;
združeni korpus metaFida, ki zajema 6 milijard pojavnic, združuje najpomembnejše javno dostopne slovenske korpuse in omogoča enovito in pregledno iskanje po njih;
vzporedni korpusi vključujejo večjezične evropske korpuse parlamentarnih razprav ParlaMint-XX, poravnane s strojno prevedenimi angleškimi korpusi ParlaMint-XX-en, večjezični korpus prevodov Generalnega direktorata za prevajanje EU DGT-UD: Slovenian, slovensko-angleški korpus TRANS5, italijansko-slovenski korpus ISPAC, francosko-slovenski korpus LeMonde in japonsko-slovenski korpus jaSlo.

Poleg tega ponuja več slovenskih korpusov tudi plačljivi Sketch Engine, npr. korpus lektoriranih avtorskih besedil in prevodov Lektor, po katerem lahko iščete tudi prek posebnega vmesnika, korpus EUR-Lex Slovenian 2/2016, vzporedni korpus zapisnikov razprav Evropskega parlamenta EUROPARL7 in vzporedni korpus 40 jezikov OPUS2.

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

Za podrobne informacije se obrnite na pregled jezikoslovnega označevanja slovenskih korpusov na CJVT Wiki. Korpusno označevanje je predstavljeno po sledečih označevalnih nivojih: tokenizacija, stavčna segmentacija, lematizacija, oblikoskladnja JOS/MULTEXT-East v6, skladnja SSJ/JOS, skladnja Universal Dependencies (UD), udeleženske vloge (SRL), imenske entitete (NER), normalizacija, koreference in povezave, predstavljena pa sta tudi sistema za označevanje jezikovnih popravkov v korpusih Šolar (besedila učencev) in KOST (besedila govorcev slovenščine kot tujega jezika). Vsako označevalno ravnino sestavljajo kratka predstavitev, predstavitev oznak oz. procesa, označevalne smernice ter relevantne reference in povezave.

Večina zgoraj omenjenih korpusov je oblikoskladenjsko označenih z naborom oznak MULTEXT-East za slovenski jezik. Na skladenjski ravni se, še posebej pri starejših korpusih, uporablja nabor oznak SSJ, ki je bil razvit posebej za slovenščino. Pri novejših korpusih se vedno bolj uporabljajo smernice, oblikovane v okviru projekta Univerzalne odvisnostne drevesnice (UD). Imenske entitete so navadno označene v skladu s smernicami za imenske entitete JANES.

V1.5: Kje lahko prevzamem vire za slovenščino?

Glavno mesto za arhiviranje in prevzemanje virov za slovenščino je repozitorij CLARIN.SI.

Repozitorij poleg virov, omenjenih pri drugih vprašanjih, ponuja še:

ročno označene korpuse in podatkovne zbirke, kot so zbirka primerov rabe vejice Vejica 1.3, zbirka idiomatskih besednih zvez SloIE, korpusa metafor KOMET in G-KOMET, dvojezična zbirka izluščene terminologije KAS-biterm, korpus novic SentiNews z označenim sentimentom, večjezična zbirka parlamentarnih razprav ParlaSent z označenim sentimentom, angleško-slovenska zbirka besedil, označenih z žanri X-GENRE, testna množica za zaznavanje semantičnih premikov, korpus tvitov Janes-Preklop z označenim kodnim preklapljanjem, zbirka družbeno nesprejemljivega diskurza FRENK, korpus popravljenih strojnih prevodov PErr, zbirka za vrednotenje zdravorazumskega sklepanja jezikovnih modelov DIALECT-COPA v idrijščini in zbirka besedil Šolar-Eval za vrednotenje slovenskih črkovalnikov in slovničnih pregledovalnikov;
druge vzporedne korpuse, kot so slovensko-angleški vzporedni korpusi MaCoCu-sl-en, slenWaC in RSDO4 1.0 ter slovensko-angleški vzporedni korpus besedil z idiomatskimi zvezami ParaDiom;
druge korpuse in podatkovne zbirke, kot so obsežen korpus spletnih besedil MaCoCu-sl (1,9 milijarde besed), ki je na voljo tudi v sklopu zbirke korpusov MaCoCu-Genre, označene z žanri, jezikovno označen korpus parlamentarnih razprav ParlaMint.ana, korpus tvitov z označenim sentimentom, zbirka tvitov z avtomatsko označenim sovražnim govorom, korpus šal Šale24, večjezična zbirka novic EMMediaTopic, označena s tematskimi kategorijami po naboru kategorij IPTC, korpus učbenikov ccUčbeniki, korpus literature iz maja 1968 Maj68, zbirka medicinskih besedil PoVeJMo-VeMo-Med, zbirke za pomensko detekcijo sopomenk in protipomenk, vzporedni korpus za pomensko razdvoumljanje ELEXIS-WSD, zbirka KE-WSC Winograd Schema Challenge za preučevanje problemov razlaganja znanja in omogočanje z znanjem podprtega strojnega učenja, učna zbirka za avtomatsko poenostavljanje besedil SloTS, zbirka za sklepanje v naravnem jeziku SI-NLI, zbirka za ekstrakcijo relacij SloREL, učne množice za dialoge in ukazne zahtevke GaMS-Instruct-GEN, GaMS-Instruct-DH in GaMS-Instruct-MED, govorna baza ARTUR za avtomatsko razpoznavanje govora in govorni korpus Berta;
sezname besed in druge leksikalne vire, kot so leksikon terminoloških večbesednih enot, baza glagolov zahodnih južnoslovanskih jezikov WeSoSlaV, seznam jedrnega besedišča za učenje slovenščine kot drugega in tujega jezika, baza asociacij SWOW-SL, leksikon emojijev z avtomatsko označenim sentimentom in leksikon čustev SloEmoLex.

2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

Cevovod CLASSLA-Stanza, ki temelji na najnovejših tehnologijah in metodah jezikovne obdelave, omogoča obdelavo standardne in nestandardne (spletne) slovenščine, in sicer tokenizacijo in členitev na stavke, oblikoskladenjsko označevanje, lematizacijo, odvisnostno razčlenjevanje ter razpoznavo imenskih entitet. Za obdelavo standardne slovenščine se uporablja tokenizator Obeliks4J, ki deluje na podlagi pravil, za druge primere pa tokenizator reldi-tokeniser. V sklopu cevovoda CLASSLA-Stanza so tudi že pripravljeni modeli za lematizacijo standardne in nestandardne slovenščine, za oblikoskladenjsko označevanje standardnega in nestandardnega slovenskega jezika, ter za označevanje udeleženskih vlog za standardno slovenščino. Cevovod lahko preizkusite na spletni strani Označevalnika CLASSLA.

Navodila za namestitev in uporabo cevovoda CLASSLA-Stanza najdete tukaj. Za slovenščino je na voljo tudi nekaj dodatnih možnosti obdelave, podrobneje opisanih tukaj, in sicer uporaba slovenskega nabora oznak SSJ, oblikoslovnega leksikona in predhodno tokeniziranih podatkov.

Poleg tega je tokenizacijo, oblikoskladenjsko označevanje in lematizacijo besedil mogoče izvesti tudi s storitvami CLARIN.SI ReLDIanno. To je zastarelo orodje za jezikovno obdelavo, ki je sicer še vedno na voljo, vendar novim uporabnikom priporočamo uporabo zgoraj omenjenega cevovoda CLASSLA-Stanza.

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

Zgoraj omenjeni cevovod CLASSLA-Stanza vključuje tudi modele za obdelavo nestandardnega jezika, ki omogočajo jezikovno obdelavo nestandardnih besedil že pred prej potrebno standardizacijo.

Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI ReLDIanno. Uporaba storitev je opisana tukaj. Rediakritizator REDI lahko tudi namestite in ga uporabljate lokalno.

Za normalizacijo na ravni besed, npr. v besedilih v starejši in spletni slovenščini, lahko namestite normalizator besedil CSMTiser.

V2.3: Kako lahko v besedilu označim imenske entitete?

Razpoznavo imenskih entitet lahko izvedete prek cevovoda CLASSLA-Stanza, ki ponuja že pripravljene modele za standardno in nestandardno slovenščino. Poleg tega je v okviru storitev CLARIN.SI ReLDIanno na voljo tudi spletno orodje za razpoznavo imenskih entitet (NER). Prenesete pa si lahko tudi orodje janes-ner.

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

Slovenska besedila lahko skladenjsko razčlenite na več načinov:

s cevovodom CLASSLA-Stanza (shema Univerzalne odvisnostne drevesnice), ki vključuje tudi že pripravljena modela za skladenjsko razčlenjevanje po shemi UD in po slovenski shemi JOS,
s storitvami CLARIN.SI ReLDIanno (shema Univerzalne odvisnostne drevesnice),
z orodjem UDPipe, ki ima že pripravljene modele za veliko število jezikov, vključno s slovenščino (shema Univerzalne odvisnostne drevesnice),
z Razčlenjevalnikom (shema, razvita posebej za slovenščino).

3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

CLARIN.SI-embed.sl je zbirka vektorskih vložitev besed, ki so bile naučene na najobsežnejši zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS, MaCoCu-sl, idr.).
Zbirke naučenih vektorskih vložitev za slovenščino so na voljo tudi v orodjih SketchEngine in fastText.
Če želite naučiti svoje vektorske vložitve, lahko uporabite slovenski del podatkovne zbirke Commoncrawl, ki je največja prostodostopna zbirka slovenskih besedil.

Poleg tega lahko uporabite tudi najsodobnejši slovenski vnaprej naučeni jezikovni model BERT/RoBERTa SloBERTa, ki predstavlja besede/pojavnice kot kontekstualne besedne vložitve. Model omogoča izluščitev vektorskih vložitev vseh pojavitev besed, kar lahko uporabite za učenje modela v določen namen. Skripti in programi za pripravo podatkov in učenje modela so na voljo tukaj.

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

Za učenje normalizatorjev spletnih besedil v slovenščini je na voljo nabor podatkov Janes-norm, za normalizacijo podatkov v starejši slovenščini pa nabor podatkov goo300k.

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

Referenčni nabor podatkov, ki je na voljo za učenje standardnega označevalnika, je SUK. Uporabite lahko tudi nabor podatkov jos1M, ki predstavlja srebrni standard. Obstajata pa tudi učna nabora podatkov za spletno slovenščino (Janes-Tag) in starejšo slovenščino (goo300k).

Poleg tega lahko uporabite tudi orodja CLASSLA-Stanza skupaj z zbirko vektorskih vložitev besed CLARIN.SI-embed.sl in učnim naborom podatkov SUK, da naučite in evalvirate lasten oblikoskladenjski označevalnik. Podrobna navodila najdete tukaj.

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

Za učenje lematizatorjev lahko uporabite podatke za učenje označevalnika (SUK, jos1M, Janes-Tag, goo300k; podrobnosti najdete pri vprašanju o učenju oblikoskladenjskega označevalnika) in/ali oblikoslovni leksikon Sloleks.

Za učenje lastnega lematizatorja standardne ali nestandardne slovenščine lahko uporabite tudi orodja CLASSLA-Stanza, ki pri lematizaciji uporabljajo zunanji leksikon (Sloleks). Navodila se nahajajo tukaj.

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

Najboljši vir za učenje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov SUK. Za učenje orodij NER za spletna, nestandardna besedila je na voljo nabor podatkov Janes-Tag. Če pa želite učiti modele NER za besedila v starejši slovenščini, je najbolje uporabiti nabor podatkov goo300k.

Svoje orodje za razpoznavo imenskih entitet lahko učite tudi prek orodij CLASSLA-Stanza. Navodila za učenje najdete tukaj.

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Če želite za odvisnostno razčlenjevanje uporabiti shemo Univerzalne odvisnostne drevesnice, učne podatke dobite v repozitoriju Univerzalne odvisnostne drevesnice.

Za učenje razčlenjevalnikov po shemi, razviti posebej za slovenščino, pa vam je na voljo nabor podatkov SUK.

Za učenje lastnega skladenjskega razčlenjevalnika lahko uporabite tudi orodja CLASSLA-Stanza. Podrobnejša navodila najdete tukaj.

1. Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

V1.5: Kje lahko prevzamem vire za slovenščino?

2. Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

V2.3: Kako lahko v besedilu označim imenske entitete?

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

3. Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed ali vnaprej naučene jezikovne modele za slovenščino?

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?