Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije

POGOSTA VPRAŠANJA O JEZIKOVNIH VIRIH IN TEHNOLOGIJAH ZA SLOVENŠČINO

Ta pogosta vprašanja z odgovori (FAQ) so del dokumentacije središča CLASSLA, ki je središče znanja za južnoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. Če opazite manjkajoče ali napačne informacije, prosimo, da nas o tem obvestite v e-poštnem sporočilu z zadevo »FAQ_slovenščina« na naslov helpdesk.classla@clarin.si

Vprašanja v tem razdelku so razdeljena v tri glavne sklope:

    1. Spletni jezikovni viri za slovenščino
      1. Kje lahko najdem slovarje slovenskega jezika?
      2. Ali lahko korpuse slovenščine analiziram v spletu?
      3. Katere korpuse slovenščine lahko analiziram v spletu?
      4. Katere označevalne sheme so uporabljene v korpusih slovenščine?
      5. Kje lahko prevzamem vire za slovenščino?
    2. Orodja za označevanje slovenskih besedil
      1. Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?
      2. Kako lahko svoja besedila pred obdelavo standardiziram?
      3. Kako lahko v besedilu označim imenske entitete?
      4. Kako lahko skladenjsko razčlenim svoja besedila?
    3. Nabor podatkov za učenje označevalnikov za slovenščino
      1. Kje lahko najdem vektorske vložitve besed za slovenščino?
      2. Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?
      3. Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?
      4. Kateri podatki so na voljo za učenje lematizatorja za slovenščino?
      5. Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?
      6. Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Spletni jezikovni viri za slovenščino

V1.1: Kje lahko najdem slovarje slovenskega jezika?

Spodaj so našteti glavni slovarski portali, ki jih zagotavljajo člani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:

Slovarji drugih ponudnikov:

  • Evroterm, vključuje večjezično terminološko bazo in seznam spletnih slovarjev, za katerega skrbi Vlada Republike Slovenije.
  • Islovar je terminološki slovar informatike, ki ga ureja Slovensko društvo Informatika.
  • Wikislovar je slovenski del splošnega, večjezičnega, prostodostopega in prostourejevalnega slovarja.

V1.2: Ali lahko korpuse slovenščine analiziram v spletu?

CLARIN.SI omogoča dostop do dveh konkordančnikov, ki uporabljata isto zaledje in nabor (slovenskih) korpusov, vendar imata različni čelni del sistema:

  • NoSketch Engine je odprtokodna različica dobro poznanega orodja Sketch Engine. Registracija ni potrebna niti mogoča, kar ima določene pomanjkljivosti, npr. ni mogoče shraniti nastavitev prikaza zadetkov ali ustvarjati zasebnih podkorpusov.
  • Kontext je konkordančnik, ki ga zaznamuje drugačen uporabniški vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednejših možnosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.

Navodila za iskanje po korpusih prek vmesnikov, ki posnemajo Sketch Engine, najdete na tej povezavi.

Dobro je vedeti, da plačljivo orodje Sketch Engine vključuje tudi dostop do številnih korpusov slovenščine. Dostop do orodja Sketch Engine je sicer za nepridobitne namene v obdobju 2018–2022 za raziskovalce v EU brezplačen.

Nekateri korpusi slovenščine, še posebej tisti, ki so bili zgrajeni v okviru projekta »Sporazumevanje v slovenskem jeziku«, imajo svoje posebne spletne konkordančnike, prim. seznam korpusov pri vprašanju V1.3.

V1.3: Katere korpuse slovenščine lahko analiziram v spletu?

Gigafida je osrednji referenčni korpus za slovenščino (1 milijarda besed), po katerem lahko iščete prek posebnega vmesnika ali prek konkordančnikov noSkE in KonText. Na voljo je tudi različica korpusa, v katerem so odstranjeni vsi (skoraj) identični odstavki, prim. noSkE ali KonText. Uravnoteženi podkorpus Gigafide se imenuje KRES (100 milijonov pojavnic), iskanje po njem pa je omogočeno prek posebnega vmesnika.

Celotni seznam korpusov, po katerih lahko iščete s konkordančnikoma, ki jih omogoča CLARIN.SI, je na voljo v kazalu na spletnem mestu noSkE in KonText. Spodaj je naštetih nekaj najpomembnejših, ki so opremljeni tudi s povezavo do konkordančnika noSketch Engine:

  • korpus splošnega jezika je (poleg Gigafide) tudi korpus slWaC, ki je obsežen korpus slovenskih spletnih besedil (900 milijonov pojavnic);
  • specializirani korpusi vključujejo korpus akademske slovenščine KAS, korpus slovenskih uporabniških besedil Janes, korpus govorjene slovenščine GOS, korpus starejše slovenščine IMP in korpus pisnih šolskih izdelkov ŠOLAR;
  • ročno označeni korpusi zajemajo korpus ssj500k (vzorčen iz Gigafide), korpus starejše slovenščine goo300k (vzorčen iz korpusa IMP) in dva korpusa slovenskih uporabniških besedil, in sicer Janes-norm (vzorčen iz korpusa Janes), ki je ročno normaliziran, in Janes-tag (vzorčen iz Janes-norm), ki je ročno lematiziran ter označen z oblikoskladenjskimi oznakami in imenskimi entitetami.

V1.4: Katere označevalne sheme so uporabljene v korpusih slovenščine?

Večina zgoraj omenjenih korpusov je oblikoskladenjsko označenih z naborom oznak MULTEXT-East. Na skladenjski ravni sta uporabljena dva nabora oznak: eden, ki je razvit posebej za slovenščino, in drugi, ki je bil oblikovan v okviru projekta Univerzalne odvisnostne drevesnice (UD). Shema UD že vsebuje nabor oblikoskladenjskih oznak, ki pa se trenutno uporablja le za učne korpuse. Imenske entitete so označene v skladu s smernicami za južnoslovanske jezike.

V1.5: Kje lahko prevzamem vire za slovenščino?

Glavno mesto za arhiviranje in prevzemanje virov za slovenščino je repozitorij CLARIN.


Orodja za označevanje slovenskih besedil

V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?

Tokenizacijo, oblikoskladenjsko označevanje in lematizacijo besedil je mogoče izvesti s storitvami CLARIN.SI. Navodila za uporabo teh storitev prek spletnega vmesnika ali kot spletne storitve so na voljo tukaj. Ta orodja lahko uporabljate tudi lokalno, npr. tokenizator, oblikoskladenjski označevalnik in lematizator.

V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?

  • Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI. Uporaba storitev CLARIN.SI je opisana tukaj. Rediakritizator REDI lahko tudi prenesete in namestite v svoj računalnik in ga uporabljate lokalno.
  • Za normalizacijo na ravni besed, npr. v besedilih v starejši in spletni slovenščini, lahko prenesete in namestite normalizator besedil CSMTiser.

V2.3: Kako lahko v besedilu označim imenske entitete?

Spletno orodje za razpoznavo imenskih entitet (NER) je na voljo v okviru storitev CLARIN.SI. Opis je na voljo tukaj. To orodje NER si lahko tudi prenesete in ga uporabljate lokalno.

V2.4: Kako lahko skladenjsko razčlenim svoja besedila?

Slovenska besedila lahko skladenjsko razčlenite na več načinov:


Nabor podatkov za učenje označevalnikov za slovenščino

V3.1: Kje lahko najdem vektorske vložitve besed za slovenščino?

  • CLARIN.SI-embed.sl je zbirka vektorskih vložitev besed, ki so bile naučene na najobsežnejši zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS idr.).
  • Zbirke naučenih vektorskih vložitev za slovenščino so na voljo tudi v orodjih SketchEngine in fastText.
  • Če želite naučiti svoje vektorske vložitve, lahko uporabite slovenski del podatkovne zbirke Commoncrawl, ki je največja prostodostopna zbirka slovenskih besedil.

V3.2: Kateri podatki so na voljo za učenje normalizatorja besedil za slovenščino?

Za učenje normalizatorjev za spletna besedila v slovenščini je na voljo nabor podatkov Janes-norm, za normalizacijo podatkov v starejši slovenščini pa nabor podatkov goo300k.

V3.3: Kateri podatki so na voljo za učenje oblikoskladenjskega označevalnika za slovenščino?

Referenčni nabor podatkov, ki je na voljo za učenje standardnega označevalnika, je ssj500k. Uporabite lahko tudi nabor podatkov jos1M, ki predstavlja srebrni standard in je razširitev nabora podatkov ssj500k. Obstajata pa tudi učna nabora podatkov za spletno slovenščino (Janes-tag) in starejšo slovenščino (goo300k).

V3.4: Kateri podatki so na voljo za učenje lematizatorja za slovenščino?

Za učenje lematizatorjev lahko uporabite podatke za učenje označevalnika (ssj500k, jos1M, Janes-tag, goo300k; podrobnosti najdete pri vprašanju o učenju oblikoskladenjskega označevalnika) in/ali oblikoslovni leksikon Sloleks.

V3.5: Kateri podatki so na voljo za učenje orodja za razpoznavo imenskih entitet za slovenščino?

Najboljši vir za učenje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov ssj500k. Za učenje orodij NER za spletna, nestandardna besedila, je na voljo nabor podatkov Janes-tag. Če pa želite učiti modele NER za besedila v starejši slovenščini, je najbolje uporabiti nabor podatkov goo300k.

V3.6: Kateri podatki so na voljo za učenje skladenjskega razčlenjevalnika za slovenščino?

Če želite za odvisnostno razčlenjevanje uporabiti shemo Univerzalne odvisnostne drevesnice, učne podatke dobite v repozitoriju Univerzalne odvisnostne drevesnice.

Za učenje razčlenjevalnikov po shemi, razviti posebej za slovenščino, pa vam je na voljo nabor podatkov ssj500k.