Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Projekti CLARIN.SI

Kazalo hide

Projekti, v katerih sodeluje CLARIN.SI

CLARIN ParlaMint

CLARIN.SI (Institut “Jožef Stefan” in Inštitut za novejšo zgodovino) sta sodelovala v projektu “ParlaMint: Towards Comparable Parliamentary Corpora” ki ga je 2020-2021 financiral CLARIN ERIC. Namen projekta je bil izdelati primerljive korpuse parlamentarnih razprav evropskih držav z let 2015-2020. V okviru projekta smo izdelali zbirko 17 kopusov, mdr. slovenskega. Vzorci izdelanih korpusov so dostopni na GitHub, celotni korpusi pa na repozitoriju CLARIN.SI, in sicer v dveh različicah:

 • Erjavec, Tomaž; et al., 2021, Multilingual comparable corpora of parliamentary debates ParlaMint 2.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1432.
 • Erjavec, Tomaž; et al., 2021, Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 2.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1431.

RDA Node Slovenia

CLARIN.SI sodeluje v nacionalnem vozlišču “RDA Node Slovenia“, ki naj bi služilo kot dolgotrajna centralna kontaktna točka med Research Data Alliance in podatkovnimi raziskovalci, raziskovanimi agencijami, in ostalimi deležniki v Sloveniji. Vozlišče koordinira Arhiv družboslovnih podatkov (ADP), poleg CLARIN.SI pa v njem sodelujejo tudi raziskovalna infrastruktura za humanistiko DARIAH-SI in Univerza v Ljubljani.

V okviru delovne skupine vozlišča za koordinacijo infrastrukturnih podatkovnih storitev je CLARIN.SI izdelal:

 • Meden, K., in Erjavec, T. (2021). Pregled Slovenskih repozitorijev raziskovalnih podatkov. CLARIN.SI.  [PDF] [DOCX]

Razvoj slovenščine v digitalnem okolju

CLARIN.SI sodeluje v projektu “Razvoj slovenščine v digitalnem okolju“, ki ga 2020-2022 podpira Ministrstvo za kulturo RS. Cilj projekta je zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in širšo javnost.

V projektu infrastruktura CLARIN.SI vodi in izvaja Delovni sklop 6 “Vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije“, v okviru katerega skrbi za javno dostopnost jezikovnih virov, ki nastajajo v okviru projekta. Pri zapisu virov so upoštevani mednarodni standardi in dobre prakse, viri pa bodo varno in dolgotrajno arhivirani v repozitoriju CLARIN.SI, izdelani korpusi pa bodo na voljo prek spletnih konkordančnikov CLARIN.SI.

Razvoj RI-SI-CLARIN

Projekt, s polnim imenom “Razvoj raziskovalne infrastrukture za mednarodno konkurenčnost slovenskega RRI prostora RI-SI-CLARIN” se izvaja v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014 -2020, in sicer v obdobju 2019-2021. Namen projekta je omogočiti nabavo raziskovalne opreme raziskovalni infrastrukturi, kar je financirano v višini 477.932,82 EUR z DDV.

V okviru projekta so se izvršili oz. so predvideni naslednji nakupi raziskovalne opreme:

 • Institut “Jožef Stefan”: 2 gruči visokozmogljivih računalnikov s pripadajočo opremo za namene hitrejših in proti okvaram odpornih spletnih storitev CLARIN.SI, predvsem repozitorijske platforme, spletnih konkordančnikov in storitev za avtomatsko jezikoslovno označevanje besedil;
 • Univerza v Ljubljani: visokozmogljivi strežnik za hranjenje in dostop do jezikovnih virov, katerih skrbnik je infrastrukturni Center za jezikovne vire in tehnologije Univerze v Ljubljani;
 • Univerza v Mariboru: gruča GPU strežnikov v 2019 in njena obnova v 2021, namenjena raziskavam, ki uporabljajo globoko učenje; visokozmogljivi strežniki za obdelavo velikih jezikovnih podatkov; ter delo tehnika.

Projekti, ki jih podpira CLARIN.SI

Od leta 2018 dalje CLARIN.SI vsako leto objavi razpis za projekte izdelave ali nadgradnje virov ali storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN(.SI), da bodisi obogatijo ponudbo CLARIN ali pa uporabijo infrastrukturo, pri čemer CLARIN.SI nameni ta izvedbo projektov 30.000 EUR letno.

Projekti morajo zadostiti pogojem vsakoletnega razpisa, njihovo primernost in, v primeru, da je prijavljenih več projektov, kot pa je sredstev za izvedbo, kateri projekti bodo sprejeti v financiranje, določi komisija, ki jo sestavljajo člani konzorcija CLARIN.SI.

Razpis za projekte CLARIN.SI 2021

Glede na objavljeni je razpis za letošnje projekte, so bili v financiranje sprejeti trije projekti.  Časovnica:

 1. Rok za oddajo vlog: 1. 5. 2021
 2. Obvestilo o izboru: 15. 5. 2021
 3. Oddaja ponudb: 1.7.2021
 4. Zaključek projekta (objavlja rezultatov, oddana poročila, izdani računi): najkasneje 15. 11. 2021

Poročila o projektih CLARIN.SI 2020

CLARIN.SI je v letu 2020 ponovil podbudo, začeto v 2018, in objavil projektni razpis za člane svojega konzorcija. V 2020 je CLARIN.SI prejel bistveno manj prijav, kot pa prejšnja leta, v veliki meri zaradi zasedenosti skoraj vseh konzorcijskih partnerjev z delom na projektu RSDO. Od prijavljenih projektov so bili izbranih trije, pri čemer je eden od projektov odstopil od pogodbe, saj so se pojavili zapleti okoli avtorskih pravic nad virom, ki je bil mišljen za objavo. Uspešno zaključena projekta sta opisana v nadaljevanju.

Razvoj učnega gradiva na korpusu siParl 2.0: Korpusni pristop k raziskovanju parlamentarnega diskurza

Prijaviteljica: Kristina Pahor de Maiti, Filozofska fakulteta Univerze v Ljubljani
Prejeta sredstva: 5.000 EUR

Slovenski raziskovalci so pod okriljem CLARIN.SI ključno pripomogli k razvoju parlamentarnih korpusov in razumevanju njihovega potenciala za raziskovalce v evropskem kontekstu (razvoj priporočil za kodiranje, razvoj parlamentarnih korpusov za različne jezike, pregled dostopnih parlamentarnih korpusov, organizacija mednarodnih znanstvenih dogodkov o izgradnji in analizi parlamentarnih korpusov). Vendar te dejavnosti v slovenski raziskovalni skupnosti še niso dobro poznane, zato smo v okviru tega projekta pripravili učno gradivo, za katerega menimo, da bo pripomoglo k premoščanju te vrzeli.

Cilj projekta je bil zato izdelati učno gradivo, prek katerega bi na dostopen, metodološko ustrezen in raziskovalno relevanten način predstavili uporabnost jezikovnih korpusov za proučevanje družbenokulturnih pojavov, ki jih lahko raziskujemo na podlagi jezikovne rabe v specializiranem diskurzu. V ta namen je bil uporabljen korpus siParl 2.0 (http://hdl.handle.net/11356/1300), ki vsebuje sejne zapise razprav v Državnem zboru Republike Slovenije za obdobje 1990–2018, kot analitično orodje pa konkordančnik noSketch Engine CLARIN.SI (https://www.clarin.si/noske/) oz. korpus siParl 2.0, dostopen prek tega konkordančnika.

Gradivo je sestavljeno iz krajšega teoretičnega uvoda, ki obravnava posebnosti specializiranega diskurza in vpliva spola na sporazumevalne prakse ter vsebuje razlago najbolj uveljavljenih tehnik korpusne analize. Glavni del učnega gradiva je namenjen trem nalogam, kjer z uporabo različnih tehnik korpusne analize raziskujemo položaj žensk v slovenskem parlamentu. Naloge bralca postopoma vodijo od izvedbe analitičnih postopkov do interpretacije rezultatov, dodani pa so tudi zaslonski posnetki, ki prikazujejo uporabo konkordančnika in bralcu omogočajo samostojno rabo korpusa.

Čeprav učno gradivo temelji na slovenskem parlamentarnem korpusu, je analizo mogoče ponoviti na podobno označenih parlamentarnih korpusih v drugih jezikih, prav tako pa se predstavljene tehnike korpusne analize lahko uporabi tudi na drugih vrstah korpusov, kar po eni strani omogoča mednacionalno primerjavo parlamentarne kulture in diskurza, po drugi strani pa spodbuja meddisciplinarno izmenjavo metodoloških pristopov. Za največjo možno uporabnost učnih gradiv smo pripravili tudi angleško različico, namenjeno tujejezičnim uporabnikom.

Učno gradivo je objavljeno v reviji Prispevki za novejšo zgodovino, ki jo izdaja Inštitut za novejšo zgodovino, Ljubljana:

 • FIŠER, Darja, PAHOR DE MAITI, Kristina. “Prvič, sem političarka in ne politik, drugič pa…”: korpusni pristop k raziskovanju parlamentarnega diskurza. Prispevki za novejšo zgodovino. 2021, letn. 61, št. 1, str. 144-179, ISSN 0353-0329. https://ojs.inz.si/pnz/article/view/3823, DOI: 10.51663/pnz.61.1.07.

Učno gradivo je tako v slovenskem kot angleškem jeziku dostopno tudi v digitalni knjižnici INZ:

 • FIŠER, Darja, PAHOR DE MAITI, Kristina. “Prvič, sem političarka in ne politik, drugič pa …”: korpusni pristop k raziskovanju parlamentarnega diskurza. Inštitut za novejšo zgodovino, 2021. 1 spletni vir. Zbirka Parlamentaria, 2. ISBN 978-961-7104-06-6. https://sidih.github.io/voices/index-sl.html.

Na voljo so tudi recenzije gradiva.

Izdelava epigrafskega korpusa srednjeveških in zgodnje novoveških napisov na Slovenskem MEMIS

Prijavitelj: Gregor Pobežin, Inštitut za kulturno zgodovino ZRC SAZU
Prejeta sredstva: 4.000 EUR

V projektu »Epigrafski korpus srednjeveških in zgodnje novoveških napisov na Slovenskem MEMIS 1.0« je bilo testno zbranih, evidentiranih, obdelanih v formatu XML in prevedenih 51 napisov v latinskem jeziku iz poznega srednjega in zgodnjega novega veka od l. 1222 do srede 17. stoletja; v pričujočem obsegu korpus vsebuje le napise iz slovenskih obalnih mest s poudarkom na Kopru in Piranu, in sicer vse napise, ki se bodisi nahajajo v svojem primarnem kontekstu, bodisi so bili premaknjeni ali celo uničeni in so dostopni samo še v prepisih. Gradivo za korpus je bilo zbrano s pomočjo terenskih raziskav, tj. evidentiranja in dokumentiranja napisov in situ.

V korpusu so napisi razvezani (razvezane so abreviature in ligature) in komentirani ter prevedeni, zbrani in razgrnjeni pa so tudi različni metapodatki. Za potrebe zapisa v formatu XML je bila uporabljena predloga za obdelavo rokopisov EpiDoc template XML file, ki omogoča obdelavo večine relevantnih epigrafskih metapodatkov.

Namen korpusa je ustvariti metodološko podlago za obdelavo srednjeveških in zgodnje novoveških napisov v latinskem jeziku (in v vernakulranih jezikih), ki se nahajajo, oziroma so bili odkriti na območju slovenskega etničnega ozemlja. Korpus, ki bo kot integrirni vir objavljen v okviru infrastrukture DARIAH.SI, bo omogočal sistematično obdelavo in objavljanje bogate napisne dediščine, ki za razliko od antične materije še čaka na znanstveno obdelavo.

Epigrafski korpus MEMIS 1.0 je za prevzem dostopen pod licenco CC BY-SA 4.0 na:

 • Pobežin, Gregor, 2020, Epigraphic corpus of Medieval and Early Modern inscriptions in Slovenia MEMIS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1376.

Poročila o projektih CLARIN.SI 2019

CLARIN.SI je v letu 2019 ponovil uspešno podbudo, začeto v 2018, in objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili znova projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih šest, ki so opisani v nadaljevanju.

Orodje za statistično analizo skladenjsko razčlenjenih korpusov

Prijavitelja: Kaja Dobrovoljc, FF UL, Marko Robnik Šikonja, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu smo razvili računalniški program za statistično analizo skladenjsko razčlenjenih korpusov (orodje STARK), ki omogoča izdelavo frekvenčnih seznamov skladenjskih dreves iz odvisnostnoskladenjsko razčlenjenih korpusov. Uporabnik lahko v konfiguracijski datoteki nastavi več parametrov, s katerimi določa lastnosti izluščenih dreves, kot so število vozlišč v drevesu, tip izpisanih vozlišč (od konkretnih besed do abstraktnejših slovničnih lastnosti) ter (ne)upoštevanje zaključenosti drevesa, relacij med vozlišči in zaporedja besed v besedilu. Poleg tovrstnega induktivnega luščenja dreves brez vnaprejšnjih jezikoslovnih predpostavk orodje omogoča tudi luščenje dreves na podlagi dodatnih restrikcij in vnaprej opisanih drevesnih struktur. Rezultati se izpisujejo v obliki tabelaričnega formata, v katerem so poleg podatkov o strukturi dreves in njegovih vozliščih pripisani še izkorpusni podatki o pogostosti in stopnji statistične povezanosti med vozlišči glede na različne mere povezovalnosti. Orodje kot vhodno datoteko sprejme skladenjsko razčlenjen korpus v standardnem formatu CONLL-U, s čimer je poleg skladenjsko razčlenjenih korpusov v slovenščini, kot sta učni korpus ssj500k in referenčni korpus Gigafida, neposredno uporaben tudi za skladenjske analize več kot 70 drugih svetovnih jezikov, za katere so že na voljo korpusi v omenjenem formatu.

Orodje STARK je orodje ukazne vrstice, ki je pod odprto licenco Apache 2.0 prosto dostopno na https://gitea.cjvt.si/lkrsnik/STARK, za prevzem pa tudi v repozitoriju CLARIN.SI:

 • Krsnik, Luka; Dobrovoljc, Kaja and Robnik-Šikonja, Marko, 2019, Dependency tree extraction tool STARK 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1284.

Vzpostavitev dostopa do historičnih verzij referenčnega korpusa slovenskega jezika Gigafida

 Prijavitelj: Andraž Repar, CJVT
Prejeta sredstva: 1.500 EUR

V spletnih konkordančnikih CLARIN.SI noSketch Engine in KonText je bila na voljo samo najnovejša različica korpusa Gigafida 2.0. Čeprav ta verzija korpusa Gigafida vsebuje tudi besedila iz starejših različic, pa se od njih vendarle razlikuje, saj so bila iz nje odstranjena podvojena in nestandardna besedila, poleg tega pa je bil korpus tudi na novo jezikoslovno označen.

Iz različnih razlogov se občasno pojavlja potreba po dostopu do starejših različic korpusa, na primer za dostop do odstranjenih nestandardnih besedil (še posebej je to lahko pomembno za raziskave na področju zamejske slovenščine, saj so bili odstranjeni viri, kot je glasilo Novi Matajur). Poleg tega se z omogočanjem dostopa do starejših različic zagotavlja ponovljivost že izvedenih raziskav na prejšnjih različicah korpusov.

V okviru projekta je bil v spletnih konkordančnikih noSketch Engine in KonText vzpostavljen dostop do prejšnjih različic korpusa Gigafida, in sicer do korpusov FidaPLUS, Gigafida 1.0 in Gigafida 1.1. V načrtu je bila tudi vzpostavitev dostopa do prve verzije korpusa Gigafida (t. i. korpusa FIDA), za katerega je bil v okviru projekta že sklenjen dogovor z lastnikoma korpusa, tj. s podjetjema Amebis, d.o.o. in DZS, d.d. Vendar do tega žal ni prišlo, ker so bila vsa projektna sredstva namenjena plačilu prenosa avtorskih pravic za korpus FIDA s podjetja DZS, d.d. na Univerzo v Ljubljani, in je zato zmanjkalo sredstev za izvedbo dejanskega prenosa korpusa s fizičnih nosilcev podatkov (CD-jev) v digitalno obliko, primerno za objavo na konkordančnikih.

Prek konkordančnikov noSketch Engine in KonText so sedaj dostopne naslednje različice korpusa Gigafida:

Korpus za odkrivanje koreferenčnosti in analizo sentimenta za posamezno entiteto – SentiCoref 1.0

Prijavitelj: Slavko Žitnik, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu je bil izdelan korpus SentiCoref 1.0, ki vsebuje besedilne entitete z označenim sentimentom. Poleg sentimenta so označeni še koreferenčnost in imenske entitete. Kot imenske entitete so označena osebna imena, organizacije in zemljepisna imena. Za vsako imensko entiteto so v besedilu označene tudi vse povezane koreferenčne omenitve. Korpus omogoča boljšo analizo koreferenčnosti in sentimenta za posamezno entiteto v besedilu.

Podatkovna množica SentiCoref 1.0 vsebuje besedila iz korpusa SentiNews 1.0 (Bučar, 2017), ki sestoji iz 10.427 dokumentov. Vsak izmed dokumentov korpusa SentiNews 1.0 je označen s petstopenjskim sentimentom na nivoju dokumenta, odstavka in posameznega stavka. SentiCoref 1.0 pa vsebuje 837 dokumentov, ki so bili iz korpusa SentiNews 1.0 izbrani na podlagi števila imenskih entitet (avtomatsko označenih z orodjem Polyglot) in vsebujejo od 50 do 73 imenskih entitet.

Korpus SentiCoref 1.0 vsebuje 31.419 imenskih entitet: 15.285 imen organizacij, 8.606 osebnih imen in 7.528 zemljepisnih imen. Vsi dokumenti vsebujejo 14.572 koreferenčnih zaporedij (tj. entitet) in skupaj 438.733 omenitev. Entitete so označene z naslednjimi stopnjami sentimenta: zelo negativno: 30 entitet; negativno: 1.801 entitet; nevtralno: 10.869 entitet; pozitivno: 1.705 entitet; zelo pozitivno: 24 entitet.

Korpus SentiCoref 1.0 in navodila za označevanje so odprto dostopna pod licenco CC BY 4.0 na:

 • Žitnik, Slavko, 2019, Slovene corpus for aspect-based sentiment analysis – SentiCoref 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1285.

Govorni korpus dialoških dejanj GORDAN 1.0

Prijaviteljica: Darinka Verdonika, FERI UM
Prejeta sredstva: 6.000 EUR

V projektu Govorni korpus dialoških dejanj GORDAN 1.0  je bil razvit govorni korpus z dodanimi oznakami za dialoška dejanja. V korpusu smo zajeli uravnotežen vzorec različnih tipov govorjenega diskurza v skupnem obsegu ene ure. Gradiva so bila zajeta po kriterijih javnosti, interaktivnosti, kanala in namere. Izbrana so bila iz drugih obstoječih korpusov/baz: GOS, Gos Videolectures in BERTA.

Pred izbiro in definiranjem sheme za označevanje so bile preizkušene druge obstoječe sheme: MRDA, AMI, ISO 24617-2 in DART. Ocenjevali smo jih glede na to, ali označujejo pragmatični pomen, ali so koherentne ter ali so splošno veljavne in dobro uravnotežene. Pri vsaki shemi smo ugotovili večje pomanjkljivosti, na podlagi katerih smo nato definirali novo shemo GORDAN 1.0 (GOvoRna DejAnja), ki združuje ugotovljene pozitivne lastnosti analiziranih shem in ne vključuje negativnih.

Z izdelano shemo GORDAN 1.0 je bilo izbrano gradivo ročno označeno. Oznake so bile dodane v orodju Transcriber 1.5.1 prek funkcije dodajanja dogodkov v tekst. Označevanje je potekalo večmodalno, ob poslušanju, kjer so na voljo video posnetki, pa tudi ob gledanju posnetkov.

Označeno gradivo je na voljo v repozitoriju CLARIN.SI v dveh vnosih:

 • Zwitter Vitez, Ana; et al., 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (audio/video), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1292: vsebuje izvorno avdio gradivo (in video gradivo, če je na voljo), ki ga je mogoče prevzeti po pogojih izvorne licence, tj. CC BY-NC-ND 4.0;
 • Verdonik, Darinka, 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1291: vsebuje označeno tekstovno gradivo in specifikacijo sheme GORDAN 1.0. Vir je na voljo po pogojih licence CC BY 4.0.

Korpus metafor Komet 1.0

Prijaviteljica: Špela Antloga , FERI UM
Prejeta sredstva: 4.000 EUR

Komet (KOrpus METafor) je korpus slovenskih publicističnih, leposlovnih in spletnih besedil v obsegu 200.000 besed, v katerem so ročno označene metaforične besede, torej besede, katerih pomen v danem kontekstu odstopa od njihovega osnovnega pomena. Za označevanje metaforičnih besed je bil uporabljen postopek za identifikacijo metafor MIPVU (Metaphor Identification Procedure Vrije Universiteit) v angleščini, ki je bil nadgrajen in prilagojen specifikam slovenščine. Postopek omogoča sistematično identifikacijo jezikovne metafore, tj. vseh jezikovnih elementov, povezanih s pomenskimi prenosi na osnovi medpodročnih preslikav. Identificirani so bili vsi jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore. Označeni izrazi so dobili eno od štirih oznak: MRWd (direktna metafora), MRWi (implicitna metafora), WIDLI (mejni primer) ali MFlag (metaforični signalizator). Metaforičnim besedam so bili pripisani pomenski okvirji, kar označene izraze uvršča v določeno pomensko področje, ki predstavlja izhodišče pomenskega prenosa. Pomenski okvir omogoča, da lahko znotraj določene pomenske kategorije (npr. čas, prostorska orientacija, premikanje, čustvovanje itd.) poiščemo metaforične izraze, ki so lahko uresničitev določene konceptualne strukture. Korpus metafor omogoča objektivno in sistematično analizo metaforičnih izrazov in metafor v različnih slovenskih besedilih.

Korpus je dostopen pod licenco CC BY-NC-SA 4.0 na:

Postavitev novih pravopisnih pravil na portal Fran

Prijavitelj: ZRC SAZU
Prejeta sredstva: 6.000 EUR

V projektu je bila na portalu Fran začeta javna predstavitev predloga novih pravopisnih pravil in ustreznih slovarskih sestavkov, ki gradivsko dopolnjujejo pravila. Osnutka prvih dveh poglavij pravopisnih pravil uporabnikom omogočata sodelovanje v javni razpravi o ustreznosti predlaganih rešitev ter pri njihovem vsebinskem oblikovanju.

V ta namen je bilo posamezno poglavje novih pravopisnih pravil pretvorjeno iz tekstovnega formata .docx v TEI, pripravljen pa je bil tudi pretvornik. S tem so pravopisna pravila pripravljena za elektronsko okolje v skladu z mednarodnimi priporočili, s čimer je olajšan njihov nadaljnji razvoj in vzdrževanje ter povezljivost in prilagojenost različnim uporabam. Pravila so v zapisu TEI povezana z gesli pravopisnega slovarja (ePravopis).

Sočasno s prenovo posameznih poglavij pravopisnih pravil na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU nastaja sprotni pravopisni slovar – ePravopis. S povezavo ePravopisa s pravili je narejen korenit korak, s katerim se v spletnem mediju presega raznolikost in hkrati dopolnjuje iste informacije v slovarskem zapisu in v pravilih. Uporabnikom je s povezavo tako ponujen vpogled, ki ga pravila doslej niso omogočala.

Prvi dve poglavji pravopisnih pravil sta dostopni na portalu Fran, v formatu TEI pa bosta pod licenco CC BY-NC 4.0 dostopni v repozitoriju CLARIN.SI, ko bodo na voljo tudi vsa ostala pravopisna poglavja.


Poročila o projektih CLARIN.SI 2018

CLARIN.SI je v letu 2018 prvič objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih sedem, ki so opisani v nadaljevanju.

Nadgradnja digitalne knjižnice eZISS – Elektronske znanstvenokritične izdaje slovenskega slovstva

Prijavitelja: Andrej Pančur, INZ, Matija Ogrin, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Projekt je dopolnil dve zelo kompleksni in obsežni izdaji, ki vključujeta raznolike komponente in realizirata razne tekstnokritične koncepte analize ter prikaza besedil. Poleg tega je razvil znatno izboljšan prikaz elektronske izdaje, njenega notranjega sestava (prepisov, digitalnega faksimila, opomb, kritičnega aparata ter spremnega znanstvenega komentarja) in povezav med komponentami. Prilagojene so bile obstoječe transformacije XSLT iz repozitorija GitHub, ki so bile z namenom dinamičnega prikaza vzporednih mest nadgrajene s transformacijo XSLT 3.0 za SAXON-JS. Transformacije XSLT so dostopne v mapi »Profiles« na povezavah https://github.com/DARIAH-SI/Foglar-pub in https://github.com/DARIAH-SI/Kapelski-pub.

Delo je vsebovalo tudi uredniško delo na obeh izdajah:

 • Kapelski pasijon: Izpopolnjeno je bilo označevanje v zapisu TEI, znanstveni komentar je bil deloma na novo organiziran, vsi prepisi pa so bili povezani s pripadajočimi datotekami digitalnih faksimilov in medsebojnimi sklici.
 • Foglarjev rokopis: Izdelana je bila celotna digitalna izdaja z diplomatičnim in kritičnim prepisom rokopisnega gradiva, vključno z aparatom variantnih mest v več rokopisnih verzijah obravnavanih pesmi. To izdajo je pripravila Nina Ditmajer. Oba prepisa sta povezana z digitalnim faksimilom, njuno označevanje v zapisu TEI pa je bilo prilagojeno za raznolike možnosti prikaza in povezav.

Pomemben motiv in vidik nadgradnje je uporabnost izdelanega postopka za nadaljnje elektronske edicije knjižnice eZISS v okviru infrastrukture DARIAH-SI. Ta naj bi namreč v prihodnosti vzpostavila digitalno knjižnico, osnovano na zapisu TEI, v kateri bi bilo mogoče predstaviti kompleksne digitalne izdaje, kot sta Kapelski pasijon in Foglarjev rokopis, povezana pa naj bi bila tudi s storitvami za analizo korpusov v infrastrukturi CLARIN.SI.

Kapelski pasijon je dostopen na:

Foglarjev rokopis je dostopen na:

Korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990–2018

Prijavitelj: Andrej Pančur, INZ
Prejeta sredstva: 3.000 EUR

V projektu je bil oblikovan korpus siParl, ki vsebuje vse parlamentarne razprave Državnega zbora Republike Slovenije od 1990 do 2018 (do zaključenega 7. mandata) in razprave v delovnih telesih državnega zbora od leta 1996, kar je skupno skoraj 230 milijonov pojavnic. Parlamentarne razprave iz obdobja 1990–1992 smo prenesli iz obstoječega korpusa SlovParl 2.0, vse ostale razprave pa so bile označene na novo. Označevanje je potekalo v modulu TEI za dramska besedila, ki je bil nato pretvorjen v modul TEI za transkribiranje govorov. Korpus vsebuje podatke o vseh govorih in govornikih, neverbalno vsebino zapisnikov sej in ustrezne metapodatke. Vsebina govorov je bila tudi jezikoslovno označena, in sicer tokenizirana, oblikoskladenjsko označena in lematizirana.

Korpus siParl je na voljo prek konkordančnikov, za prevzem pa pod licenco CC BY na:

 • Pančur, Andrej; Erjavec, Tomaž; Ojsteršek, Mihael; Šorn, Mojca and Blaj Hribar, Neja, 2019, Slovenian parliamentary corpus siParl 1.0 (1990-2018), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1236.

Naglaševanje leksikona Sloleks

Prijaviteljica: Špela Arhar Holdt, CJVT UL
Prejeta sredstva: 5.000 EUR

V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ročno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoječi vmesnik leksikona, ki zdaj omogoča množičenje naglasnih podatkov. Projekt se je osredotočil na leme z nepremičnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoječih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogoče potrditi s predvideno 75-odstotno natančnostjo. Ročno je bilo pregledanih 24 % leksikona, od tega večina z množičenjem. Z avtomatskimi in ročnimi spremembami je bil v projektu popravljen 21,7-odstotni delež avtomatsko naglašene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri občnoimenskem pa primeri s premičnim naglasnim tipom in naglasno variantnostjo.

V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabniškega vmesnika: (a) aplicirana je bila grafična podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogočajo jezikovni skupnosti sodelovanje pri nadaljnjem čiščenju oz. dopolnjevanju naglasnih podatkov (pozitivno/negativno ocenjevanje avtomatsko pripisanih naglasov in fonetičnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki še potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je možnost, da uporabniki sami snemajo posnetke izgovora.

Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:

Izdelava seznamov besed in n-gramov za različne ravni šolanja in različne predmete

Prijavitelj: Iztok Kosem, FF UL
Prejeta sredstva: 4.000 EUR

V projektu je bil formiran korpus učbenikov za osnovne in srednje šole, iz njega pa so bili izluščeni seznami besed, n-gramov in ključnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno označeno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 učbenikov za 16 predmetov. V drugem koraku je bilo izvedeno luščenje, pri čemer je bilo upoštevanih več kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ročno. Končni rezultat so sledeči seznami:

 • Seznam splošnih besed, ki se pojavljajo v vsaj 8 od 16 šolskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in številu predmetov.
 • Seznam splošnih besed po nivoju šolanja (razred/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni šolanja) in številu predmetov (od skupno 16).
 • Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in številu predmetov (od skupno 16), v katerih se pojavlja n-gram.

Seznami so dostopni pod licenco CC BY na:

 • Kosem, Iztok; Pori, Eva and Arhar Holdt, Špela, 2019, Keywords and n-grams from a textbook corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1215.

Orodje za učinkovito analizo slovenskih korpusov

Prijavitelja: Marko Robnik Šikonja, Špela Arhar Holdt, UL FRI
Prejeta sredstva: 4.000 EUR

V projektu je bil razvit pregleden in razumljiv uporabniški vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogoča prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za več formatov zapisa in preizkušeno na večjih slovenskih in tujih korpusih.

Izpisom so bili dodani metapodatki, ki omogočajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prikažejo ob preletu z miško. Dodana je bila možnost izračuna in izpisa različnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izluščene besedne nize. Poleg tega je bil dodan izračun ocene obdelovalnega časa. Pri nastavitvah, ki lahko močno vplivajo na obdelovalni čas, so bila dodana opozorila. Dodana je bila tudi možnost preklapljanja med slovensko in angleško različico poimenovanj in možnost obdelave nelatiničnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novejših korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.

Program LIST je dostopen pod odprto licenco Apache2 na:

Gos Videolectures II

Prijavitelja: Darinka Verdonik, Andrej Žgank, UM FERI
Prejeta sredstva: 6.000 EUR

V projektu je bilo obstoječe gradivo baze Gos Videolectures razširjeno z ročno izdelanimi transkripcijami v obsegu 8 ur, ki vsebujejo pogovorni in standardizirani zapis z ročno segmentacijo na izjave in z oznakami opaznejših akustičnih dogodkov. V gradivo so vključeni izbrani novejši posnetki s portala Videolectures.net, ki so uravnoteženi glede na vsebinsko področje ter glede na osnovne lastnosti govorcev (spol, starost). Transkripcije baze Gos Videolectures so bile poleg tega avtomatsko poravnane z govornim signalom na nivoju besed in na skrčenem seznamu osnovnih fonemov za slovenščino. Za izvedbo obeh vrst avtomatske segmentacije je bila uporabljena prilagojena različica avtomatskega razpoznavalnika tekočega slovenskega govora UMB Broadcast News, ki je bil razvit na UM FERI.

Kot pri prejšnjih različicah baze Gos Videolectures je bila tudi ta sedaj pretvorjena iz izvornega zapisa Transcriber XML in dodanih metapodatkovnih datotek v zapis TEI (modul za govorjene korpuse), ki vključuje seznam govorcev z metapodatki, metapodatke o govorih (predavanjih), poravnavo izjav in stavkov z govornim signalom, kodiranje opaznejših akustičnih dogodkov in združene besede pogovornega in standardiziranega zapisa. Standardizirane besede so bile dodatno avtomatsko oblikoskladenjsko označene in lematizirane. Konverzija je tudi služila za validacijo izvornih datotek, s katero smo odkrili večje število napak in jih tudi popravili. Iz dokumenta TEI je bila generirana vertikalna datoteka, primerna za uvoz v konkordančnike infrastrukture CLARIN.SI. Pri tem so bili posnetki razdeljeni na posamezne izjave in stavke ter pretvorjeni v format MP3, kazalci na te posnetke pa dodani v vertikalno datoteko, kar omogoča poslušanje posnetkov tudi prek konkordančnikov.

Korpus projekta je dostopen prek konkordančnikov CLARIN.SI in za prevzem na:

 • VideoLectures.NET, 2019, Spoken corpus Gos VideoLectures 4.0 (audio), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1222.
 • Verdonik, Darinka; et al., 2019, Spoken corpus Gos VideoLectures 4.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1223.

Multimedijska digitalna narečna podatkovna baza slovarja oblačilnega izrazja ziljskega govora Kanalske doline (Val Canale – Kanaltal – Valcjanâl)

Prijaviteljica: Karmen Kenda-Jež, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Multimedijska digitalna narečna podatkovna zbirka za Slovar oblačilnega izrazja ziljskega govora v Kanalski dolini, ki je objavljen na portalu FRAN, je nastala iz gradivske zbirke, na podlagi katere sta bili prej že narejeni dve knjižni izdaji slovarja. Prenos v digitalno okolje ni pomenil samo oblikovne prilagoditve novemu mediju (npr. način prikaza slovarskih podatkov, odpravo kratic ali poenotenje slovničnih oznak), ampak tudi vrsto mikrostrukturnih sprememb, ki sta jih povzročili vsebinska osamosvojitev spletnega slovarskega gesla in vzpostavitev neposredne povezave z zbirko zvočnih izsečkov. Končna podoba spletnega slovarja je zato precej oddaljena od svoje knjižne predloge.

Slovar, ki obsega 594 iztočnic, je bil iz formata programa Word pretvorjen v slovarsko podatkovno zbirko v formatu XML, pri tem pa so bile vzpostavljene znotraj- in zunajslovarske povezave. Prvotna zbirka zvočnih izsečkov je bila pregledana, izločeni so bili izsečki slabše kakovosti (npr. tisti s pretežno prekrivnim govorom). Če je bilo mogoče, je bilo dopolnilno zvočno gradivo pridobljeno s ponovno analizo zvočnih posnetkov. Zvočni izsečki so bili povezani z iztočnicami in s slovarskimi zgledi.

Podatkovna zbirka je bila nato dopolnjena z izbranimi fotografijami iz arhiva etnografskih raziskav oblačilne kulture, posamezna gesla pa so bila povezana še z etnografsko spletno zbirko projekta Glasovi Kanalske doline: Zborzbirk (Kulturna dediščina v zbirkah med Alpami in Krasom).  S portala Fran je mogoče dostopati tudi do dosedanjih razprav o ziljskem govoru Kanalske doline (Ovčja vas in njena slovenska govorica, 2005; Lipalja vas in njena slovenska govorica, 2016), za katere je bil v okviru tega projekta zagotovljen prosti dostop.

Podatkovna zbirka je dostopna na:

 • Kenda-Jež, Karmen; Perdih, Andrej and Race, Duša, 2019, The Dictionary of the Clothing Terminology of the Zilja Local Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1217.
 • Gliha Komac, Nataša; Kandutsch, Elisa; Bartaloth, Rudi and Smole, Matevž, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): photographs, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1221.
 • Kenda-Jež, Karmen, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): audio, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1220.