Projekti CLARIN.SI – CLARIN Slovenija

Od leta 2018 dalje CLARIN.SI vsako leto objavi razpis za projekte izdelave ali nadgradnje virov ali storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN(.SI), da bodisi obogatijo ponudbo CLARIN ali pa uporabijo infrastrukturo. CLARIN.SI nameni izvedbo projektov okoli 30.000 EUR letno.

Projekti morajo zadostiti pogojem vsakoletnega razpisa, njihovo primernost in, v primeru, da je prijavljenih več projektov, kot pa je sredstev za izvedbo, kateri projekti bodo sprejeti v financiranje, določi komisija, ki jo sestavljajo člani konzorcija CLARIN.SI.

Razpis za projekte CLARIN.SI 2025

besedilo razpisa
rok za oddajo prijav: 1. 4. 2025
obvestilo o izboru: 15. 4. 2025
najkasnejši zaključek projektov: 15. 11. 2025

Poročila o projektih CLARIN.SI 2024

V 2024 je CLARIN.SI podprl šest projektov:

Nadgradnja orodja STARK za analizo skladenjsko razčlenjenih korpusov

Prijaviteljica: Kaja Dobrovoljc (FF UL, IJS)
Izvajalec: Outsmartify, Luka Krsnik s.p.
Prejeta sredstva: 3.400 €

STARK je vsestransko orodje za analizo skladenjsko razčlenjenih besedilnih korpusov (t.i. odvisnostnih drevesnic), ki z luščenjem različnih tipov skladenjskih struktur (dreves) jezikoslovcem ponuja vpogled v nabor skladenjskih in/ali leksikalnih vzorcev v poljubnem jeziku ter njihov statistični opis z vidika pogostosti rabe in drugih priljubljenih korpusnojezikoslovnih metrik. V projektu smo to orodje bistveno nadgradili z novimi funkcionalnostmi, ki zagotavljajo njegovo daljnoročno uporabnost v najrazličnejših jezikoslovnih raziskavah. S temeljito prenovo osnovne programske kode smo zagotovili, da orodje omogoča hitro luščenje dreves poljubne dolžine ne glede na število vsebovanih besed in ne glede na število korenskih elementov, dodali pa smo tudi možnost ignoriranja izbranih skladenjskih pojavov (npr. ločil) in možnost uporabe posebnih znakov pri oblikovanju iskalnih poizvedb. Končno testiranje v različnih računalniških okoljih je potrdilo, da je orodje odslej primerno tudi za analize kompleksnih struktur in večjih besedilnih korpusov, aktivno pa se že uporablja v okviru več nacionalnih in mednarodnih projektov.

Nova različica programa (v3.0) s posodobljeno dokumentacijo je prostodostopno objavljena na platformi GitHub (https://github.com/clarinsi/STARK) in na repozitoriju CLARIN.SI (http://hdl.handle.net/11356/1958), z njo pa je bila posodobljena tudi spletna storitev STARK-demo (https://orodja.cjvt.si/stark/), ki je namenjena prikazu delovanja orodja širši javnosti.

Nadgradnja orodja na različico 3.0 je bila delno sofinancirana s strani projekta SPOT (ARIS ARIS št. Z6-4617).

Učna množica razlag za nalogo določanja koreferenc

Prijavitelji in sodelujoči: Aleš Žagar (UL FRI), Marko Robnik-Šikonja (UL FRI)
Prejeta sredstva: 4.500 €

Winogradov izziv (Winograd Schema Challenge – WSC) je nabor podatkov, zasnovan za naloge razreševanja koreferenc, ki se osredotoča na semantično zahtevne probleme in razumevanje zdravorazumskega sklepanja. Na primer, stavek: “Pokal ne gre v rjav kovček, ker je prevelik.” zahteva razumevanje, da se “je” nanaša na “pokal” na podlagi semantičnega sklepanja in znanja o velikostnem razmerju med pokalom in kovčkom. Izvirni nabor podatkov smo izboljšali, da bi bil primeren za preučevanje problemov razlaganja znanja in omogočanja z znanjem podprtega strojnega učenja, z uvedbo naslednjih izboljšav:

Označevanje semantično ali sintaktično rešljivih primerov: Nekateri vzorci iz izvirnega nabora podatkov so rešljivi brez globljega semantičnega procesiranja zaradi morfološke bogatosti slovenskega jezika. Na primer, stavek: “Riba je pojedla črva. Bila je lačna.” zahteva zgolj poznavanje spola in ne potrebuje globokega semantičnega procesiranja za sklepanje, da je bila lačna riba in ne črv. Za zagotovitev reprezentativnega nabora sintaktičnih vzorcev smo ustvarili 197 novih primerov s spreminjanjem obstoječih.
Dvonivojska ontologija znanja: Razvili smo hierarhično shemo za kategorizacijo znanja, potrebnega za uspešno reševanje problema. Pri analizi smo identificirali 9 višjenivojskih kategorij znanja (npr. družbeno znanje, psihološko znanje itd.) in 37 nižjenivojskih, bolj podrobnih znanj (npr. fizikalni zakoni/naravni zakoni, družbene vloge, vzročni odnosi itd.).
Polavtomatsko generiranje razlag: Besedilne razlage smo generirali z uporabo GPT-4, nato pa jih preverili in popravili človeški anotatorji, da bi zagotovili natančnost in jasnost. Na primer, besedilna razlaga za stavek “Pokal ne gre v rjav kovček, ker je prevelik.” je “Če je nekaj preveliko, se ne prilega v manjši prostor.”
Prevod v angleščino: Končne razlage so bile prevedene v angleščino s pomočjo usposobljenega prevajalca, kar omogoča širšo uporabnost (ne financira ga projekt Clarin.si).
Generiranje trojic SPO (Subjekt-Predikat-Objekt): Trojice Subjekt-Predikat-Objekt smo izločili z uporabo GPT-4, da bi poudarili ključne semantične odnose znotraj posameznega primera.

Izvirni nabor podatkov vsebuje 804 primere. Poskušali smo čim bolj ohraniti izvorno razdelitev množice na učno in testno. Vsi testni primeri iz izvirnega nabora so prisotni tudi v našem testnem naboru. Nabor podatkov obsega 601 učni primer, 200 validacijskih primerov in 200 testnih primerov.

Nabor podatkov je javno dostopen v repozitoriju CLARIN.SI pod naslovom Knowledge-Enhanced Winograd Schema Challenge KE-WSC (http://hdl.handle.net/11356/1988). Oznake testnega nabora so skrite, saj je nabor integriran v evalvacijski okvir SloBENCH (https://slobench.cjvt.si/).

Objava prispevkov konferenc Jezikovne Tehnologje in Digitalna Humanistika

Prijaviteljica in izvajalka: Jezikava, Tina Munda s.p.
Prejeta sredstva: 2.000 €

V projektu so bili objavljeni prispevki vseh edicij dvoletne konference Jezikovne tehnologije in digitalna humanistika. Cilj projekta je bil omogočiti trajno hrambo prispevkov in s tem dostop do njih ter večjo vidnost raziskovalnega dela, ki ga pokrivajo teme konference. Oboje spodbuja odprto znanost, ki nadalje podpira in pospešuje visokokakovostno raziskovanje in interdisciplinarnost ter s tem razvoj in inovacije.

Skupno 504 prispevki iz 14 edicij konference (1998–2024) so sedaj objavljeni na odprtem spletnem repozitoriju Zenodo, ki ga financira EU in gosti CERN. Datoteke prispevkov (PDF) skupaj z metapodatki in ponekod dodatnim gradivom (video predstavitve, prosojnice) so na voljo v Zenodovi skupnosti Proceedings of the Conference Series “Language Technologies and Digital Humanities” na povezavi https://zenodo.org/communities/jt-dh/.

Zanimivost: ‘Zenodo’, ime repozitorija, izvira iz imena ‘Zenodotus‘, ki je bil prvi knjižničar v antični Aleksandrijski knjižnici in oče prvih zabeleženih metapodatkov – pomemben mejnik v zgodovini knjižnic. (vir)

Gradnja baze asociacij SWOW za slovenščino

Prijaviteljica: Špela Vintar, Filozofska fakulteta, Univerza v Ljubljani
Izvajalci: Prevajanje, programiranje in obdelava podatkov, Mojca Brglez s.p.; Kofein dizajn d. o. o.; študenti študijskega programa Digitalno jezikoslovje
Prejeta sredstva: 5.000 €

Proste asociacije so besede ali fraze, ki govorcem pridejo na misel ob dani iztočnici ali stimulu (npr. ženska -> punca, mama, lepa, moški itd.). Asociacije dajejo vpogled v strukturo in delovanje mentalnega leksikona in nam pomagajo bolje razumeti (jezikovni) spomin in priklic, skozi zgodovino pa so se uporabljale tudi za raziskovanje različnih odklonov od norme; tj. ustaljenih odzivov na stimule.

V okviru projekta smo zgradili prvo bazo asociacij za slovenščino SWOW-SL 1.0 (https://smallworldofwords.org/sl), ki vsebuje odzive prek 1.100 govorcev slovenščine na 1.000 slovenskih iztočnic, skupno število odzivov pa znaša 19.898. Projekt “Mali svet besed” se vsebinsko in metodološko vključuje v krovni projekt Small World of Words (https://www.smallworldofwords.org/en), kjer se s pomočjo spletne aplikacije zbirajo asociacije za 19 svetovnih jezikov. Udeleženci eksperimenta na tej spletni strani najprej podajo osnovne demografske podatke, nato pa za vsako od 18 naključno izbranih iztočnic zapišejo do tri asociacije.

V prvi fazi projekta smo vzpostavili spletno okolje za slovenščino, kar je vključevalo prevod in priredbo spletišča, ter izbrali 1.000 iztočnic na podlagi pogostosti v korpusu Gigafida 2.0. Nato smo v času od maja do oktobra 2024 izvedli kampanjo za množičenje podatkov, pri kateri smo udeležence nagovarjali prek družabnih omrežij Facebook in Instagram, vzporedno pa smo izvedli tudi fizično kampanjo s plakati in nalepkami. Cilj je bil zbrati skupno najmanj 16 odzivov na posamezno iztočnico, kar smo še pred zaključkom projekta tudi dosegli.

Za objavo podatkov v repozitoriju Clarin.si (http://hdl.handle.net/11356/1980) smo zbrane odzive tehnično in jezikoslovno obdelali, tako da so odzivom pripisane leme in normalizirane oblike s popravljenimi manjkajočimi šumniki in velikimi začetnicami. Glede na pogostost posameznega odziva so podatki opremljeni tudi s statističnim izračunom asociativne povezanosti.

Spletna platforma za zbiranje asociacij ostaja aktivna, v prihodnosti pa želimo razširiti nabor iztočnic in nato ponoviti zbiralsko kampanjo.

Implementacija podpore za razširjeno uporabo slovenskih virov za odkrivanje koreferenčnosti

Prijavitelji in sodelujoči: Matej Klemen (FRI UL), Slavko Žitnik (FRI UL)
Prejeta sredstva: 2.500 EUR

Za odkrivanje koreferenčnosti obstajata dve podatkovni množici v slovenskem jeziku: coref149 (http://hdl.handle.net/11356/1182) in SentiCoref (http://hdl.handle.net/11356/1285). Da bi olajšali njuno uporabo in razširili prepoznavnost slovenskih virov, smo v projektu razvili:

Skripte za pretvorbo podatkovnih množic iz neenotnih formatov v enoten format CorefUD CoNLL-U. Iniciativa CorefUD stremi k poenotenju formata podatkov za odkrivanje koreferenčnosti s prilagoditvijo formata CoNLL-U.
Skripte za uporabniško prijazno nalaganje podatkov v mednarodno priznani knjižnici podatkovnih množic HuggingFace.
Skripte za poenoteno evalvacijo odkrivanja koreferenčnosti v slovenščini v okviru evalvacijskega ogrodja SloBENCH (https://slobench.cjvt.si/).

Pri nalaganju podatkov skripte te pridobijo iz repozitorija CLARIN.SI. Podatke, ustvarjene s pretvornimi skriptami, smo naložili na repozitorij CLARIN.SI. Razvite skripte smo ustrezno testirali in dokumentirali.

Rezultati projekta:

Podatkovni množici coref149 in SentiCoref sta v formatu CorefUD na voljo v repozitoriju CLARIN.SI (http://hdl.handle.net/11356/1989, http://hdl.handle.net/11356/1990).
Podatkovni množici coref149 in SentiCoref sta vpeljani v okolje HuggingFace (https://huggingface.co/datasets/cjvt/coref149, https://huggingface.co/datasets/cjvt/senticoref).
Evalvacija odkrivanja koreferenčnosti s pomočjo množic coref149 in SentiCoref je vpeljana v ogrodje SloBENCH (https://github.com/clarinsi/slobench-eval-docker/pull/3).
Vsa koda je arhivirana in dokumentirana na javnem repozitoriju Github (https://github.com/clarinsi/CLARINprojekt2024-koreferencnost).

Model prepisa slovenskih rokopisov 18. in 19. stoletja

Prijavitelj: Matija Ogrin (ZRC SAZU)
Sodelavca: Marko Kunavar, Barbara Lenarčič
Prejeta sredstva: 4.000 €

Ker so mnoga besedila starejšega slovenskega slovstva od 17. do 19. stoletja ostala v rokopisih in zato niso vstopila ne v znanstveno evidenco ne v občo kulturno recepcijo, smo želeli s tem projektom izboljšati in olajšati postopek prepisovanja starejših rokopisnih besedil v slovenščini. To smo storili s pomočjo orodja Transkribus:

V preliminarnih fazah (pred 2024) smo pripravili digitalne faksimile rokopisov ter ročno pripravili več deset strani diplomatičnega prepisa besedil Ignacija Holzapfla (1799–1866) in frančiškana Tobije Vernika (1801–1886). Ta besedila smo v našem projektu v letu 2024 uporabili kot učno množico, na kateri je Transkribus izdelal model za prepoznavanje rok, posebej za Holzapfla in posebej za Vernika.
S pomočjo izboljšanih modelov smo z orodjem Transkribus pripravili po cca. 200 strani prepisa za vsakega od obeh avtorjev.
Celotno besedilo (cca. 220 + 300 strani rokopisov) smo nato pretvorili v zapis XML TEI in ga dalje urejali po Smernicah TEI.
Skupen model za transkripcijo slovenskih rokopisov te dobe smo nato ustvarili tako, da smo združili v en sam model značilnosti štirih rok, t.j., združili smo štiri poprej izdelane učne množice: pribl. 55.000 besed besedil frančiškana Konrada Branke (1737–1789); 20.000 besed Mihaela Zagajška (1739–1827), župnika na Kalobju; 12.000 besed frančiškana Tobije Vernika; in 93.000 besed Ignacija Holzapfla, duhovnega pisca in dekana v Ribnici. Celotna učna množica je velika cca. 170.000 besed. Velikost učne množice za posamezno roko je različna glede na težavnost in posebnosti rokopisa te roke. Največja je učna množica za Holzapfla, ki ima daleč najbolj težaven rokopis. Povprečna stopnja napake CER (Character error rate) je 3,29%. Najboljša je prepoznava besedil frančiškana Tobije Vernika, ker ima najlepši rokopis, nekoliko slabša je pri Holzapflovi zelo specifični pisavi. Z dodajanjem novih učnih množic drugih starejših piscev je moč model še izboljšati.

Rezultati projekta so:

Združeni model »Slovenski rokopisi 18. in 19. stoletja«, ki je javno dostopen v spletnem servisu Transkribus kot Model ID 216113.
Dve diplomatični izdaji, kodirani po Smernicah TEI in odprto dostopni na repozitoriju CLARIN.SI: http://hdl.handle.net/11356/1995 in http://hdl.handle.net/11356/1993.
Štiri elektronske diplomatične izdaje, objavljene z orodjem TEI Publisher na portalu »Slovensko baročno slovstvo« v paralelnem prikazu prepisa in faksimila: sbs_dipl_ms_206, sbs_dipl_ms_207, sbs_dipl_ms_209, sbs_dipl_ms_210.

Besedilo razpisa 2024 [PDF]

Poročila o projektih CLARIN.SI 2023

V 2023 je CLARIN.SI podprl šest projektov, ki so bili vsi tudi uspešno zaključeni.

SemSex: Izdelava semantične baze znanja o spolnosti in prepoznavanje definiranih konceptov v učnih vsebinah

Prijavitelj: Slavko Žitnik, FRI UL
Izvajalec: Tim Prezelj, PEF in MF UL, Timotej Knez, FRI UL, Miha Štravs, FRI UL
Prejeta sredstva: 7.000 €

S projektom SemSex (https://github.com/clarinsi/SemSex) smo želeli vsaj delno zapolniti omenjene sistemske pomanjkljivosti in postaviti osnoven temelj za nadaljnje sistemske spremembe in izboljšave na področju spolne vzgoje v Sloveniji. Ker gre za kulturno občutljivo tematiko, smo za dosego zastavljenih ciljev skušali izbrati kar se da objektiven, nepristranski in strokovno podprt metodološki pristop, ki pa bi bil v paradigmatskem smislu uporaben tudi širše, ne zgolj znotraj specifičnega okvira vsebin s področja spolnosti. Z vpeljavo strojnih orodij, smo v projektu želeli postaviti in na primeru preizkusiti nov originalen teoretko-analitičen pristop analize šolskega prostora, kar nam je v dobri meri tudi uspelo. Upamo, da bodo rezultati projekta SemSex v prvi vrsti pomagali odločevalcem in raziskoalcem pri evalvaciji in optimizaciji programa spolne vzgoje v Sloveniji. Poleg tega pa tudi, da se bo metodološki okvir, uporabljen na konkretnem primeru razširil tudi na analizo in evalvacijo drugih podobnih medkurikularnih področij, saj je trenuten sistem naravnan izrazito kvalitativno, s tem pa tudi premalo sistematičnen.

V okviru projekta so bile izvedene tri aktivnosti, ki se med seboj vsebinsko povezujejo:

Aktivnost A1: Zasnovali smo hierarhično urejen okvir vsebin s področja spolne vzgoje, na podlagi katerega je bila zgrajena semantična baza znanja za domeno spolnosti.

Izdelek D1: Semantična baza znanja v strojno berljivi obliki (RDF): https://github.com/clarinsi/SemSex#1-ontology

Aktivnost A2: Na podlagi baze (D1) smo izdelali model za prepoznavanje povedi ali odstavkov, povezanih z določenim konceptom o spolnosti.

Izdelek D2: Repozitorij kode z naučenim modelom za prepoznavanje vsebin o spolnosti: https://github.com/clarinsi/SemSex#2-concept-detection; http://hdl.handle.net/11356/1894.

Aktivnost A3: Opravili smo sistematično, avtomatsko (z ročnim pregledom), kvalitativno analizo obstoječih učnih načrtov, kjer želimo identificirati koncepte iz semantične baze znanja. Na tej podlagi lahko ugotovimo katere vsebine iz postavljenega okvirja so prisotne, na kakšen način in kakšna je njihova formalna obravnava.

Izdelek D3: Korpus vseh aktualnih učnih načrtov slovenskih osnovnih šol z označenimi specifičnimi deli o spolnosti (glede na semantično bazo znanja): http://hdl.handle.net/11356/1895.

Metodološki pristop, ki smo ga opisali v okviru projekta SemSex nameravamo razvijati naprej tudi po uradnem zaključku projekta, posebej ker je del rezultatov že dosegel odmev v znanstvenem prispevku (Prezelj, 2023).

ZRCalo: prenova črkovne vrste za vnašalni sistem ZRCola 2

Prijavitelj: Janoš Ježovnik, ZRC SAZU
Izvajalci: Nace Pušnik (zunanji izvajalec), Duša Divjak Race, Carmen Kenda-Jež, ZRC SAZU
Prejeta sredstva: 5.000 €

Prva faza prenove črkovne vrste, financirana v okviru projekta, je zajemala pripravo nabora črkovne vrste ZRCalo do 100 znakov. Črkovna vrsta bo sčasoma nadomestila pisavo ZRCola kot komponento vnašalnega sistema ZRCola 2 (http://hdl.handle.net/11356/1090). V sklopu projekta so bile pripravljene velike (majuskule) in male (minuskule) črke, ki so del nabora slovenske abecede. Poleg tega so bila v tem delu pripravljena nekatera diakritična znamenja, ustrezno povezana s pomočjo povezovanja komponent. Trenutna različica pisave skupaj obsega nabor 384 znakov, zlasti tistih, zajetih v unikodnih blokih Basic Latin, Latin-1 Supplement, Latin Extended-A, Latin Extended-B in Latin Extended Additional, sicer pa tudi v posameznih drugih blokih. Tehnične specifike, ki se odražajo v narejenih črkah, so bile ustrezno urejene in prilagojene v namenskem urejevalnem okolju. Metrične in prirezovalne lastnosti črk so bile v tem delu že prilagojene, predvsem za osnovni nabor znakov. Z večjim številom znakov se bo metrika še urejala, saj bo potrebno tudi preostale novo nastale znake ustrezno povezati s trenutnim naborom. Iz delovne datoteke pisave smo izdelali odprtokodno različico (open type format, .otf), ki omogoča uporabo pisave v različnih sistemih.

Rezultat projekta je objavljen na repozitoriju CLARIN.SI pod licenco CC-BY http://hdl.handle.net/11356/1884.

Spletišče s celostnim popisom sistemov označevanja slovenskih korpusov

Prijaviteljica in izvajalka: Tina Munda, CJVT UL
Prejeta sredstva: 2.000 €

V okviru projekta je bilo nadgrajeno spletno mesto za informacije o jezikoslovnem označevanju slovenskih korpusov na CJVT Wiki, ki je v slovenščini na voljo na https://wiki.cjvt.si/shelves/jezikoslovno-oznacevanje-korpusov, v angleščini pa na https://wiki.cjvt.si/shelves/linguistic-annotation-of-slovene-corpora.

Korpusno označevanje je predstavljeno po sledečih označevalnih nivojih: tokenizacija, stavčne segmentacija, lematizacija, oblikoskladnja JOS/MULTEXT-East v6, skladnja SSJ/JOS, skladnja Universal Dependencies (UD), udeleženske vloge (SRL), imenske entitete (NER), koreference in povezav, kot tudi sistema za označevanje jezikovnih popravkov v korpusih Šolar (besedila učencev) in KOST (besedila govorcev slovenščine kot tujega jezika). Vsako označevalno ravnino sestavljajo kratka predstavitev, predstavitev oznak oz. procesa, označevalne smernice ter relevantne reference in povezave.

Obenem je bila v projektu vzpostavljena angleška različica omenjene vsebine, ki omogoča vpogled v slovensko korpusno označevanje tudi mednarodni zainteresirani javnosti. Stranski produkt tega dela projekta so datoteke TSV s slovenskimi in angleškimi oznakami relevantnih označevalnih sistemov, ki so med drugim priročne za gradnjo kolofonov v datotekah XML.

S ciljem poenotenega nadgrajevanja tega spletišča tudi v prihodnje so bila tudi dopolnjena navodila za dodajanje vsebine, poskrbljeno pa je bilo tudi za promocijo spletišča na družbenih omrežjih in novičnikih.

Korpusno osnovani slovensko-japonski učni slovar

Prijaviteljica: Kristina Hmeljak Sangawa, FF UL
Izvajalci: Jan Hrastnik, študent FMF UL; Nina Sangawa Hmeljak, študentka FRI UL; Laura Barovič Božjak, Nadja Bostič, Katarina Hitomi Gerl, Nina Kališnik, Sara Kleč, Eva Kovač in Jure Tomše, študenti FF UL
Prejeta sredstva: 3.500 €

V okviru projekta smo izdelali slovensko-japonski spletni slovar za slovensko govoreče. Podatke iz obstoječega japonsko-slovenskega slovarja jaSlo 3.1 (http://hdl.handle.net/11356/1050), ki obsega 9.891 gesel, smo strojno obrnili v grob slovensko-japonski slovar, iz gesel najprej avtomatsko in nato ročno izločili dvojnike in neprimerne iztočnice, gesla dopolnili s slovenskimi besednimi vrstami in stopnjo težavnosti po lestvici SEJO, kot jo navaja Jedrno besedišče slovenščine (http://hdl.handle.net/11356/1697), nato pa gesla ročno uredili z orodjem Lexonomy.

Geslom z več prevodnicami smo dodali namige o pomenu posameznih japonskih prevodnic, delno tudi primere rabe v obeh jezikih, ki smo jih pridobili iz japonsko-slovenskega vzporednega korpusa jaSlo (https://nl.ijs.si/jaslo/#parallel) in jih ročno priredili za slovarsko rabo. Ročno smo japonskim sinonimom iz različnih registrov dodali tudi pragmatične oznake (spoštljivo, ponižno, vljudno ipd.) in opombe o omejitvah pri rabi besed, ki so namenjene uporabnikom slovarja, ki se učijo japonščine kot tujega jezika.

Slovar je za brskanje dostopen na portalu Lexonomy, na https://www.lexonomy.eu/#/sloJa, za prevzem pa v repozitoriju CLARIN.SI pod licenco CC-BY 4.0 na http://hdl.handle.net/11356/1898.

Izdelava učne množice označenih avtomatsko izluščenih kolokacijskih podatkov

Prijavitelj: Iztok Kosem, CJVT UL
Izvajalci: Rebeka Roblek, Karolina Zgaga, Bojan Klemenc, Polona Gantar
Prejeta sredstva: 8.500 €

V okviru projekta je bila izdelana učna množica 713.310 kolokacijskih kandidatov, ki so bili avtomatsko izluščeni iz referenčnega korpusa Gigafida 2.0 in označeni glede na njihovo kolokacijsko ustreznost. Kolokacijski kandidati (minimalna frekvenca = 4) so bili izluščeni za tri skladenjske strukture, ki so poleg tega, da so med najpogostejšimi skladenjskimi strukturami v slovenskem jeziku, tudi pomensko najbolj obvestilne:

Glagol + samostalnik v tožilniku (163.229 kolokacijskih kandidatov)
Pridevnik + samostalnik (342.714 kolokacijskih kandidatov)
Samostalnik + samostalnik v rodilniku (207.367 kolokacijskih kandidatov).

Pri označevanju smo beležili tri odločitve: Da – dober kolokacijski kandidat (skladenjska ustreznost in pomenska smiselnost), Razširjena – pogojno dober kolokacijski kandidat, ki ima zelo pogosto ali vedno še tretji element (brez katerega včasih pomensko ni smiseln), Ne – slab kolokacijski kandidat.

Učna množica, ki bo integrirana tudi v Digitalno slovarsko bazo za slovenščino na Centru za jezikovne vire in tehnologije Univerze v Ljubljani, je na voljo v repozitoriju CLARIN.SI pod licenco CC BY-SA 4.0 na http://hdl.handle.net/11356/1903.

Ukrajinski parlamentarni korpus za raziskave kodnega preklapljanja

Prijaviteljica: Anna Kryvenko, INZ (Slovenija) & NISS (Ukrajina)
Izvajalci: Matyáš Kopp, Karlova univerza (Češka), Andriana Rii, študentka Nacionalne politehnične univerze v Lvovu (Ukrajina)
Prejeta sredstva: 8.000 €

V okviru projekta je bil izdelan ukrajinski parlamentarni korpus ParlaMint-UA 4.0.1, ki je razširjena različica korpusa ParlaMint-UA 4.0, slednji izdelan kot del projekta “ParlaMint: Towards Comparable Parliamentary Corpora”, ki ga je financiral CLARIN in je dostopen na http://hdl.handle.net/11356/1859 in http://hdl.handle.net/11356/1860.

ParlaMint-UA 4.0.1 je enkrat večji kot ParlaMint-UA 4. Vsebuje skoraj 42 milijonov besed, in vključuje starejše podatke med letoma 2002 in 2012 ter novejše podatke med septembrom in novembrom 2023. Več podrobnosti o korpusu ParlaMint-UA 4.0.1 lahko najdete na https://ufal.github.io/ParlaMint-UA/.

Projekt je začel tudi razvoj označevanja kodnih preklopov v ukrajinskem parlamentarnem korpusu, in sicer z nadgradnjo določevanja jezika (ukrajinščina, ruščina) od ravni odstavka na raven povedi. Za identifikacijo jezika je bila uporabljena knjižnica lingua-py. Potrebno je poudariti, da je bil uradni jezik ukrajinskega parlamenta vedno ukrajinščina. Pojavnice v ruščini obsegajo le 6 % celote, in jih po sredini leta 2019, ko je začel veljati zakon o zaščiti delovanja ukrajinskega jezika kot državnega, praktično ni več. Ker pa je ukrajinsko-ruska dvojezičnost še vedno razširjena v sodobni ukrajinski družbi, jezikovne izbire, ki so jih družbeni akterji sprejemali na plenarnih zasedanjih v nedavni preteklosti, niso bile niti iracionalne niti neopažene s strani volivcev. Motivacije in mehanizmi, na katerih temeljijo te izbire, so zelo zanimivi za znanstvenike na različnih področjih družbenih in humanističnih ved ter za širšo javnost.

Verjamemo, da bo ukrajinski parlamentarni korpus ParlaMint-UA 4.0.1 priročen vir, ki bo prispeval k raziskavam parlamentarnega diskurza na splošno in k napredku korpusno osnovanih študij kodnega preklapljanja v institucionalnih kontekstih.

Rezultat projekta je objavljen na repozitoriju CLARIN.SI pod licenco Creative Commons – Attribution 4.0 International (CC BY 4.0) in ga lahko prenesete s http://hdl.handle.net/11356/1900.

Poročila o projektih CLARIN.SI 2022

V 2022 CLARIN.SI sprejel v financiranje šest projektov, ki so bili vsi tudi uspešno zaključeni in so opisani v nadaljevanju:

Spletni vmesnik za napredno brskanje po slovenskih univerzalno skladenjsko razčlenjenih korpusih

Prijaviteljica: Kaja Dobrovoljc, FF UL
Izvajalec: Miha Štravs, študent FRI UL
Prejeta sredstva: 5.000 €

V okviru projekta smo razvili spletni vmesnik Drevesnik (https://orodja.cjvt.si/drevesnik/), ki jezikoslovcem in drugim raziskovalcem omogoča brskanje po izbranih slovenskih skladenjsko razčlenjenih korpusih z zmogljivim povpraševalnim jezikom na eni strani in uporabniku prijazno vizualizacijo rezultatov na drugi. Temelji na odprtokodnem orodju dep_search, ki smo ga lokalizirali in dodatno nadgradili tako, da odslej poleg poizvedb po oznakah sheme Universal Dependencies omogoča tudi iskanje po oblikoskladenjskih oznakah sheme JOS, naključno razporeditev rezultatov ter njihovo zamejitev glede na dolžino povedi. Uporabniki lahko v korpusih iščejo po posamičnih besedah ali kompleksnejših skladenjskih strukturah, pri čemer jim je pri oblikovanju iskalnega pogoja v pomoč posebna spletna stran s slovenskimi ponazoritvenimi primeri. Rezultati poizvedbe se prikažejo v obliki skladenjsko razčlenjenih dreves (grafov), v različnih oblikah pa so na voljo tudi za prenos na uporabnikov računalnik. Trenutno je poizvedovanje možno po ročno razčlenjenih korpusih pisne (SSJ) in govorjene slovenščine (SST) ter po strojno razčlenjenem korpusu ccKres, pri čemer zaledni sistem omogoča tudi dodajanje novih korpusov v formatu CONLL-U.

Izvorna koda in dokumentacija je dostopna na https://github.com/clarinsi/drevesnik, različica 1.1 pa je dostopna za prenos tudi s repozitorijia CLARIN.SI:

Štravs, Miha and Dobrovoljc, Kaja, 2023, Service for querying dependency treebanks Drevesnik 1.1, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1923.

Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika KUUS in seznami temeljnega besedišča za stopnje A1, A2 in B1

Prijavitelj: Matej Klemen, Center za slovenščino kot drugi in tuji jezik, FF UL
Drugi sodelavci projekta: Špela Arhar Holdt, FF+FRI UL, Damjan Huber, Center za slovenščino kot drugi in tuji jezik, FF UL, Iztok Kosem, FF+FRI UL, Mateja Lutar, Center za slovenščino kot drugi in tuji jezik, FF UL, Senja Pollak, IJS
Prejeta sredstva: 2.500 evrov

V projektu smo oblikovali korpus učbenikov za učenje slovenščine kot drugega in tujega jezika KUUS in z analizo besedišča v njem tudi izhodiščni seznam jedrnega besedišča za stopnje A1, A2 in B1 po Skupnem evropskem jezikovnem okviru (SEJO). Korpus KUUS zajema 17 učbenikov za učenje slovenščine kot drugega in tujega jezika, izdanih na Centru za slovenščino kot drugi in tuji jezik, ki se trenutno pogosto uporabljajo pri poučevanju slovenščine kot drugega in tujega jezika pri otrocih, mladostnikih in odraslih v Sloveniji in po svetu. Korpus obsega 520.796 besed in je oblikoskladenjsko označen ter opremljen z metapodatki.

Seznami besed za posamezne stopnje jezikovnega znanja imajo pri učenju tujih jezikov dolgo tradicijo. Za slovenščino kot drugi in tuji jezik so na različne načine vključeni v jezikovne dokumente, npr. v Preživetveno raven za slovenščino (Pirih Svetina idr. 2004), Sporazumevalni prag za slovenščino (Ferbežar idr. 2004) itn., in so bili pripravljeni kot konsenz sestavljavcev posameznih dokumentov. V projektu pa smo pripravili seznam, ki temelji na korpusnem pristopu in v enem dokumentu združuje besedišče za različne stopnje.

Iz korpusa KUUS smo izvozili besede oz. leme in določili številčne kriterije, na podlagi katerih smo besede opremili z oznako stopnje SEJO: A1-jedro, A1-širše, A2, B1. Preverili smo, ali se posamezna beseda pojavlja tako v učbenikih kot tudi na Referenčnem seznamu pogostih splošnih besed (Pollak idr. 2020, http://hdl.handle.net/11356/1346). Besede, ki so dobile oznake A1, A2, B1 in hkrati niso del referenčnega seznama splošnega pogostega besedišča, smo ročno pregledali in vsebinsko kategorizirali. Določen delež teh besed smo prepoznali kot relevantne kandidate za vključitev na seznam jedrnega besedišča, označenega s stopnjami SEJO: vključili smo npr. za učbenike tipično jezikoslovno terminologijo (npr. poved, pogojnik, modalen). Tako izhodiščni seznam jedrnega besedišča v trenutni različici obsega 350 besed s pripisano oznako A1-jedro, 864 besed z oznako A1-širše, 1.451 besed, ki smo jim pripisali oznako A2, in 2.608 besed na stopnji B1; skupaj 5.273 besed.

Rezultata projekta sta pod licenco ACA ID-BY-NC-INF-NORED 1.0 na voljo v repozitoriju CLARIN.SI v dveh vnosih:

Corpus of textbooks for learning Slovenian as L2 KUUS 1.0: http://hdl.handle.net/11356/1696
Core vocabulary for Slovenian as L2 1.0: http://hdl.handle.net/11356/1697

Pripravo in sestavo korpusa ter izdelavo izhodiščnih seznamov jedrnega besedišča za stopnje A1, A2 in B1 po SEJO smo podrobneje predstavili v prispevku:

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja, KOSEM, Iztok, HUBER, Damjan, LUTAR, Mateja, 2022. Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika. Nataša Pirih Svetina, Ina Ferbežar (ur.): Na stičišču svetov: slovenščina kot drugi in tuji jezik. Obdobja 41. Ljubljana: Založba Univerze v Ljubljani. 165–174. DOI: https://doi.org/10.4312/Obdobja.41.2784-7152, https://centerslo.si/simpozij-obdobja/zborniki/obdobja-41/

ParaDiom – Vzporedni korpus besedil z idiomatskimi enotami

Prijavitelj: Gregor Donaj, UM FERI
Drugi sodelavci projekta: Špela Antloga, UM FERI
Prejeta sredstva: 6.000 EUR

ParaDiom (Parallel Corpus of Idiomatic Texts) je vzporedni korpus, sestavljen iz povedi, vzorčenih iz obstoječih korpusov. Korpus vsebuje 1.000 segmentov slovenskega besedila s prevodi v angleščino in 1.000 povedi angleškega besedila s prevodi v slovenščino. Segmenti so med jezikoma poravnani. Vzorčene povedi vsebujejo samostalniške, pridevniške, glagolske in prislovne frazeme, primerjalne frazeme in pregovore, ki so v korpusu tudi označeni.

Vzorčenje povedi je temeljijo na izbiri 100 slovenskih in 92 angleških frazemov in primerjalnih frazemov ter iskanju povedi v obstoječih korpusih ccGigafida, ParlaMint in The Corpus of Late Modern English Texts. Vzorčene povedi so bile označene z MULTEXT-East MSD oznakami, Universal Dependencies oblikoslovnimi lastnostni in lemami s programom Stanza za angleščino in CLASSLA za slovenščino. Če je poved vključevala pregovor, smo ga označili. Polovica vzorčenih povedi je bila prevajana ročno, polovica pa strojno z ročnimi popravki.

Označevanje idiomatskih enot je potekalo v orodju Q-CAT. Označeni samostalniški, pridevniški in prislovni frazemi so dobili oznako MWE ID (‘idiomatic multiword expression’), glagolski frazemi MWE VID (‘verbal idiomatic multiword expression’), primerjalni frazemi MWE SIM (‘simile’) in pregovori MWE P (‘proverb’).

Rezultati projekta so na voljo pod licenco CC BY-NC-SA 4.0 na repozitoriju CLARIN.SI:

Parallel corpus of idiomatic text ParaDiom 1.0; http://hdl.handle.net/11356/1714.

Ustvarjanje slovenske množice SI-NLI za sklepanje o pomenskem sosledju besedil

Prijavitelj: Matej Klemen, UL FRI
Drugi sodelavci projekta: Aleš Žagar, UL FRI, Jaka Čibej, UL CJVT, Marko Robnik-Šikonja, UL FRI
Prejeta sredstva: 10.000 EUR

SI-NLI (Slovene Natural Language Inference Dataset) je podatkovna množica, namenjena učenju modelov, ki razpoznavajo pomensko sosledje podanega para povedi. Med predpostavko “Pred mano teče pet metrov široka reka.” in hipotezo “Skočil sem z enega na drugi breg.” je npr. označena relacija nasprotovanja, saj trditev v hipotezi nasprotuje predpostavki (človek ne more skočiti tako daleč). Množico smo ustvarili s pomočjo povedi, ki se pojavljajo v slovenskih referenčnih korpusih. Pri ustvarjanju množice smo se osredotočili na to, da ustvarimo med seboj raznolike primere, saj smo pri pregledu sorodnih obstoječih množic v angleščini ugotovili, da vsebujejo preveč enostavne primere, kar lahko strojne modele zavede, da se naučijo besedilnih artefaktov namesto logičnega sklepanja. Skupna velikost podatkovne množice je 5.937 parov povedi. Razdeljena je na učno, validacijsko in testno množico, ki vsebujejo po 4.392, 547 in 998 primerov. Delitev smo opravili s pomočjo slovenskih jezikovnih modelov tipa BERT ter s tem zagotovili, da so težki in lahki primeri enakomerno porazdeljeni v vseh treh podmnožicah.

Zasnovali smo delno avtomatski in delno ročni postopek ustvarjanja učnih primerov. Par povedi (predpostavka in hipoteza) smo najprej avtomatsko izluščili s pomočjo nevronskega kodirnika stavkov, nato pa so označevalci za vsako predpostavko tvorili po eno hipotezo, ki je ustrezala kriterijem izhajanja (ang. entailment, E), nevtralnosti (ang. neutral, N) ali nasprotovanja (ang. contradiction, C). Pri tem so sledili smernicam, ki smo jih zasnovali z namenom, da zagotovimo kvalitetno ustvarjene in raznolike učne primere. V smernicah je npr. navedeno, da označevalec, ko tvori hipotezo za relacijo nasprotovanja, ne sme zgolj zanikati trdilnega stavka, saj je to preveč enostavno. Vsak primer je bil pregledan s strani vsaj dveh označevalcev, nekatere primere pa je pregledal še tretji označevalec. SI-NLI tako omogoča kakovostno preučevanje sklepalnih sposobnosti strojno naučenih modelov za slovenski jezik in je glede kakovosti primerov posebnost tudi v svetovnem merilu.

Rezultati projekta so dostopni na sledečih mestih:

Programska koda je dostopna na repozitoriju https://github.com/clarinsi/si-nli. Z njo je mogoče iz korpusov izluščiti pare povedi za nadaljnjo obdelavo in označevanje ter doučiti jezikovne modele.
Množica je objavljena na repozitoriju CLARIN.SI: Slovene Natural Language Inference Dataset SI-NLI, http://hdl.handle.net/11356/1707. Vključena je tudi v ogrodje za evalvacijo jezikovnih modelov za slovenščino SloBENCH (https://slobench.cjvt.si/), zato so oznake v testni množici skrite.
Na ustvarjeni podatkovni množici smo za sklepanje o pomenskem sosledju doučili slovenski jezikovni model SloBERTa, ki dosega klasifikacijsko točnost 73,5 %, in večjezikovni model CroSloEngual BERT, ki dosega klasifikacijsko točnost 67,3 %. Modela sta javno dostopna na portalu HuggingFace na https://huggingface.co/cjvt/sloberta-si-nli in https://huggingface.co/cjvt/crosloengual-bert-si-nli.

Izdelava korpusa programov političnih strank za državnozborske volitve 2022

Prijavitelj: Andrej Pančur, INZ
Drugi sodelavci projekta: Petra Polanič, Filip Dobranić, INZ
Prejeta sredstva: 2.500 EUR

V korpus so bili vključeni programi, s katerimi so politične stranke sodelovale na državnozborskih volitvah 24. 4. 2022, kakor so bili objavljeni na spletnih mestih strank do dne pred volitvami.

Besedilo političnega programa posamezne stranke je bilo shranjeno v svojo datoteko, z izjemo strank Naša prihodnost in Dobra država, ki sta na volitvah nastopili skupaj, zato smo njuna programa obravnavali skupaj in sta shranjena v eni datoteki. Besedilo je bilo v prvem koraku pretvorjeno v .txt format, kjer je zbrano nespremenjeno besedilo programov strank z izjemo delov, ki so bili izpuščeni pri vseh strankah, ki te elemente v programu imajo, to so: uvodnik predsednika ali predsednice stranke ob objavi programa, kazalo, poimensko naštevanje kandidatov po posameznih volilnih okrajih in daljši citati (npr. iz drugih dokumentov stranke, citati govorov s kongresa stranke in podobno). Besedilo je bilo ob pretvorbi v .txt format pregledano in očiščeno elementov, kot so podvajanje besedila, besedilo v glavi in nogi programa (npr. naslov poglavja v glavi posamezne strani programa), besedilo grafov, opisi slik in navedbe virov slik. V primeru dveh strank, ki sta svoje programe objavili kot besedilo na spletni strani, v korpus ni bilo vključeno nedokončano besedilo nekaterih delov programa (eksplicitna navedba, da je besedilo še v urejanju ali uporaba nadomestnega besedila). Besedila programov so bila nato jezikoslovno označena z označevalnim orodjem CLASSLA in pretvorjena v format CoNLL-U.

V korpusu je zbranih 19 programov strank. Vsebuje 330.559 pojavnic; najkrajši program je program stranke Lista Borisa Popoviča (264 pojavnic), najdaljši pa program stranke Socialni demokrati (6.7071 pojavnic). Iz metapodatkov je razvidno ime stranke in njen URL, kot tudi URL zajetega programa..

Korpus omogoča pregled programov strank in vsebinsko primerjavo med njimi tudi na jezikoslovni ravni (npr. s primerjavo najpogostejših pridevnikov v različnih programih, pojavnost izrazov in specifičnih besednih zvez v posameznih programih itd.). Stranke vsebino svojih programov predstavljajo na raznolike načine, kar je bilo razvidno tudi med pripravo korpusa; ob izrazitih razlikah v dolžini programov so prisotne tudi razlike v formatu in prisotnosti različnih grafičnih elementov (slik, miselnih vzorcev, grafov). Za razvoj korpusa ali nastanek podobnih korpusov bi k vsebini lahko pomembno prispeval sistematičen način beleženja teh elementov. K jezikoslovni in vsebinski analizi programov političnih strank bi pomembno pripomogel tudi obstoj korpusov, ki pokrivajo programe strank v daljšem časovnem obdobju, kar bi omogočilo tudi kronološko primerjavo programov iste stranke od njenega nastanka in pregled ključnih tem, ki so jih stranke naslavljale v času posameznih volitev.

Rezultat projekta je na voljo pod licenco CC BY-NC-SA 4.0 na repozitoriju CLARIN.SI:

Corpus of political party programs Programi2022; http://hdl.handle.net/11356/1734.

Evalvacijsko gradivo SloBench za razpoznavalnike govora

Prijavitelj: Darinka Verdonik, UM FERI
Drugi sodelavci projekta: Andreja Bizjak, Simona Majhenič, UM FERI
Prejeta sredstva: 6.000 EUR

Leta 2021 je bila vzpostavljena platforma SloBench (https://slobench.cjvt.si/), namenjena evalvaciji jezikovnotehnoloških orodij za slovenski jezik. Evalvacijska gradiva na platformi so skrita. V projektu SloBench ASR smo pripravili evalvacijsko gradivo SloBench za evalvacijo uspešnosti razpoznavalnikov tekočega govora za slovenski jezik. Gradivo je bilo zbrano namensko za platformo SloBench in zajema posnetke in govorce, ki po najboljšem vedenju prijavitelja še niso zajeti v drugih obstoječih govornih bazah ali korpusih za slovenski jezik. Gradivo zajema:

15 posnetkov v skupnem obsegu 3 h 18 min. 28 sek. (3:18:28)
javni govor v obsegu 2:08:35 in nejavni govor v obsegu 1:09:53
9 posnetkov v obsegu 2:03:04 iz jugozahodnega dela Slovenije in 6 posnetkov v obsegu 1:15:24 iz severovzhodnega dela Slovenije
18 moških govorcev in 19 ženskih govork
javni govor zajema tematike evolucija, opis kraja, znanstveni slam, opis življenja, kultura govora, novice, knjige, energetika, nejavni govor pa 4 monologe in 3 dialoge med dvema osebama
v nejavnem govoru sodeluje 10 govorcev, od tega 3 stari do 30 let, 5 starih od 30 do 49 let in 2 nad 50 let

Vsi posnetki so ročno transkribirani v načinu pogovornega zapisa in standardiziranega zapisa (Verdonik et al. 2013), skladno standardom, kot je bil uporabljan pri transkribiranju baze Artur v projektu Razvoj slovenščine v digitalnem okolju, dostopne prek repozitorija CLARIN.SI.

Posnetki evalvacijskega gradiva SloBench za razpoznavalnike so dostopni na https://slobench.cjvt.si/leaderboard/view/10. Transkripcije so uporabljene za izvedbo evalvacije. Rezultati evalvacij so javno objavljeni na https://slobench.cjvt.si/leaderboard/view/10.

Poročila o projektih CLARIN.SI 2021

V 2021 CLARIN.SI sprejel v financiranje štiri projekte, vendar so bili samo trije uspešno zaljučeni, in so opisani v nadaljevanju.

Luščenja iz korpusa KAS

Prijavitelji: Aleš Žagar, Matic Kavaš in Marko Robnik-Šikonja, UL FRI
Prejeta sredstva: 9.500 EUR

Korpus akademske slovenščine KAS 1.0 (http://hdl.handle.net/11356/1244) vsebuje diplomska, magistrska in doktorska dela prevzeta s portala odprte znanosti v obsegu približno 82.000 dokumentov do leta 2018, obstaja pa tudi vnos http://hdl.handle.net/11356/1420, ki zajema samo avtomatsko izluščene slovenske in angleške povzetke teh del. Pri analizi korpusa KAS smo ugotovili, da so nekateri podatki nezadovoljivo strukturirani in izluščeni. Med nekonsistentnostmi, ki smo jih zaznali, so npr. pomešani slovenski in angleški povzetki in ključne besede, neobstoj povzetkov ali nek drug besedilni element namesto povzetka, nesegmentirana besedila in neobstoječa klasifikacija besedil, šumna ekstrakcija nekaterih besedilnih elementov idr. Do sedaj iz korpusa izluščene podatkovne množice niso obsegale povzemanja ali izkoriščale soobstoja angleških in slovenskih povzetkov za strojno prevajanje.

Projekt je izdelal čistejšo različico korpusa KAS z dodano segmentacijo besedil po poglavjih in posodobljenim oblikoskladenjskim označevanjem. Posodobljeni korpus povzetkov pa vsebuje manj napak in vsebuje ustrezno označene povzetke, iz katerih je razvidno, v katerem jeziku je posamezen povzetek napisan. Izluščili smo približno 72.000 slovenskih in 54.000 angleških povzetkov. Z uporabo modelov strojnega učenja smo v metapodatkih dopolnili približno polovico manjkajočih informacij o raziskovalnem področju posameznega dela. Na podlagi besedil in povzetkov smo ustvarili več novih podatkovnih množic: enojezično (72.000 primerov) in medjezikovno (54.000 primerov) množico za povzemanje dolgih akademskih besedil in množico poravnanih stavkov iz povzetkov v angleščini in slovenščini primerno za učenje oz. evalvacijo strojnega prevajanja. Ustvarili smo tri različice množice za strojno prevajanje z različnimi vrednostmi zanesljivosti poravnave: privzeta poravnava vsebuje približno 497 tisoč parov, zanesljivejša poravnava 475 tisoč in zelo zanesljiva poravnava 426 tisoč parov.

Programska koda je dostopna na repozitoriju https://github.com/korpus-kas. S programsko kodo je mogoče izluščiti besedila in povzetke, naučiti modele za klasifikacijo raziskovalnih področij posameznih del ter poravnati stavke povzetkov napisanih v angleškem in slovenskem jeziku.

Korpus in učne množice so objavljene na repozitoriju CLARIN.SI:

Corpus of Academic Slovene KAS 2.0: http://hdl.handle.net/11356/1448
Abstracts from the KAS corpus KAS-Abs 2.0: http://hdl.handle.net/11356/1449
Summarization datasets from the KAS corpus KAS-Sum 1.0: http://hdl.handle.net/11356/1446
Machine Translation datasets from KAS corpus KAS-MT 1.0: http://hdl.handle.net/11356/1447

Vse postopke luščenja in priprave množic smo podrobneje opisali v članku:

Žagar, A., Kavaš, M., & Robnik Šikonja, M. (2021). Corpus KAS 2.0 : cleaner and with new datasets. In Information Society – IS 2021 : Proceedings of the 24th International Multiconference. https://doi.org/10.5281/zenodo.5562228

SloBENCH: Zasnova in izdelava ogrodja za merjenje uspešnosti

Prijavitelji: Slavko Žitnik, Simon Krek, Marko Robnik-Šikonja in Frenk Dragar, ULFRI
Prejeta sredstva: 10.000 EUR

Na področju obdelave naravnega jezika obstaja kar nekaj nalog, ki predstavljajo pomembne dele opremljenosti posameznega jezika z jezikovnimi tehnologijami in viri. Primeri takšnih nalog so avtomatsko povzemanje, prevajanje, oblikoslovno označevanje ali tehnike ekstrakcije informacij. Jezikovni viri in tehnologije so dostopni preko različnih platform (npr. repozitorij CLARIN.SI), vendar se njihova objektivna primerjava ne izvaja celovito ali enotno.

V okviru projekta smo zagotovili možnost uvajanja preglednosti in transparentnosti nad razvitimi orodji in viri za jezikovne tehnologije slovenskega jezika. Orodje SloBENCH je spletišče z javno objavljenimi primerjalniki za poljubno nalogo jezikovnih tehnologij. Omogoča več vlog uporabnikov ter dodajanje, spreminjanje ali izdelavo novih verzij primerjalnikov. Spletne storitve SloBENCH omogočajo avtomatizirano dodajanje rezultatov ter poljubno implementacijo in izračun metrik za posamezen primerjalnik. Orodja za evalvacijo, ki so del spletišča SloBENCH, so objavljena in vzdrževana v javnem repozitoriju CLARIN.SI. Zaradi enostavnosti testiranja omogočajo, da lahko evalvacijsko orodje za izbrano nalogo vsakdo zažene v okviru svojega sistema.

V začetni verziji orodja so vzpostavljene evalvacijske skripte s primeri učnih in testnih množic za devet različnih nalog: prepoznavanje imenskih entitet, oblikoslovnih/oblikoskladenjskih oznak, lematizacija, razčlenjevanje, prepoznavanje udeleženskih vlog, prevajanje (ANG-SLO, SLO-ANG), povzemanje in odgovarjanje na vprašanja.

Po zaključku projekta bo za njegovo nadaljnje vzdrževanje skrbel CJVT. Poleg internega repozitorija spletišča in dokumentacije, ki se vodi v okviru CJVT, je bilo v okviru projekta vzpostavljeno:

Spletišče https://slobench.cjvt.si: Glavna javna vstopna točka do vseh primerjalnikov.
Evalvacijsko ogrodje – https://github.com/clarinsi/slobench-eval-docker
Javni DockerHub repozitorij z zgrajenimi Docker slikami, ki jih uporablja SloBENCH: https://hub.docker.com/r/slobench/eval/tags.

Korpus metafor v govorjenem jeziku G-KOMET

Prijavitelji: Špela Antloga, Univerza v Mariboru, Fakulteta za elektrotehniko, računalništvo in informatiko
Prejeta sredstva: 6.000 EUR

G-KOMET (korpus metafor v govorjenem jeziku) je nadgradnja pisnega korpusa metaforičnih izrazov in metafor KOMET 1.0 s transkripcijami (po)govora v obsegu 50.000 besed. Korpus vključuje uravnotežen nabor transkripcij informativnega, izobraževalnega, razvedrilnega, zasebnega in nezasebnega diskurza. V njem so ročno označene metaforične besede, to so jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore, stalne besedne zveze, torej večbesedne enote, katerih vsaj ena sestavina je bila rabljena metaforično, in metonimije, izraze, ki jih uporabljamo, da bi z njimi izrazili nekaj drugega.

Označevanje metaforičnih besed je temeljilo na postopku za identifikacijo metafor MIPVU. Postopek je bil prilagojen specifikam slovenskega jezika in specifikam govorjenega jezika. Metaforičnim besedam je bil določen tip metaforičnega prenosa, torej ali gre za direktno, indirektno metaforo, izraz, ki vpeljuje metaforično besedo, ali mejni primer. Metaforičnim besedam in stalnim besednim zvezam je bilo določeno še pomensko polje metaforične preslikave. Označenim metonimijam pa je bil določen tip metonimične preslikave. G-KOMET omogoča sistematično analizo metaforičnih in metonimičnih izrazov v slovenskem govorjenem jeziku.

Korpus je objavljen na repozitoriju CLARIN.SI:

Corpus of metaphorical expressions in spoken Slovene language G-KOMET 1.0: http://hdl.handle.net/11356/1490

Poročila o projektih CLARIN.SI 2020

V 2020 je CLARIN.SI prejel manj prijav, kot prejšnja leta, v veliki meri zaradi zasedenosti skoraj vseh konzorcijskih partnerjev z delom na projektu RSDO. Od prijavljenih projektov so bili izbranih trije, pri čemer je eden od projektov odstopil od pogodbe, saj so se pojavili zapleti okoli avtorskih pravic nad virom, ki je bil mišljen za objavo. Uspešno zaključena projekta sta opisana v nadaljevanju.

Razvoj učnega gradiva na korpusu siParl 2.0: Korpusni pristop k raziskovanju parlamentarnega diskurza

Prijaviteljica: Kristina Pahor de Maiti, UL FF
Prejeta sredstva: 5.000 EUR

Slovenski raziskovalci so pod okriljem CLARIN.SI ključno pripomogli k razvoju parlamentarnih korpusov in razumevanju njihovega potenciala za raziskovalce v evropskem kontekstu (razvoj priporočil za kodiranje, razvoj parlamentarnih korpusov za različne jezike, pregled dostopnih parlamentarnih korpusov, organizacija mednarodnih znanstvenih dogodkov o izgradnji in analizi parlamentarnih korpusov). Vendar te dejavnosti v slovenski raziskovalni skupnosti še niso dobro poznane, zato smo v okviru tega projekta pripravili učno gradivo, za katerega menimo, da bo pripomoglo k premoščanju te vrzeli.

Cilj projekta je bil zato izdelati učno gradivo, prek katerega bi na dostopen, metodološko ustrezen in raziskovalno relevanten način predstavili uporabnost jezikovnih korpusov za proučevanje družbenokulturnih pojavov, ki jih lahko raziskujemo na podlagi jezikovne rabe v specializiranem diskurzu. V ta namen je bil uporabljen korpus siParl 2.0 (http://hdl.handle.net/11356/1300), ki vsebuje sejne zapise razprav v Državnem zboru Republike Slovenije za obdobje 1990–2018, kot analitično orodje pa konkordančnik noSketch Engine CLARIN.SI (https://www.clarin.si/noske/) oz. korpus siParl 2.0, dostopen prek tega konkordančnika.

Gradivo je sestavljeno iz krajšega teoretičnega uvoda, ki obravnava posebnosti specializiranega diskurza in vpliva spola na sporazumevalne prakse ter vsebuje razlago najbolj uveljavljenih tehnik korpusne analize. Glavni del učnega gradiva je namenjen trem nalogam, kjer z uporabo različnih tehnik korpusne analize raziskujemo položaj žensk v slovenskem parlamentu. Naloge bralca postopoma vodijo od izvedbe analitičnih postopkov do interpretacije rezultatov, dodani pa so tudi zaslonski posnetki, ki prikazujejo uporabo konkordančnika in bralcu omogočajo samostojno rabo korpusa.

Čeprav učno gradivo temelji na slovenskem parlamentarnem korpusu, je analizo mogoče ponoviti na podobno označenih parlamentarnih korpusih v drugih jezikih, prav tako pa se predstavljene tehnike korpusne analize lahko uporabi tudi na drugih vrstah korpusov, kar po eni strani omogoča mednacionalno primerjavo parlamentarne kulture in diskurza, po drugi strani pa spodbuja meddisciplinarno izmenjavo metodoloških pristopov. Za največjo možno uporabnost učnih gradiv smo pripravili tudi angleško različico, namenjeno tujejezičnim uporabnikom.

Učno gradivo je objavljeno v reviji Prispevki za novejšo zgodovino, ki jo izdaja Inštitut za novejšo zgodovino, Ljubljana:

FIŠER, Darja, PAHOR DE MAITI, Kristina. “Prvič, sem političarka in ne politik, drugič pa…”: korpusni pristop k raziskovanju parlamentarnega diskurza. Prispevki za novejšo zgodovino. 2021, letn. 61, št. 1, str. 144-179, ISSN 0353-0329. https://ojs.inz.si/pnz/article/view/3823, DOI: 10.51663/pnz.61.1.07.

Učno gradivo je tako v slovenskem kot angleškem jeziku dostopno tudi v digitalni knjižnici INZ:

FIŠER, Darja, PAHOR DE MAITI, Kristina. “Prvič, sem političarka in ne politik, drugič pa …”: korpusni pristop k raziskovanju parlamentarnega diskurza. Inštitut za novejšo zgodovino, 2021. 1 spletni vir. Zbirka Parlamentaria, 2. ISBN 978-961-7104-06-6. https://sidih.github.io/voices/index-sl.html.

Na voljo so tudi recenzije gradiva.

Izdelava epigrafskega korpusa srednjeveških in zgodnje novoveških napisov na Slovenskem MEMIS

Prijavitelj: Gregor Pobežin, Inštitut za kulturno zgodovino ZRC SAZU
Prejeta sredstva: 4.000 EUR

V projektu »Epigrafski korpus srednjeveških in zgodnje novoveških napisov na Slovenskem MEMIS 1.0« je bilo testno zbranih, evidentiranih, obdelanih v formatu XML in prevedenih 51 napisov v latinskem jeziku iz poznega srednjega in zgodnjega novega veka od l. 1222 do srede 17. stoletja; v pričujočem obsegu korpus vsebuje le napise iz slovenskih obalnih mest s poudarkom na Kopru in Piranu, in sicer vse napise, ki se bodisi nahajajo v svojem primarnem kontekstu, bodisi so bili premaknjeni ali celo uničeni in so dostopni samo še v prepisih. Gradivo za korpus je bilo zbrano s pomočjo terenskih raziskav, tj. evidentiranja in dokumentiranja napisov in situ.

V korpusu so napisi razvezani (razvezane so abreviature in ligature) in komentirani ter prevedeni, zbrani in razgrnjeni pa so tudi različni metapodatki. Za potrebe zapisa v formatu XML je bila uporabljena predloga za obdelavo rokopisov EpiDoc template XML file, ki omogoča obdelavo večine relevantnih epigrafskih metapodatkov.

Namen korpusa je ustvariti metodološko podlago za obdelavo srednjeveških in zgodnje novoveških napisov v latinskem jeziku (in v vernakulranih jezikih), ki se nahajajo, oziroma so bili odkriti na območju slovenskega etničnega ozemlja. Korpus, ki bo kot integrirni vir objavljen v okviru infrastrukture DARIAH.SI, bo omogočal sistematično obdelavo in objavljanje bogate napisne dediščine, ki za razliko od antične materije še čaka na znanstveno obdelavo.

Epigrafski korpus MEMIS 1.0 je za prevzem dostopen pod licenco CC BY-SA 4.0 na:

Pobežin, Gregor, 2020, Epigraphic corpus of Medieval and Early Modern inscriptions in Slovenia MEMIS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1376.

Poročila o projektih CLARIN.SI 2019

CLARIN.SI je v letu 2019 ponovil uspešno podbudo, začeto v 2018, in objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili znova projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih šest, ki so opisani v nadaljevanju.

Orodje za statistično analizo skladenjsko razčlenjenih korpusov

Prijavitelja: Kaja Dobrovoljc, FF UL, Marko Robnik Šikonja, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu smo razvili računalniški program za statistično analizo skladenjsko razčlenjenih korpusov (orodje STARK), ki omogoča izdelavo frekvenčnih seznamov skladenjskih dreves iz odvisnostnoskladenjsko razčlenjenih korpusov. Uporabnik lahko v konfiguracijski datoteki nastavi več parametrov, s katerimi določa lastnosti izluščenih dreves, kot so število vozlišč v drevesu, tip izpisanih vozlišč (od konkretnih besed do abstraktnejših slovničnih lastnosti) ter (ne)upoštevanje zaključenosti drevesa, relacij med vozlišči in zaporedja besed v besedilu. Poleg tovrstnega induktivnega luščenja dreves brez vnaprejšnjih jezikoslovnih predpostavk orodje omogoča tudi luščenje dreves na podlagi dodatnih restrikcij in vnaprej opisanih drevesnih struktur. Rezultati se izpisujejo v obliki tabelaričnega formata, v katerem so poleg podatkov o strukturi dreves in njegovih vozliščih pripisani še izkorpusni podatki o pogostosti in stopnji statistične povezanosti med vozlišči glede na različne mere povezovalnosti. Orodje kot vhodno datoteko sprejme skladenjsko razčlenjen korpus v standardnem formatu CONLL-U, s čimer je poleg skladenjsko razčlenjenih korpusov v slovenščini, kot sta učni korpus ssj500k in referenčni korpus Gigafida, neposredno uporaben tudi za skladenjske analize več kot 70 drugih svetovnih jezikov, za katere so že na voljo korpusi v omenjenem formatu.

Orodje STARK je orodje ukazne vrstice, ki je pod odprto licenco Apache 2.0 prosto dostopno na https://github.com/clarinsi/STARK, za prevzem pa tudi v repozitoriju CLARIN.SI:

Krsnik, Luka; Dobrovoljc, Kaja and Robnik-Šikonja, Marko, 2019, Dependency tree extraction tool STARK 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1284.

Vzpostavitev dostopa do historičnih verzij referenčnega korpusa slovenskega jezika Gigafida

Prijavitelj: Andraž Repar, CJVT
Prejeta sredstva: 1.500 EUR

V spletnih konkordančnikih CLARIN.SI noSketch Engine in KonText je bila na voljo samo najnovejša različica korpusa Gigafida 2.0. Čeprav ta verzija korpusa Gigafida vsebuje tudi besedila iz starejših različic, pa se od njih vendarle razlikuje, saj so bila iz nje odstranjena podvojena in nestandardna besedila, poleg tega pa je bil korpus tudi na novo jezikoslovno označen.

Iz različnih razlogov se občasno pojavlja potreba po dostopu do starejših različic korpusa, na primer za dostop do odstranjenih nestandardnih besedil (še posebej je to lahko pomembno za raziskave na področju zamejske slovenščine, saj so bili odstranjeni viri, kot je glasilo Novi Matajur). Poleg tega se z omogočanjem dostopa do starejših različic zagotavlja ponovljivost že izvedenih raziskav na prejšnjih različicah korpusov.

V okviru projekta je bil v spletnih konkordančnikih noSketch Engine in KonText vzpostavljen dostop do prejšnjih različic korpusa Gigafida, in sicer do korpusov FidaPLUS, Gigafida 1.0 in Gigafida 1.1. V načrtu je bila tudi vzpostavitev dostopa do prve verzije korpusa Gigafida (t. i. korpusa FIDA), za katerega je bil v okviru projekta že sklenjen dogovor z lastnikoma korpusa, tj. s podjetjema Amebis, d.o.o. in DZS, d.d. Vendar do tega žal ni prišlo, ker so bila vsa projektna sredstva namenjena plačilu prenosa avtorskih pravic za korpus FIDA s podjetja DZS, d.d. na Univerzo v Ljubljani, in je zato zmanjkalo sredstev za izvedbo dejanskega prenosa korpusa s fizičnih nosilcev podatkov (CD-jev) v digitalno obliko, primerno za objavo na konkordančnikih.

Prek konkordančnikov noSketch Engine in KonText so sedaj dostopne naslednje različice korpusa Gigafida:

Gigafida v2.0 proto (nededupliciran): noSketch Engine, KonText,
Gigafida v2.0 (dedupliciran): noSketch Engine, KonText,
Gigafida v1.1 (nededupliciran): noSketch Engine, KonText,
Gigafida v1.1 dedup (dedupliciran): noSketch Engine, KonText,
Gigafida v1.0: noSketch Engine, KonText,
FidaPLUS: noSketch Engine, KonText.

Korpus za odkrivanje koreferenčnosti in analizo sentimenta za posamezno entiteto – SentiCoref 1.0

Prijavitelj: Slavko Žitnik, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu je bil izdelan korpus SentiCoref 1.0, ki vsebuje besedilne entitete z označenim sentimentom. Poleg sentimenta so označeni še koreferenčnost in imenske entitete. Kot imenske entitete so označena osebna imena, organizacije in zemljepisna imena. Za vsako imensko entiteto so v besedilu označene tudi vse povezane koreferenčne omenitve. Korpus omogoča boljšo analizo koreferenčnosti in sentimenta za posamezno entiteto v besedilu.

Podatkovna množica SentiCoref 1.0 vsebuje besedila iz korpusa SentiNews 1.0 (Bučar, 2017), ki sestoji iz 10.427 dokumentov. Vsak izmed dokumentov korpusa SentiNews 1.0 je označen s petstopenjskim sentimentom na nivoju dokumenta, odstavka in posameznega stavka. SentiCoref 1.0 pa vsebuje 837 dokumentov, ki so bili iz korpusa SentiNews 1.0 izbrani na podlagi števila imenskih entitet (avtomatsko označenih z orodjem Polyglot) in vsebujejo od 50 do 73 imenskih entitet.

Korpus SentiCoref 1.0 vsebuje 31.419 imenskih entitet: 15.285 imen organizacij, 8.606 osebnih imen in 7.528 zemljepisnih imen. Vsi dokumenti vsebujejo 14.572 koreferenčnih zaporedij (tj. entitet) in skupaj 438.733 omenitev. Entitete so označene z naslednjimi stopnjami sentimenta: zelo negativno: 30 entitet; negativno: 1.801 entitet; nevtralno: 10.869 entitet; pozitivno: 1.705 entitet; zelo pozitivno: 24 entitet.

Korpus SentiCoref 1.0 in navodila za označevanje so odprto dostopna pod licenco CC BY 4.0 na:

Žitnik, Slavko, 2019, Slovene corpus for aspect-based sentiment analysis – SentiCoref 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1285.

Govorni korpus dialoških dejanj GORDAN 1.0

Prijaviteljica: Darinka Verdonika, FERI UM
Prejeta sredstva: 6.000 EUR

V projektu Govorni korpus dialoških dejanj GORDAN 1.0 je bil razvit govorni korpus z dodanimi oznakami za dialoška dejanja. V korpusu smo zajeli uravnotežen vzorec različnih tipov govorjenega diskurza v skupnem obsegu ene ure. Gradiva so bila zajeta po kriterijih javnosti, interaktivnosti, kanala in namere. Izbrana so bila iz drugih obstoječih korpusov/baz: GOS, Gos Videolectures in BERTA.

Pred izbiro in definiranjem sheme za označevanje so bile preizkušene druge obstoječe sheme: MRDA, AMI, ISO 24617-2 in DART. Ocenjevali smo jih glede na to, ali označujejo pragmatični pomen, ali so koherentne ter ali so splošno veljavne in dobro uravnotežene. Pri vsaki shemi smo ugotovili večje pomanjkljivosti, na podlagi katerih smo nato definirali novo shemo GORDAN 1.0 (GOvoRna DejAnja), ki združuje ugotovljene pozitivne lastnosti analiziranih shem in ne vključuje negativnih.

Z izdelano shemo GORDAN 1.0 je bilo izbrano gradivo ročno označeno. Oznake so bile dodane v orodju Transcriber 1.5.1 prek funkcije dodajanja dogodkov v tekst. Označevanje je potekalo večmodalno, ob poslušanju, kjer so na voljo video posnetki, pa tudi ob gledanju posnetkov.

Označeno gradivo je na voljo v repozitoriju CLARIN.SI v dveh vnosih:

Zwitter Vitez, Ana; et al., 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (audio/video), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1292: vsebuje izvorno avdio gradivo (in video gradivo, če je na voljo), ki ga je mogoče prevzeti po pogojih izvorne licence, tj. CC BY-NC-ND 4.0;
Verdonik, Darinka, 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1291: vsebuje označeno tekstovno gradivo in specifikacijo sheme GORDAN 1.0. Vir je na voljo po pogojih licence CC BY 4.0.

Korpus metafor Komet 1.0

Prijaviteljica: Špela Antloga , FERI UM
Prejeta sredstva: 4.000 EUR

Komet (KOrpus METafor) je korpus slovenskih publicističnih, leposlovnih in spletnih besedil v obsegu 200.000 besed, v katerem so ročno označene metaforične besede, torej besede, katerih pomen v danem kontekstu odstopa od njihovega osnovnega pomena. Za označevanje metaforičnih besed je bil uporabljen postopek za identifikacijo metafor MIPVU (Metaphor Identification Procedure Vrije Universiteit) v angleščini, ki je bil nadgrajen in prilagojen specifikam slovenščine. Postopek omogoča sistematično identifikacijo jezikovne metafore, tj. vseh jezikovnih elementov, povezanih s pomenskimi prenosi na osnovi medpodročnih preslikav. Identificirani so bili vsi jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore. Označeni izrazi so dobili eno od štirih oznak: MRWd (direktna metafora), MRWi (implicitna metafora), WIDLI (mejni primer) ali MFlag (metaforični signalizator). Metaforičnim besedam so bili pripisani pomenski okvirji, kar označene izraze uvršča v določeno pomensko področje, ki predstavlja izhodišče pomenskega prenosa. Pomenski okvir omogoča, da lahko znotraj določene pomenske kategorije (npr. čas, prostorska orientacija, premikanje, čustvovanje itd.) poiščemo metaforične izraze, ki so lahko uresničitev določene konceptualne strukture. Korpus metafor omogoča objektivno in sistematično analizo metaforičnih izrazov in metafor v različnih slovenskih besedilih.

Korpus je dostopen pod licenco CC BY-NC-SA 4.0 na:

Antloga, Špela, 2020, Metaphor corpus KOMET 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1293.

Postavitev novih pravopisnih pravil na portal Fran

Prijavitelj: ZRC SAZU
Prejeta sredstva: 6.000 EUR

V projektu je bila na portalu Fran začeta javna predstavitev predloga novih pravopisnih pravil in ustreznih slovarskih sestavkov, ki gradivsko dopolnjujejo pravila. Osnutka prvih dveh poglavij pravopisnih pravil uporabnikom omogočata sodelovanje v javni razpravi o ustreznosti predlaganih rešitev ter pri njihovem vsebinskem oblikovanju.

V ta namen je bilo posamezno poglavje novih pravopisnih pravil pretvorjeno iz tekstovnega formata .docx v TEI, pripravljen pa je bil tudi pretvornik. S tem so pravopisna pravila pripravljena za elektronsko okolje v skladu z mednarodnimi priporočili, s čimer je olajšan njihov nadaljnji razvoj in vzdrževanje ter povezljivost in prilagojenost različnim uporabam. Pravila so v zapisu TEI povezana z gesli pravopisnega slovarja (ePravopis).

Sočasno s prenovo posameznih poglavij pravopisnih pravil na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU nastaja sprotni pravopisni slovar – ePravopis. S povezavo ePravopisa s pravili je narejen korenit korak, s katerim se v spletnem mediju presega raznolikost in hkrati dopolnjuje iste informacije v slovarskem zapisu in v pravilih. Uporabnikom je s povezavo tako ponujen vpogled, ki ga pravila doslej niso omogočala.

Prvi dve poglavji pravopisnih pravil sta dostopni na portalu Fran, v formatu TEI pa bosta pod licenco CC BY-NC 4.0 dostopni v repozitoriju CLARIN.SI, ko bodo na voljo tudi vsa ostala pravopisna poglavja.

Poročila o projektih CLARIN.SI 2018

CLARIN.SI je v letu 2018 prvič objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih sedem, ki so opisani v nadaljevanju.

Nadgradnja digitalne knjižnice eZISS – Elektronske znanstvenokritične izdaje slovenskega slovstva

Prijavitelja: Andrej Pančur, INZ, Matija Ogrin, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Projekt je dopolnil dve zelo kompleksni in obsežni izdaji, ki vključujeta raznolike komponente in realizirata razne tekstnokritične koncepte analize ter prikaza besedil. Poleg tega je razvil znatno izboljšan prikaz elektronske izdaje, njenega notranjega sestava (prepisov, digitalnega faksimila, opomb, kritičnega aparata ter spremnega znanstvenega komentarja) in povezav med komponentami. Prilagojene so bile obstoječe transformacije XSLT iz repozitorija GitHub, ki so bile z namenom dinamičnega prikaza vzporednih mest nadgrajene s transformacijo XSLT 3.0 za SAXON-JS. Transformacije XSLT so dostopne v mapi »Profiles« na povezavah https://github.com/DARIAH-SI/Foglar-pub in https://github.com/DARIAH-SI/Kapelski-pub.

Delo je vsebovalo tudi uredniško delo na obeh izdajah:

Kapelski pasijon: Izpopolnjeno je bilo označevanje v zapisu TEI, znanstveni komentar je bil deloma na novo organiziran, vsi prepisi pa so bili povezani s pripadajočimi datotekami digitalnih faksimilov in medsebojnimi sklici.
Foglarjev rokopis: Izdelana je bila celotna digitalna izdaja z diplomatičnim in kritičnim prepisom rokopisnega gradiva, vključno z aparatom variantnih mest v več rokopisnih verzijah obravnavanih pesmi. To izdajo je pripravila Nina Ditmajer. Oba prepisa sta povezana z digitalnim faksimilom, njuno označevanje v zapisu TEI pa je bilo prilagojeno za raznolike možnosti prikaza in povezav.

Pomemben motiv in vidik nadgradnje je uporabnost izdelanega postopka za nadaljnje elektronske edicije knjižnice eZISS v okviru infrastrukture DARIAH-SI. Ta naj bi namreč v prihodnosti vzpostavila digitalno knjižnico, osnovano na zapisu TEI, v kateri bi bilo mogoče predstaviti kompleksne digitalne izdaje, kot sta Kapelski pasijon in Foglarjev rokopis, povezana pa naj bi bila tudi s storitvami za analizo korpusov v infrastrukturi CLARIN.SI.

Kapelski pasijon je dostopen na:

Foglarjev rokopis je dostopen na:

https://sidih.github.io/foglar/

Korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990–2018

Prijavitelj: Andrej Pančur, INZ
Prejeta sredstva: 3.000 EUR

V projektu je bil oblikovan korpus siParl, ki vsebuje vse parlamentarne razprave Državnega zbora Republike Slovenije od 1990 do 2018 (do zaključenega 7. mandata) in razprave v delovnih telesih državnega zbora od leta 1996, kar je skupno skoraj 230 milijonov pojavnic. Parlamentarne razprave iz obdobja 1990–1992 smo prenesli iz obstoječega korpusa SlovParl 2.0, vse ostale razprave pa so bile označene na novo. Označevanje je potekalo v modulu TEI za dramska besedila, ki je bil nato pretvorjen v modul TEI za transkribiranje govorov. Korpus vsebuje podatke o vseh govorih in govornikih, neverbalno vsebino zapisnikov sej in ustrezne metapodatke. Vsebina govorov je bila tudi jezikoslovno označena, in sicer tokenizirana, oblikoskladenjsko označena in lematizirana.

Korpus siParl je na voljo prek konkordančnikov, za prevzem pa pod licenco CC BY na:

Pančur, Andrej; Erjavec, Tomaž; Ojsteršek, Mihael; Šorn, Mojca and Blaj Hribar, Neja, 2019, Slovenian parliamentary corpus siParl 1.0 (1990-2018), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1236.

Naglaševanje leksikona Sloleks

Prijaviteljica: Špela Arhar Holdt, CJVT UL
Prejeta sredstva: 5.000 EUR

V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ročno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoječi vmesnik leksikona, ki zdaj omogoča množičenje naglasnih podatkov. Projekt se je osredotočil na leme z nepremičnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoječih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogoče potrditi s predvideno 75-odstotno natančnostjo. Ročno je bilo pregledanih 24 % leksikona, od tega večina z množičenjem. Z avtomatskimi in ročnimi spremembami je bil v projektu popravljen 21,7-odstotni delež avtomatsko naglašene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri občnoimenskem pa primeri s premičnim naglasnim tipom in naglasno variantnostjo.

V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabniškega vmesnika: (a) aplicirana je bila grafična podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogočajo jezikovni skupnosti sodelovanje pri nadaljnjem čiščenju oz. dopolnjevanju naglasnih podatkov (pozitivno/negativno ocenjevanje avtomatsko pripisanih naglasov in fonetičnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki še potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je možnost, da uporabniki sami snemajo posnetke izgovora.

Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:

Dobrovoljc, Kaja; et al., 2019, Morphological lexicon Sloleks 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1230.

Izdelava seznamov besed in n-gramov za različne ravni šolanja in različne predmete

Prijavitelj: Iztok Kosem, FF UL
Prejeta sredstva: 4.000 EUR

V projektu je bil formiran korpus učbenikov za osnovne in srednje šole, iz njega pa so bili izluščeni seznami besed, n-gramov in ključnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno označeno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 učbenikov za 16 predmetov. V drugem koraku je bilo izvedeno luščenje, pri čemer je bilo upoštevanih več kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ročno. Končni rezultat so sledeči seznami:

Seznam splošnih besed, ki se pojavljajo v vsaj 8 od 16 šolskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in številu predmetov.
Seznam splošnih besed po nivoju šolanja (razred/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni šolanja) in številu predmetov (od skupno 16).
Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in številu predmetov (od skupno 16), v katerih se pojavlja n-gram.

Seznami so dostopni pod licenco CC BY na:

Kosem, Iztok; Pori, Eva and Arhar Holdt, Špela, 2019, Keywords and n-grams from a textbook corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1215.

Orodje za učinkovito analizo slovenskih korpusov

Prijavitelja: Marko Robnik Šikonja, Špela Arhar Holdt, UL FRI
Prejeta sredstva: 4.000 EUR

V projektu je bil razvit pregleden in razumljiv uporabniški vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogoča prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za več formatov zapisa in preizkušeno na večjih slovenskih in tujih korpusih.

Izpisom so bili dodani metapodatki, ki omogočajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prikažejo ob preletu z miško. Dodana je bila možnost izračuna in izpisa različnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izluščene besedne nize. Poleg tega je bil dodan izračun ocene obdelovalnega časa. Pri nastavitvah, ki lahko močno vplivajo na obdelovalni čas, so bila dodana opozorila. Dodana je bila tudi možnost preklapljanja med slovensko in angleško različico poimenovanj in možnost obdelave nelatiničnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novejših korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.

Program LIST je dostopen pod odprto licenco Apache2 na:

Krsnik, Luka; et al., 2019, Corpus extraction tool LIST 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1227.

Gos Videolectures II

Prijavitelja: Darinka Verdonik, Andrej Žgank, UM FERI
Prejeta sredstva: 6.000 EUR

V projektu je bilo obstoječe gradivo baze Gos Videolectures razširjeno z ročno izdelanimi transkripcijami v obsegu 8 ur, ki vsebujejo pogovorni in standardizirani zapis z ročno segmentacijo na izjave in z oznakami opaznejših akustičnih dogodkov. V gradivo so vključeni izbrani novejši posnetki s portala Videolectures.net, ki so uravnoteženi glede na vsebinsko področje ter glede na osnovne lastnosti govorcev (spol, starost). Transkripcije baze Gos Videolectures so bile poleg tega avtomatsko poravnane z govornim signalom na nivoju besed in na skrčenem seznamu osnovnih fonemov za slovenščino. Za izvedbo obeh vrst avtomatske segmentacije je bila uporabljena prilagojena različica avtomatskega razpoznavalnika tekočega slovenskega govora UMB Broadcast News, ki je bil razvit na UM FERI.

Kot pri prejšnjih različicah baze Gos Videolectures je bila tudi ta sedaj pretvorjena iz izvornega zapisa Transcriber XML in dodanih metapodatkovnih datotek v zapis TEI (modul za govorjene korpuse), ki vključuje seznam govorcev z metapodatki, metapodatke o govorih (predavanjih), poravnavo izjav in stavkov z govornim signalom, kodiranje opaznejših akustičnih dogodkov in združene besede pogovornega in standardiziranega zapisa. Standardizirane besede so bile dodatno avtomatsko oblikoskladenjsko označene in lematizirane. Konverzija je tudi služila za validacijo izvornih datotek, s katero smo odkrili večje število napak in jih tudi popravili. Iz dokumenta TEI je bila generirana vertikalna datoteka, primerna za uvoz v konkordančnike infrastrukture CLARIN.SI. Pri tem so bili posnetki razdeljeni na posamezne izjave in stavke ter pretvorjeni v format MP3, kazalci na te posnetke pa dodani v vertikalno datoteko, kar omogoča poslušanje posnetkov tudi prek konkordančnikov.

Korpus projekta je dostopen prek konkordančnikov CLARIN.SI in za prevzem na:

VideoLectures.NET, 2019, Spoken corpus Gos VideoLectures 4.0 (audio), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1222.
Verdonik, Darinka; et al., 2019, Spoken corpus Gos VideoLectures 4.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1223.

Multimedijska digitalna narečna podatkovna baza slovarja oblačilnega izrazja ziljskega govora Kanalske doline (Val Canale – Kanaltal – Valcjanâl)

Prijaviteljica: Karmen Kenda-Jež, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Multimedijska digitalna narečna podatkovna zbirka za Slovar oblačilnega izrazja ziljskega govora v Kanalski dolini, ki je objavljen na portalu FRAN, je nastala iz gradivske zbirke, na podlagi katere sta bili prej že narejeni dve knjižni izdaji slovarja. Prenos v digitalno okolje ni pomenil samo oblikovne prilagoditve novemu mediju (npr. način prikaza slovarskih podatkov, odpravo kratic ali poenotenje slovničnih oznak), ampak tudi vrsto mikrostrukturnih sprememb, ki sta jih povzročili vsebinska osamosvojitev spletnega slovarskega gesla in vzpostavitev neposredne povezave z zbirko zvočnih izsečkov. Končna podoba spletnega slovarja je zato precej oddaljena od svoje knjižne predloge.

Slovar, ki obsega 594 iztočnic, je bil iz formata programa Word pretvorjen v slovarsko podatkovno zbirko v formatu XML, pri tem pa so bile vzpostavljene znotraj- in zunajslovarske povezave. Prvotna zbirka zvočnih izsečkov je bila pregledana, izločeni so bili izsečki slabše kakovosti (npr. tisti s pretežno prekrivnim govorom). Če je bilo mogoče, je bilo dopolnilno zvočno gradivo pridobljeno s ponovno analizo zvočnih posnetkov. Zvočni izsečki so bili povezani z iztočnicami in s slovarskimi zgledi.

Podatkovna zbirka je bila nato dopolnjena z izbranimi fotografijami iz arhiva etnografskih raziskav oblačilne kulture, posamezna gesla pa so bila povezana še z etnografsko spletno zbirko projekta Glasovi Kanalske doline: Zborzbirk (Kulturna dediščina v zbirkah med Alpami in Krasom). S portala Fran je mogoče dostopati tudi do dosedanjih razprav o ziljskem govoru Kanalske doline (Ovčja vas in njena slovenska govorica, 2005; Lipalja vas in njena slovenska govorica, 2016), za katere je bil v okviru tega projekta zagotovljen prosti dostop.

Podatkovna zbirka je dostopna na:

Kenda-Jež, Karmen; Perdih, Andrej and Race, Duša, 2019, The Dictionary of the Clothing Terminology of the Zilja Local Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1217.
Gliha Komac, Nataša; Kandutsch, Elisa; Bartaloth, Rudi and Smole, Matevž, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): photographs, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1221.
Kenda-Jež, Karmen, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): audio, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1220.

Projekti, v katerih sodeluje CLARIN.SI

CLARIN ParlaMint

CLARIN.SI (Institut “Jožef Stefan” in Inštitut za novejšo zgodovino) sta sodelovala v projektu “ParlaMint: Towards Comparable Parliamentary Corpora“, ki ga je 2020-2021 (faza I) in 2022-2023 (faza II) financiral CLARIN ERIC. V prvi fazi projekta smo izdelali primerljive korpuse parlamentarnih razprav 17 evropskih držav (tudi Slovenije) v letih 2015-2020, v drugi fazi pa nabor korpusov razširili na 29 parlamentov in 2015-2022, poleg tega pa korpuse tudi obogatili npr. s korpusi strojno prevedenimi v angleščino. Vzorci izdelanih korpusov so dostopni na GitHub, celotni korpusi faze II pa na repozitoriju CLARIN.SI, in sicer v treh različicah:

Erjavec, Tomaž et al., 2023, Multilingual comparable corpora of parliamentary debates ParlaMint 4.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1859.
Erjavec, Tomaž et al., 2023, Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 4.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1860.
Kuzman, Taja et al., 2023, Linguistically annotated multilingual comparable corpora of parliamentary debates in English ParlaMint-en.ana 4.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1864.

Ozadje, izdelava in opis korpusov faze I so predstavljeni v:

Erjavec, T., Ogrodniczuk, M., Osenova, P. et al. The ParlaMint corpora of parliamentary proceedings. Language Resources & Evaluation (2022). https://doi.org/10.1007/s10579-021-09574-0.

Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator (SLOKIT)

CLARIN.SI (Inštitut Jožef Stefan) je sodeloval v projektu Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator, ki ga je v letih 2022-2023 financiralo Ministrstvo za kulturo. Projektni partner je bilo Društvo študentov invalidov Slovenije, infrastrukturno podporo pa je omogočil Center za jezikovne vire in tehnologije Univerze v Ljubljani.

V okviru projekta so bile izvedene naslednje aktivnosti:

Orodje Korpusnik za povzemalni prikaz različnih korpusnih podatkov
Segmentacija besedil na posamezne članke časopisnih hiš Delo in Dnevnik v korpusu Gigafida, ter označevanje segmentiranih člankov s tematskimi kategorijami. Rezultati bodo implementirani v naslednjo verzijo korpusa Gigafida, in sicer 2.2.
Nadgradnja podatkov v referenčnem korpusu govorjene slovenščine Gos, predvsem na ravni označenosti in poravnave transkripcij in zvočnega zapisa. Nova verzija korpusa Gos 2.1 je na voljo v repozitoriju CLARIN.SI.
Orodje SENTA za poenostavljanje in analizo besedil.

Posebna pozornost pri izdelavi orodij Korpusnik in SENTA je bila posvečena dostopnosti za uporabnike s posebnimi potrebami.

Razvoj slovenščine v digitalnem okolju (RSDO)

CLARIN.SI sodeluje v projektu “Razvoj slovenščine v digitalnem okolju“, ki ga 2020-2022 podpira Ministrstvo za kulturo RS. Cilj projekta je zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in širšo javnost.

V projektu infrastruktura CLARIN.SI vodi in izvaja Delovni sklop 6 “Vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije“, v okviru katerega skrbi za javno dostopnost jezikovnih virov, ki nastajajo v okviru projekta. Pri zapisu virov so upoštevani mednarodni standardi in dobre prakse, viri pa bodo varno in dolgotrajno arhivirani v repozitoriju CLARIN.SI, izdelani korpusi pa bodo na voljo prek spletnih konkordančnikov CLARIN.SI.

Razvoj RI-SI-CLARIN

Projekt, s polnim imenom “Razvoj raziskovalne infrastrukture za mednarodno konkurenčnost slovenskega RRI prostora RI-SI-CLARIN” se je izvajal v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014 -2020, in sicer v letih 2019-2021. Namen projekta je bil omogočiti nabavo raziskovalne opreme raziskovalni infrastrukturi, kar je nilo financirano v višini 477.932,82 EUR z DDV.

V okviru projekta so se izvršili naslednji nakupi raziskovalne opreme:

Institut “Jožef Stefan”: 2 gruči visokozmogljivih računalnikov s pripadajočo opremo za namene hitrejših in proti okvaram odpornih spletnih storitev CLARIN.SI, predvsem repozitorijske platforme, spletnih konkordančnikov in storitev za avtomatsko jezikoslovno označevanje besedil;
Univerza v Ljubljani: visokozmogljivi strežnik za hranjenje in dostop do jezikovnih virov, katerih skrbnik je infrastrukturni Center za jezikovne vire in tehnologije Univerze v Ljubljani;
Univerza v Mariboru: gruča GPU strežnikov v 2019 in njena obnova v 2021, namenjena raziskavam, ki uporabljajo globoko učenje; visokozmogljivi strežniki za obdelavo velikih jezikovnih podatkov; ter delo tehnika.

Na voljo je končno poročilo projekta.

Slovensko vozlišče RDA

CLARIN.SI je 2020-2021 sodeloval v vzpostavljanju nacionalnega vozlišča “RDA Node Slovenia“, ki bo služilo kot dolgotrajna centralna kontaktna točka med Research Data Alliance in podatkovnimi raziskovalci, raziskovanimi agencijami, in ostalimi deležniki v Sloveniji. Vozlišče koordinira Arhiv družboslovnih podatkov (ADP ), poleg CLARIN.SI pa v njem sodelujejo tudi raziskovalna infrastruktura za humanistiko DARIAH-SI in Univerza v Ljubljani.

V okviru delovne skupine vozlišča za koordinacijo infrastrukturnih podatkovnih storitev je CLARIN.SI izdelal:

Meden, K., in Erjavec, T. (2021). Pregled Slovenskih repozitorijev raziskovalnih podatkov. CLARIN.SI. [PDF] [DOCX]