{"id":4001,"date":"2019-06-22T13:06:08","date_gmt":"2019-06-22T13:06:08","guid":{"rendered":"http:\/\/www.clarin.si\/info\/?page_id=4001"},"modified":"2026-03-09T17:49:49","modified_gmt":"2026-03-09T17:49:49","slug":"projekti","status":"publish","type":"page","link":"https:\/\/www.clarin.si\/info\/storitve\/projekti\/","title":{"rendered":"Projekti CLARIN.SI"},"content":{"rendered":"\n<h2>Projekti, ki jih podpira CLARIN.SI<\/h2>\n<p>Od leta 2018 dalje CLARIN.SI vsako leto objavi razpis za projekte izdelave ali nadgradnje virov ali storitev, ki pripomorejo k uresni\u010devanju usmeritev infrastrukture CLARIN(.SI), da bodisi obogatijo ponudbo CLARIN ali pa uporabijo infrastrukturo. CLARIN.SI nameni za izvedbo projektov 30.000 EUR letno.<\/p>\n<p>Projekti morajo zadostiti pogojem vsakoletnega razpisa, njihovo primernost in, v primeru, da je prijavljenih ve\u010d projektov, kot pa je sredstev za izvedbo, kateri projekti bodo sprejeti v financiranje, dolo\u010di komisija, ki jo sestavljajo \u010dlani konzorcija CLARIN.SI.<\/p>\n<h3><strong>Projektni razpis za CLARIN.SI 2026<\/strong><\/h3>\n<p>Razips za projekte v 2026 najdete <a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2026\/03\/Projektni-razpis-CLARIN.SI-2026.pdf\">tule<\/a>.<\/p>\n<p>Pomembni datumi:<\/p>\n<ul>\n<li>rok za oddajo prijav: <strong>24. 3. 2026<\/strong><\/li>\n<li>obvestilo o izboru: <strong>3. 4. 2026<\/strong><\/li>\n<\/ul>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2025<\/strong><\/h3>\n<h4><strong>Mno\u017eica sopomenskih parov in distraktorjev SYNDIST<\/strong><\/h4>\n<p>Prijavitelja: Iztok Kosem,\u00a0 \u0160pela Arhar Holdt (FRI UL)<br \/>\nPrejeta sredstva: 2.500 \u20ac<\/p>\n<p>V okviru projekta smo na podlagi sopomenskih podatkov iz Slovarja sopomenk sodobne sloven\u0161\u010dine izdelali troj\u010dke izto\u010dnica-sopomenka-distraktor. V prvem koraku smo izbrali pare izto\u010dnica \u2013 sopomenka za okvirno 5000 izto\u010dnic z najve\u010d sopomenkami, s \u010dimer smo dobili 51.023 parov. Nato smo izdelali distraktorje z velikim jezikovnim modelom Gemini-2.0-flash. Preizkusili smo tudi ChatGPT-4o, a smo se zaradi slab\u0161ih rezultatov pri testiranju odlo\u010dili za Gemini.<\/p>\n<p>Po generiranju distraktorjev smo podatke zdru\u017eili in izvozili v Excelovo tabelo, na podlagi katere smo opravili ve\u010dplastno analizo distraktorjev. Avtomatsko smo jim pripisali podatek o frekvenci v korpusu Gigafida 2.0, hkrati smo tudi po Gestalt metodi izra\u010dunali oblikovno podobnost distraktorjev z izto\u010dnico in sopomenko. To je bilo sicer bolj koristno za na\u0161e namene priprave podatkov za jezikovno igro, vendar pa smo podatek vseeno pustili v bazi, ki smo jo nalo\u017eili na repozitorij CLARIN. Obenem smo tudi avtomatsko ozna\u010dili (sicer ne pogoste) primere, v katerih je bil distraktor enak sopomenki.<\/p>\n<p>Avtomatski pripravi je sledila ro\u010dna analiza distraktorjev. Dva leksikografa sta pregledala in ozna\u010dila vse distraktorje z odlo\u010ditvami DOBER, SLAB, PROBLEMATI\u010cEN (ko se nista mogla odlo\u010diti). Po tem prvem pregledu je eden od njiju \u0161e enkrat pregledal del oznak drugega \u2013 na ta na\u010din lahko re\u010demo, da sta skupaj pogledala pribli\u017eno 30-35 % distraktorjev. Pri drugem pregledu so se pri slabih in problemati\u010dnih ozna\u010devali tudi primeri, ko je \u0161lo za potencialne nove sopomenke dane izto\u010dnice; sicer nepri\u010dakovan rezultat glede na navodila v promptu.<\/p>\n<p>Kot ka\u017eejo kon\u010dni podatki, je bilo 40.866 distraktorjev (ve\u010d kot 80 %) dobrih, 7.595 slabih, 99 je bilo problemati\u010dnih, 2.438 je bilo potencialnih legitimnih sopomenk, 25 pa je bilo enakih sopomenkam.<\/p>\n<p>Pregledovanje je vzelo precej \u010dasa, prav tako smo potrebovali tehni\u010dno podporo pri procesiranju podatkov in pripravi podatkov za analizo. CLARIN je kril stro\u0161ke enega leksikografa in pripravo baze za repozitorij, ostali del je pokril projekt LLM4DH in pa infrastrukturna mre\u017ea MRIC (CJVT).<\/p>\n<p>Rezultati projekta so bili predstavljeni na razli\u010dnih nacionalnih in dr\u017eavnih dogodkih, npr. na konferenci AFRILEX 2025 in konferenci eLex. Del podatkov bo uporabljenih tudi pri pripravi jezikovne igre, ki bo del Portala jezikovnih iger CJVT.<\/p>\n<p>Seznam je objavljen v repozitoriju CLARIN.SI pod licenco CC BY 4.0 (<a href=\"http:\/\/hdl.handle.net\/11356\/2056\">http:\/\/hdl.handle.net\/11356\/2056<\/a>).<\/p>\n<h4><strong>Ontologija tematskih polj ONTEM za sloven\u0161\u010dino kot drugi in tuji jezik <\/strong><\/h4>\n<p>Prijaviteljica: Eva Pori (Center za sloven\u0161\u010dino kot drugi in tuji jezik, FF UL)<br \/>\nDrugi sodelavci projekta: Mihaela Knez, Matej Klemen, Tanja Jerman (Center za sloven\u0161\u010dino kot drugi in tuji jezik, FF UL)<br \/>\nPrejeta sredstva: 5.250 EUR<\/p>\n<p>V projektu smo izdelali prvo verzijo <em>Ontologije tematskih polj za sloven\u0161\u010dino kot drugi in tuji jezik (ONTEM)<\/em>, ki jo bo mogo\u010de v prihodnosti nadgrajevati in bo uporabna za podro\u010dje sloven\u0161\u010dine kot drugega in tujega jezika (SDTJ), mdr. za pripravo u\u010dnih gradiv, pri jezikovnem testiranju in raziskavah, razvoju slovarskih virov,\u00a0 povezovanju slovarskih podatkov ipd. Mogo\u010de jo bo integrirati v Digitalno slovarsko bazo za sloven\u0161\u010dino in v prvi <em>Slovar za govorce sloven\u0161\u010dine kot drugega in tujega jezika<\/em> \u2013 <a href=\"https:\/\/lexonomy.cjvt.si\/slovar-za-govorce-slovenscine-kot-drugega-in-tujega-jezika\/\">SLOGOST<\/a>.<\/p>\n<p>Pri izdelavi ontologije smo izhajali iz nabora 1019 besed iz korpusa u\u010dbenikov za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika <a href=\"http:\/\/hdl.handle.net\/11356\/1696\">KUUS<\/a>, razvitega v okviru projekta <a href=\"http:\/\/clarin.si\">CLARIN.SI<\/a>, in\u00a0 <a href=\"http:\/\/hdl.handle.net\/11356\/1697\">Seznama jedrnega besedi\u0161\u010da za SDTJ<\/a>, urejenega po ravneh SEJO A1, A2 in B1. Fokus je bil na besedah iz u\u010dbenikov na ravneh A1 in A2, ker pa smo \u017eeleli oblikovati robusten sistem semanti\u010dnih kategorij, ki ga bo v prihodnosti mogo\u010de nadgrajevati, smo na seznam izbranih besed vklju\u010dili tudi besedi\u0161\u010de z vi\u0161jih ravni. Strokovnjaki s podro\u010dja SDTJ so leme, ozna\u010dene z ravnjo A1, dodatno neodvisno preverili in ocenili, ali se po njihovi presoji uvr\u0161\u010dajo na pripisano raven. Za tiste leme, pri katerih so se mnenja strokovnjakov popolnoma ujemala, smo pripisano raven A1 potrdili. Sledilo je pilotno ro\u010dno ozna\u010devanje manj\u0161ega nabora besed (244 besed), nato pa \u0161ir\u0161e pripisovanje tematskih polj (za 1019 besed) na do treh hierarhi\u010dnih ravneh: (I.) metatematsko polje, (II.) tematsko polje in (III.) tematsko podpolje: npr. <em>bolan<\/em> = (I.) STANJE \u2013 (II.) TELO IN ZDRAVJE\u00a0 \u2013\u00a0 (III.) PO\u010cUTJE. Vsaki besedi je tematsko polje neodvisno pripisalo ve\u010d ozna\u010devalcev (u\u010diteljev, stokovnjakov s podro\u010dja SDTJ). Na podlagi (ne)ujemanja pripisanih oznak je sledil izris tematskih polj, popis vsakega od tematskih polj s primeri in izdelava kon\u010dne verzije ontologije.<\/p>\n<p>ONTEM vsebuje skupno 64 hierarhi\u010dno urejenih tematskih polj z natan\u010dnej\u0161imi opisi, nato pa 1019 lem, opremljenih z besednovrstno oznako, oznako ravni po SEJO, informacijo, ali je bila prvotno pripisana oznaka potrjena, ter umestitvijo v metatematsko polje, tematsko polje in tematsko podpolje. Na voljo je v repozitoriju CLARIN.SI pod licenco CC BY-NC-SA 4.0 (<a href=\"http:\/\/hdl.handle.net\/11356\/2069\">http:\/\/hdl.handle.net\/11356\/2069<\/a>).<\/p>\n<h4><strong>Pove\u010danje korpusa sloven\u0161\u010dine kot tujega jezika KOST <\/strong><\/h4>\n<p>Prijaviteljica: Mojca Stritar Ku\u010duk (FF UL)<br \/>\nIzvajalke: \u0161tudentke slovenistike na FF UL<br \/>\nPrejeta sredstva: 1.460 EUR<\/p>\n<p>V okviru projekta smo za korpus sloven\u0161\u010dine kot tujega jezika KOST 2.0 pridobili 788 novih besedil in ga s tem pove\u010dali na 9134 besedil oziroma 1,37 milijona besed. Dve tretjini novih besedil sta bili napisani na roko, zato so jih morale tri \u0161tudentke slovenistike pretipkati.<\/p>\n<p>Ve\u010dina novih besedil je bila pridobljena v okviru programa Leto plus, ki je \u017ee do sedaj predstavljal osrednji vir za pridobivanje besedil za KOST. Pri tem smo se omejili na besedila, ki jih \u0161tudenti pi\u0161ejo na roko na izpitu ob koncu semestra in torej nastajajo v kontroliranih pogojih pisanja. Ostala besedila smo pridobili v razli\u010dnih programih Centra za sloven\u0161\u010dino kot drugi in tuji jezik FF UL: Te\u010daji sloven\u0161\u010dine, Seminar slovenskega jezika, literature in kulture, Mladinska poletna \u0161ola slovenskega jezika in Izpitni center.<\/p>\n<p>Eden glavnih kriterij izbora besedil za KOST je prvi jezik njihovih tvorcev. Do sedaj so v KOST-u prevladovali ju\u017enoslovanski jeziki in tudi s pridobitvijo novih besedil se to ni spremenilo, se je pa vseeno pomembno pove\u010dal dele\u017e nekaterih prvih jezikov, kar bo omogo\u010dalo nove raziskave. Pridobili smo besedila govorcev srb\u0161\u010dine (227 besedil), makedon\u0161\u010dine (125), ru\u0161\u010dine (120), bosan\u0161\u010dine (71), hrva\u0161\u010dine (69), ukrajin\u0161\u010dine (66), angle\u0161\u010dina (51), malga\u0161\u010dine (50), nem\u0161\u010dine (31), italijan\u0161\u010dine (28), \u010drnogor\u0161\u010dine (27), gr\u0161\u010dine (18), polj\u0161\u010dine (16), franco\u0161\u010dine (15), sloven\u0161\u010dine (14, gre za govorce iz zamejstva), nizozem\u0161\u010dine (13), japon\u0161\u010dine (11), \u0161pan\u0161\u010dine (10), \u010de\u0161\u010dine (10), slova\u0161\u010dine (6), rusin\u0161\u010dine (5), mad\u017ear\u0161\u010dine (3), kitaj\u0161\u010dine (3), jezika kinyawanda (3) in arab\u0161\u010dine (1).<\/p>\n<p>Dela korpusa z ro\u010dno ozna\u010denimi jezikovnimi napakami zaenkrat nismo pove\u010devali.<\/p>\n<p>KOST 2.1 je dostopen na repozitoriju\u00a0CLARIN.SI pod licenco CC BY-SA 4.0 (<a href=\"http:\/\/hdl.handle.net\/11356\/2066\">http:\/\/hdl.handle.net\/11356\/2066<\/a>).<\/p>\n<h4 class=\"Standard\" style=\"line-height: 150%;\"><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Nadgradnja slovensko-japonskega slovarja sloJa<\/span><\/h4>\n<p class=\"Standard\"><b><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">\u00a0<\/span><\/b><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Prijaviteljica: <\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Kristina Hmeljak Sangawa (FF UL)<br \/>\n<\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Izvajalci: Katarina Hitomi Gerl, Miha Kralj, Alja Ivona Pipu\u0161, Ana Razinger, Nina Sangawa Hmeljak (\u0161tudenti FF UL)<br \/>\n<\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Prejeta sredstva: 2.500 \u20ac<\/span><\/p>\n<p class=\"Standard\" style=\"line-height: 150%;\"><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">V okviru projekta smo nadgradili slovensko-japonski spletni slovar sloJa 1.0: dodali smo gesla iz <\/span><span lang=\"SL\"><a href=\"http:\/\/hdl.handle.net\/11356\/1697\"><span style=\"font-family: 'Times New Roman',serif;\">Jedrnega besedi\u0161\u010da sloven\u0161\u010dine kot drugega ali tujega jezika na stopnjah CEFR od A1 do B1<\/span><\/a><\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">, ki v prvi verziji slovarja niso bila zajeta, ker se niso pojavljala v japonsko-slovenskem slovarju, ter dopolnili \u017ee izdelana gesla z dodatnimi prevodnimi ustreznicami in primeri. Pri dopolnjevanju gesel smo podatke \u010drpali tudi iz <\/span><span lang=\"SL\"><a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=jaslo_jp\"><span style=\"font-family: 'Times New Roman',serif;\">japonsko-slovenskega vzporednega korpusa JaSlo<\/span><\/a><\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">. <\/span><\/p>\n<p class=\"Standard\" style=\"line-height: 150%;\"><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Glede na verzijo 1.0 smo v verziji 1.1 pove\u010dali \u0161tevilo gesel z 8.464 na 10.031, \u0161tevilo pomenov s 15.583 na 17.561, \u0161tevilo prevodnih ustreznic s 17.595 na 20.113 in primerov s 1.692 na 2.048.<\/span><\/p>\n<p class=\"Standard\" style=\"line-height: 150%;\"><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">Slovar je za brskanje dostopen na platformi Lexonomy (<\/span><span lang=\"SL\"><a href=\"https:\/\/www.lexonomy.eu\/#\/sloja\"><span style=\"font-family: 'Times New Roman',serif;\">https:\/\/www.lexonomy.eu\/#\/sloja<\/span><\/a><\/span><span lang=\"SL\" style=\"font-family: 'Times New Roman',serif;\">), za prevzem pa v repozitoriju CLARIN.SI pod licenco CC-BY 4.0 (<a href=\"http:\/\/hdl.handle.net\/11356\/2071\">http:\/\/hdl.handle.net\/11356\/2071<\/a>).<\/span><\/p>\n<h4>Korpus konverzacijskega humorja Krohot<\/h4>\n<p>Prijaviteljica: Mira Krajnc Ivi\u010d (FF UM)<br \/>\nIzvajalci: Larisa Mihailovi\u0107 (\u0161tudentka \u0161tudijskega programa Slovenski jezik in knji\u017eevnost, FF UM), Dominik Ivi\u010d (\u0161tudent \u0161tudijskega programa Filozofija in japonologija, FF UL), Anemari Pu\u0161nik s. p., druge \u0161tudentke \u0161tudijske programa Slovenski jezik in knji\u017eevnost (FF UM) in Darinka Verdonik (FERI UM)<br \/>\nPrejeta sredstva: 5.000 \u20ac<\/p>\n<p>Projekt je potekal v ve\u010d manj\u0161ih delovnih sklopih, npr. priprava zahtev za kakovost vsebinske in tehni\u010dne ustreznosti posnetkov, snemanje posnetkov na terenu, pregled prejetih posnetkov, izbor posnetkov, transkribiranje, pregled transkripcij in vnos popravkov, priprava standardiziranega zapisa, priprava osnovne ozna\u010devalske sheme za ozna\u010devanje humornih segmentov, ro\u010dno izbiranje in ozna\u010devanje humornih segmentov, pregled ozna\u010denih humornih segmentov, vnos popravkov.<\/p>\n<p>Pri pripravi zahtevkov za kakovostno vsebinsko in tehni\u010dno ustrezne posnetke smo sledili <em><a href=\"https:\/\/dk.um.si\/IzpisGradiva.php?id=87952\">Smernicam za zbiranje podatkov za govorne vire<\/a><\/em>, ki so nastale kot projektna aktivnost projekta <a href=\"https:\/\/mezzanine.um.si\/\">MEZZANINE<\/a>. To pomeni, da smo s tehni\u010dnega vidika v korpus zajeli posnetke, shranjene v formatu WAV z vzor\u010denjem 44,1 kHz, bitno globino 16 bit in enim kanalom (mono). Zbiranje podatkov o govorcih (spol, starost govorca, izobrazba, kraj bivanja, jezik kraja v otro\u0161tvu idr.) in podatkov o na\u010dinu snemanja (kraj, \u010das, prostor, snemalna naprava idr.) je potekalo prek portala <a href=\"https:\/\/govorjena-slovenscina.um.si\/\">Govorjena sloven\u0161\u010dina<\/a>. Portal prav tako ponuja re\u0161itve za pravne vidike ravnanja z osebnimi podatki. Dodatno je bila na Filozofski fakulteti UM oddana in odobrena <a href=\"https:\/\/ff.um.si\/wp-content\/uploads\/2020\/08\/vloga-kerff-profesorji.pdf\">vloga za odobritev raziskave<\/a> z vidika ravnanja z osebnimi podatki.<\/p>\n<p>Govorni vir \u017eanrsko zajema ve\u010dinoma spontane pripovedi o preteklih dogodkih, ki so bili \u017ee ob svojem nastajanju zabavni ali pa jih pripovedovalec v trenutku pripovedovanja tako do\u017eivlja. Snemalci so na \u017eeljo dobili \u0161e dodatne usmeritve v smislu, da naj ob spremljanju pripovedi dodajajo humorne komentarje, se po\u0161alijo na svoj ra\u010dun ali ponor\u010dujejo iz sogovorca, naj bodo ironi\u010dni ipd. Dodatne usmeritve so pripomogle k nastanku kakovostnega govornega vira. Vse to je zahtevalo dodaten \u010das in delo.<\/p>\n<p>Korpus zajema prosti govor v obsegu 10 posnetkov v skupni dol\u017eini 232 minut govora oziroma skorajda 4 ure govora. Vsebuje 35.271 besed\/pojavnic, in sicer 5536 razli\u010dnih. Korpus je glede na obstoje\u010de korpuse za druge jezike primerljivo velik.<\/p>\n<p>Gradivo je bilo ro\u010dno segmentirano in transkribirano tako, da je usklajeno z GOS (dva nivoja zapisa na na\u010din, kot sta opisana na Govorjeni sloven\u0161\u010dini, s pomo\u010djo aplikacije Transcriber (pog.trs in std.trs). Pogovorni zapisi so bili s posnetki uvo\u017eeni v orodje Partitur Editor (program EXMARaLDA; vrsta datotek exb), kjer so bili najprej polavtomatsko izdelani standardni zapisi ter nato ro\u010dno pregledani in popravljeni. Sledila je izdelava ozna\u010devalske sheme, ki je bila uvo\u017eena v to orodje. Izvirna ozna\u010devalska shema je nastala na osnovi prispevka <a href=\"https:\/\/doi.org\/10.18690\/um.ff.4.2024.10\">Krajnc, Antloga (2024)<\/a> in drugih pregledanih korpusov. Predstavlja jo pet ozna\u010db:<\/p>\n<ul>\n<li>\u2018vocabulary\u2019 (besede),<\/li>\n<li>\u2018relation\u2019 (odnos do sogovorca),<\/li>\n<li>\u2018content\u2019 (vsebina),<\/li>\n<li>\u2018attitude\u2019 (odnos do vsebine) in<\/li>\n<li>\u2018manner\u2019 (na\u010din izgovorjave).<\/li>\n<\/ul>\n<p>Te oznake je bilo mogo\u010de kombinirati. Korpus ima 48 razli\u010dnih oznak, pri \u010demer sta dve razli\u010dni oznaki npr. \u2018content + attitude\u2019 in \u2018attitude + content\u2019. 647 segmentov je ozna\u010denih kot primerov konverzacijskega humorja.<\/p>\n<p>Ozna\u010devanje humornih segmentov je potekalo <strong>ro\u010dno<\/strong>. \u0160tirim posnetkom so humorne segmente ozna\u010devali sodelujo\u010di na posnetku, preostalih \u0161est posnetkov so ozna\u010devali naklju\u010dni ozna\u010devalci. To pomeni, da so nekateri ozna\u010devalci imeli ve\u010d informacij o ozadju kot nekdo, ki govor sli\u0161i prvi\u010d. Oznake v vseh posnetkih sta vnesli, preverili vsaj dve osebi.<\/p>\n<p>Korpus je pripravljen v orodju Exakt (<a href=\"https:\/\/exmaralda.org\/en\/\">EXMARaLDA<\/a>; -s.exs; Krohot.coma), v katerem je mogo\u010de iskati po oznakah na tiru humor (RegEx \/Annotiation\/) ali po besedah (RegEx\/Transcription\/); na voljo je kot datoteke WAV s pripadajo\u010dimi transcripcijami v formatih orodij EXMARaLDA in Transcriber ter v format TXT za branje preprostega besedila pogovornega zapisa.<\/p>\n<p>Korpus je primarno namenjen jezikoslovni analizi, zdru\u017eljiv je s korpusom GOS ter primeren za nadgradnjo in nadaljnjo strojno obdelavo.<\/p>\n<p>Pregledovanje zbranega gradiva in ozna\u010denih segmentov je vzelo precej \u010dasa, prav tako smo potrebovali tehni\u010dno podporo pri procesiranju podatkov in pripravi podatkov za analizo. Tudi v tem segmentu projektnih aktivnosti smo sodelovali s FERI (projekt <a href=\"https:\/\/www.cjvt.si\/llm4dh\/\">LLM4DH<\/a>).<\/p>\n<h4><strong>Turisti\u010dni korpus TURK 3.0<\/strong><\/h4>\n<p>Prijaviteljica: Vesna Mikoli\u010d (In\u0161titut za jezikoslovne \u0161tudije, ZRS Koper)<br \/>\nDrugi sodelavci projekta: Ma\u0161a Rolih, Diana Ko\u0161ir (IJ\u0160 ZRS Koper), Jernej Vi\u010di\u010d (FAMNIT UP), Miro Romih (Amebis, d. o. o.), Toma\u017e Erjavec (IJS)<br \/>\nPrejeta sredstva: 5.135 EUR<\/p>\n<p>Projekt <em>Turisti\u010dni korpus TURK: nadgradnja 3.0<\/em> je bil izveden z namenom vsebinske nadgradnje korpusa z novej\u0161imi ve\u010djezi\u010dnimi turisti\u010dnimi besedili po letu 2019, posodobitve strukture in ozna\u010devanja korpusa po enotni taksonomiji ter nazadnje prenosa korpusa z repozitorija Univerze na Primorskem na nacionalno raziskovalno infrastrukturo CLARIN.SI, kar naj bi odprlo mo\u017enosti \u0161ir\u0161e uporabe korpusa\u00a0med potencialno ciljno publiko v gospodarstvu in izobra\u017eevanju.<\/p>\n<p>Predhodni <a href=\"https:\/\/jt.upr.si\/turisticnikorpus\/\">korpus TURK2 (2016\u20132024)<\/a> vsebuje 17 tiso\u010d dokumentov oziroma 31 milijonov besed v slovenskem, italijanskem in angle\u0161kem jeziku. V okviru projekta CLARIN.SI je bil korpus dopolnjen s 127 dokumenti oz. pribli\u017eno 100.000 novimi besedami, pridobljenimi iz aktualnih turisti\u010dnih virov, zlasti: Slovenske turisti\u010dne organizacije (STO), Visit Ljubljana in Visit Koper. Ta nova besedila odra\u017eajo sodobne trende v slovenskem turizmu po pandemiji COVID-19, z ve\u010djo usmerjenostjo v trajnostni, kulturni in izkustveni turizem.<\/p>\n<p>Ozna\u010devanje je potekalo po standardizirani taksonomiji. Ta vklju\u010duje 26 kategorij za tematska podro\u010dja turizma (npr. kulturni, kulinari\u010dni, \u0161portni, zdravstveni, urbani, festivalski, gorni\u0161ki, pode\u017eelski); jezik besedila (sloven\u0161\u010dina, italijan\u0161\u010dina, angle\u0161\u010dina, nem\u0161\u010dina, neznano); prenosnik (govorni, elektronski, pisni \u2013 objavljeno\/neobjavljeno, knji\u017eno, periodi\u010dno ipd.); zvrst besedila (umetnostna\/neumetnostna; strokovna, publicisti\u010dna, pravna, znanstvena, ogla\u0161evalska idr.); ter ali je bilo besedilo lektorirano.<\/p>\n<p>Ozna\u010devalno delo smo izvedli na In\u0161titutu za jezikoslovne \u0161tudije ZRS Koper. Po prenosu ozna\u010denega gradiva v korpus, ki ga je opravil dr. Jernej Vi\u010di\u010d, je Miro Romih, Amebis, d. o. o., jezikoslovno ozna\u010dil besedila v formatu CoNLL-U, Toma\u017e Erjavec (IJS) pa je metapodatke in podatke dodatno uredil, jih pretvoril v vertikalni format in pripravil korpus za objavo na repozitoriju CLARIN.SI.<\/p>\n<p>Korpus predstavlja osnovo za nadaljnji razvoj turisti\u010dne terminologije in za delo na rasto\u010dem <a href=\"https:\/\/turs.upr.si\/\">turisti\u010dnem slovarju TURS<\/a>.<\/p>\n<p>TURK 3.0 je dostopen na repozitoriju CLARIN.SI pod licenco CC BY (<a href=\"http:\/\/hdl.handle.net\/11356\/2075\">http:\/\/hdl.handle.net\/11356\/2075<\/a>).<\/p>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2024<\/strong><\/h3>\n<p>V 2024 je CLARIN.SI podprl \u0161est projektov:<\/p>\n<h4><b>Nadgradnja orodja STARK za analizo skladenjsko raz\u010dlenjenih korpusov<\/b><\/h4>\n<p>Prijaviteljica: Kaja Dobrovoljc (FF UL, IJS)<br \/>\nIzvajalec: Outsmartify, Luka Krsnik s.p.<br \/>\nPrejeta sredstva: 3.400 \u20ac<\/p>\n<p><a href=\"https:\/\/github.com\/clarinsi\/STARK\/\">STARK<\/a> je vsestransko orodje za analizo skladenjsko raz\u010dlenjenih besedilnih korpusov (t.i. odvisnostnih drevesnic), ki z lu\u0161\u010denjem razli\u010dnih tipov skladenjskih struktur (dreves) jezikoslovcem ponuja vpogled v nabor skladenjskih in\/ali leksikalnih vzorcev v poljubnem jeziku ter njihov statisti\u010dni opis z vidika pogostosti rabe in drugih priljubljenih korpusnojezikoslovnih metrik. V projektu smo to orodje bistveno nadgradili z novimi funkcionalnostmi, ki zagotavljajo njegovo daljnoro\u010dno uporabnost v najrazli\u010dnej\u0161ih jezikoslovnih raziskavah. S temeljito prenovo osnovne programske kode smo zagotovili, da orodje omogo\u010da hitro lu\u0161\u010denje dreves poljubne dol\u017eine ne glede na \u0161tevilo vsebovanih besed in ne glede na \u0161tevilo korenskih elementov, dodali pa smo tudi mo\u017enost ignoriranja izbranih skladenjskih pojavov (npr. lo\u010dil) in mo\u017enost uporabe posebnih znakov pri oblikovanju iskalnih poizvedb. Kon\u010dno testiranje v razli\u010dnih ra\u010dunalni\u0161kih okoljih je potrdilo, da je orodje odslej primerno tudi za analize kompleksnih struktur in ve\u010djih besedilnih korpusov, aktivno pa se \u017ee uporablja v okviru ve\u010d nacionalnih in mednarodnih projektov.<\/p>\n<p>Nova razli\u010dica programa (v3.0) s posodobljeno dokumentacijo je prostodostopno objavljena na platformi GitHub (<a href=\"https:\/\/github.com\/clarinsi\/STARK\">https:\/\/github.com\/clarinsi\/STARK<\/a>) in na repozitoriju CLARIN.SI (<a href=\"http:\/\/hdl.handle.net\/11356\/1958\">http:\/\/hdl.handle.net\/11356\/1958<\/a>), z njo pa je bila posodobljena tudi spletna storitev STARK-demo (<a href=\"https:\/\/orodja.cjvt.si\/stark\/\">https:\/\/orodja.cjvt.si\/stark\/<\/a>), ki je namenjena prikazu delovanja orodja \u0161ir\u0161i javnosti.<\/p>\n<p>Nadgradnja orodja na razli\u010dico 3.0 je bila delno sofinancirana s strani projekta <a href=\"https:\/\/spot.ff.uni-lj.si\/\">SPOT<\/a> (ARIS ARIS \u0161t. Z6-4617).<\/p>\n<h4><strong>U\u010dna mno\u017eica razlag za nalogo dolo\u010danja koreferenc<\/strong><\/h4>\n<p>Prijavitelji in sodelujo\u010di: Ale\u0161 \u017dagar (UL FRI), Marko Robnik-\u0160ikonja (UL FRI)<br \/>\nPrejeta sredstva: 4.500 \u20ac<\/p>\n<p>Winogradov izziv (Winograd Schema Challenge \u2013 WSC) je nabor podatkov, zasnovan za naloge razre\u0161evanja koreferenc, ki se osredoto\u010da na semanti\u010dno zahtevne probleme in razumevanje zdravorazumskega sklepanja. Na primer, stavek: &#8220;Pokal ne gre v rjav kov\u010dek, ker je prevelik.&#8221; zahteva razumevanje, da se &#8220;je&#8221; nana\u0161a na &#8220;pokal&#8221; na podlagi semanti\u010dnega sklepanja in znanja o velikostnem razmerju med pokalom in kov\u010dkom. Izvirni nabor podatkov smo izbolj\u0161ali, da bi bil primeren za preu\u010devanje problemov razlaganja znanja in omogo\u010danja z znanjem podprtega strojnega u\u010denja, z uvedbo naslednjih izbolj\u0161av:<\/p>\n<ul>\n<li>Ozna\u010devanje semanti\u010dno ali sintakti\u010dno re\u0161ljivih primerov: Nekateri vzorci iz izvirnega nabora podatkov so re\u0161ljivi brez globljega semanti\u010dnega procesiranja zaradi morfolo\u0161ke bogatosti slovenskega jezika. Na primer, stavek: &#8220;Riba je pojedla \u010drva. Bila je la\u010dna.&#8221; zahteva zgolj poznavanje spola in ne potrebuje globokega semanti\u010dnega procesiranja za sklepanje, da je bila la\u010dna riba in ne \u010drv. Za zagotovitev reprezentativnega nabora sintakti\u010dnih vzorcev smo ustvarili 197 novih primerov s spreminjanjem obstoje\u010dih.<\/li>\n<li>Dvonivojska ontologija znanja: Razvili smo hierarhi\u010dno shemo za kategorizacijo znanja, potrebnega za uspe\u0161no re\u0161evanje problema. Pri analizi smo identificirali 9 vi\u0161jenivojskih kategorij znanja (npr. dru\u017ebeno znanje, psiholo\u0161ko znanje itd.) in 37 ni\u017ejenivojskih, bolj podrobnih znanj (npr. fizikalni zakoni\/naravni zakoni, dru\u017ebene vloge, vzro\u010dni odnosi itd.).<\/li>\n<li>Polavtomatsko generiranje razlag: Besedilne razlage smo generirali z uporabo GPT-4, nato pa jih preverili in popravili \u010dlove\u0161ki anotatorji, da bi zagotovili natan\u010dnost in jasnost. Na primer, besedilna razlaga za stavek &#8220;Pokal ne gre v rjav kov\u010dek, ker je prevelik.&#8221; je &#8220;\u010ce je nekaj preveliko, se ne prilega v manj\u0161i prostor.&#8221;<\/li>\n<li>Prevod v angle\u0161\u010dino: Kon\u010dne razlage so bile prevedene v angle\u0161\u010dino s pomo\u010djo usposobljenega prevajalca, kar omogo\u010da \u0161ir\u0161o uporabnost (ne financira ga projekt Clarin.si).<\/li>\n<li>Generiranje trojic SPO (Subjekt-Predikat-Objekt): Trojice Subjekt-Predikat-Objekt smo izlo\u010dili z uporabo GPT-4, da bi poudarili klju\u010dne semanti\u010dne odnose znotraj posameznega primera.<\/li>\n<\/ul>\n<p>Izvirni nabor podatkov vsebuje 804 primere. Posku\u0161ali smo \u010dim bolj ohraniti izvorno razdelitev mno\u017eice na u\u010dno in testno. Vsi testni primeri iz izvirnega nabora so prisotni tudi v na\u0161em testnem naboru. Nabor podatkov obsega 601 u\u010dni primer, 200 validacijskih primerov in 200 testnih primerov.<\/p>\n<p>Nabor podatkov je javno dostopen v repozitoriju CLARIN.SI pod naslovom <em>Knowledge-Enhanced Winograd Schema Challenge KE-WSC<\/em> (<a href=\"http:\/\/hdl.handle.net\/11356\/1988\">http:\/\/hdl.handle.net\/11356\/1988<\/a>). Oznake testnega nabora so skrite, saj je nabor integriran v evalvacijski okvir SloBENCH (<a href=\"https:\/\/slobench.cjvt.si\/\">https:\/\/slobench.cjvt.si\/<\/a>).<\/p>\n<h4><strong>Objava prispevkov konferenc Jezikovne Tehnologje in Digitalna Humanistika<\/strong><\/h4>\n<p>Prijaviteljica in izvajalka: Jezikava, Tina Munda s.p.<br \/>\nPrejeta sredstva: 2.000 \u20ac<\/p>\n<p>V projektu so bili objavljeni prispevki vseh edicij dvoletne konference <a href=\"https:\/\/www.sdjt.si\/wp\/dogodki\/konference\/\">Jezikovne tehnologije in digitalna humanistika<\/a>. Cilj projekta je bil omogo\u010diti trajno hrambo prispevkov in s tem dostop do njih ter ve\u010djo vidnost raziskovalnega dela, ki ga pokrivajo teme konference. Oboje spodbuja odprto znanost, ki nadalje podpira in pospe\u0161uje visokokakovostno raziskovanje in interdisciplinarnost ter s tem razvoj in inovacije.<\/p>\n<p>Skupno 504 prispevki iz 14 edicij konference (1998\u20132024) so sedaj objavljeni na odprtem spletnem repozitoriju Zenodo, ki ga financira EU in gosti CERN. Datoteke prispevkov (PDF) skupaj z metapodatki in ponekod dodatnim gradivom (video predstavitve, prosojnice) so na voljo v Zenodovi skupnosti <em>Proceedings of the Conference Series &#8220;Language Technologies and Digital Humanities&#8221;<\/em> na povezavi <a href=\"https:\/\/zenodo.org\/communities\/jt-dh\/\">https:\/\/zenodo.org\/communities\/jt-dh\/<\/a>.<\/p>\n<p>Zanimivost: &#8216;Zenodo&#8217;, ime repozitorija, izvira iz imena &#8216;<a href=\"https:\/\/sl.wikipedia.org\/wiki\/Zenodot\">Zenodotus<\/a>&#8216;, ki je bil prvi knji\u017eni\u010dar v anti\u010dni Aleksandrijski knji\u017enici in o\u010de prvih zabele\u017eenih metapodatkov \u2013 pomemben mejnik v zgodovini knji\u017enic. (<a href=\"https:\/\/www.openaire.eu\/zenodo-guide\">vir<\/a>)<\/p>\n<h4><strong>Gradnja baze asociacij SWOW za sloven\u0161\u010dino<\/strong><\/h4>\n<p>Prijaviteljica: \u0160pela Vintar, Filozofska fakulteta, Univerza v Ljubljani<br \/>\nIzvajalci: Prevajanje, programiranje in obdelava podatkov, Mojca Brglez s.p.; Kofein dizajn d. o. o.; \u0161tudenti \u0161tudijskega programa Digitalno jezikoslovje<br \/>\nPrejeta sredstva: 5.000 \u20ac<\/p>\n<p>Proste asociacije so besede ali fraze, ki govorcem pridejo na misel ob dani izto\u010dnici ali stimulu (npr. <em>\u017eenska -&gt; punca, mama, lepa, mo\u0161ki<\/em> itd.). Asociacije dajejo vpogled v strukturo in delovanje mentalnega leksikona in nam pomagajo bolje razumeti (jezikovni) spomin in priklic, skozi zgodovino pa so se uporabljale tudi za raziskovanje razli\u010dnih odklonov od norme; tj. ustaljenih odzivov na stimule.<\/p>\n<p>V okviru projekta smo zgradili prvo bazo asociacij za sloven\u0161\u010dino SWOW-SL 1.0 (<a href=\"https:\/\/smallworldofwords.org\/sl\">https:\/\/smallworldofwords.org\/sl<\/a>), ki vsebuje odzive prek 1.100 govorcev sloven\u0161\u010dine na 1.000 slovenskih izto\u010dnic, skupno \u0161tevilo odzivov pa zna\u0161a 19.898. Projekt \u201cMali svet besed\u201d se vsebinsko in metodolo\u0161ko vklju\u010duje v krovni projekt Small World of Words (<a href=\"https:\/\/www.smallworldofwords.org\/en\">https:\/\/www.smallworldofwords.org\/en<\/a>), kjer se s pomo\u010djo spletne aplikacije zbirajo asociacije za 19 svetovnih jezikov. Udele\u017eenci eksperimenta na tej spletni strani najprej podajo osnovne demografske podatke, nato pa za vsako od 18 naklju\u010dno izbranih izto\u010dnic zapi\u0161ejo do tri asociacije.<\/p>\n<p>V prvi fazi projekta smo vzpostavili spletno okolje za sloven\u0161\u010dino, kar je vklju\u010devalo prevod in priredbo spleti\u0161\u010da, ter izbrali 1.000 izto\u010dnic na podlagi pogostosti v korpusu Gigafida 2.0. Nato smo v \u010dasu od maja do oktobra 2024 izvedli kampanjo za mno\u017ei\u010denje podatkov, pri kateri smo udele\u017eence nagovarjali prek dru\u017eabnih omre\u017eij Facebook in Instagram, vzporedno pa smo izvedli tudi fizi\u010dno kampanjo s plakati in nalepkami. Cilj je bil zbrati skupno najmanj 16 odzivov na posamezno izto\u010dnico, kar smo \u0161e pred zaklju\u010dkom projekta tudi dosegli.<\/p>\n<p>Za objavo podatkov v repozitoriju Clarin.si (<a href=\"http:\/\/hdl.handle.net\/11356\/1980\">http:\/\/hdl.handle.net\/11356\/1980<\/a>) smo zbrane odzive tehni\u010dno in jezikoslovno obdelali, tako da so odzivom pripisane leme in normalizirane oblike s popravljenimi manjkajo\u010dimi \u0161umniki in velikimi za\u010detnicami. Glede na pogostost posameznega odziva so podatki opremljeni tudi s statisti\u010dnim izra\u010dunom asociativne povezanosti.<\/p>\n<p>Spletna platforma za zbiranje asociacij ostaja aktivna, v prihodnosti pa \u017eelimo raz\u0161iriti nabor izto\u010dnic in nato ponoviti zbiralsko kampanjo.<\/p>\n<h4><strong>Implementacija podpore za raz\u0161irjeno uporabo slovenskih virov za odkrivanje koreferen\u010dnosti<\/strong><\/h4>\n<p>Prijavitelji in sodelujo\u010di: Matej Klemen (FRI UL), Slavko \u017ditnik (FRI UL)<br \/>\nPrejeta sredstva:\u00a0 2.500 EUR<\/p>\n<p>Za odkrivanje koreferen\u010dnosti obstajata dve podatkovni mno\u017eici v slovenskem jeziku: coref149 (<a href=\"http:\/\/hdl.handle.net\/11356\/1182\">http:\/\/hdl.handle.net\/11356\/1182<\/a>) in SentiCoref (<a href=\"http:\/\/hdl.handle.net\/11356\/1285\">http:\/\/hdl.handle.net\/11356\/1285<\/a>). Da bi olaj\u0161ali njuno uporabo in raz\u0161irili prepoznavnost slovenskih virov, smo v projektu razvili:<\/p>\n<ol>\n<li>Skripte za pretvorbo podatkovnih mno\u017eic iz neenotnih formatov v enoten format CorefUD CoNLL-U. Iniciativa <a href=\"https:\/\/ufal.mff.cuni.cz\/corefud\">CorefUD<\/a> stremi k poenotenju formata podatkov za odkrivanje koreferen\u010dnosti s prilagoditvijo formata CoNLL-U.<\/li>\n<li>Skripte za uporabni\u0161ko prijazno nalaganje podatkov v mednarodno priznani knji\u017enici podatkovnih mno\u017eic <a href=\"https:\/\/huggingface.co\/\">HuggingFace<\/a>.<\/li>\n<li>Skripte za poenoteno evalvacijo odkrivanja koreferen\u010dnosti v sloven\u0161\u010dini v okviru evalvacijskega ogrodja SloBENCH (<a href=\"https:\/\/slobench.cjvt.si\/\">https:\/\/slobench.cjvt.si\/<\/a>).<\/li>\n<\/ol>\n<p>Pri nalaganju podatkov skripte te pridobijo iz repozitorija CLARIN.SI. Podatke, ustvarjene s pretvornimi skriptami, smo nalo\u017eili na repozitorij CLARIN.SI. Razvite skripte smo ustrezno testirali in dokumentirali.<\/p>\n<p>Rezultati projekta:<\/p>\n<ol>\n<li>Podatkovni mno\u017eici coref149 in SentiCoref sta v formatu CorefUD na voljo v repozitoriju CLARIN.SI (<a href=\"http:\/\/hdl.handle.net\/11356\/1989\">http:\/\/hdl.handle.net\/11356\/1989<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1990\">http:\/\/hdl.handle.net\/11356\/1990<\/a>).<\/li>\n<li>Podatkovni mno\u017eici coref149 in SentiCoref sta vpeljani v okolje HuggingFace (<a href=\"https:\/\/huggingface.co\/datasets\/cjvt\/coref149\">https:\/\/huggingface.co\/datasets\/cjvt\/coref149<\/a>, <a href=\"https:\/\/huggingface.co\/datasets\/cjvt\/senticoref\">https:\/\/huggingface.co\/datasets\/cjvt\/senticoref<\/a>).<\/li>\n<li>Evalvacija odkrivanja koreferen\u010dnosti s pomo\u010djo mno\u017eic coref149 in SentiCoref je vpeljana v ogrodje SloBENCH (<a href=\"https:\/\/github.com\/clarinsi\/slobench-eval-docker\/pull\/3\">https:\/\/github.com\/clarinsi\/slobench-eval-docker\/pull\/3<\/a>).<\/li>\n<li>Vsa koda je arhivirana in dokumentirana na javnem repozitoriju Github (<a href=\"https:\/\/github.com\/clarinsi\/CLARINprojekt2024-koreferencnost\">https:\/\/github.com\/clarinsi\/CLARINprojekt2024-koreferencnost<\/a>).<\/li>\n<\/ol>\n<h4><strong>Model prepisa slovenskih rokopisov 18. in 19. stoletja<\/strong><\/h4>\n<p>Prijavitelj: Matija Ogrin (ZRC SAZU)<br \/>\nSodelavca: Marko Kunavar, Barbara Lenar\u010di\u010d<br \/>\nPrejeta sredstva: 4.000 \u20ac<\/p>\n<p>Ker so mnoga besedila starej\u0161ega slovenskega slovstva od 17. do 19. stoletja ostala v rokopisih in zato niso vstopila ne v znanstveno evidenco ne v ob\u010do kulturno recepcijo, smo \u017eeleli s tem projektom izbolj\u0161ati in olaj\u0161ati postopek prepisovanja starej\u0161ih rokopisnih besedil v sloven\u0161\u010dini. To smo storili s pomo\u010djo orodja <a href=\"https:\/\/www.transkribus.org\/\">Transkribus<\/a>:<\/p>\n<ol>\n<li>V preliminarnih fazah (pred 2024) smo pripravili digitalne faksimile rokopisov ter ro\u010dno pripravili ve\u010d deset strani diplomati\u010dnega prepisa besedil Ignacija Holzapfla (1799\u20131866) in fran\u010di\u0161kana Tobije Vernika (1801\u20131886). Ta besedila smo v na\u0161em projektu v letu 2024 uporabili kot u\u010dno mno\u017eico, na kateri je Transkribus izdelal model za prepoznavanje rok, posebej za Holzapfla in posebej za Vernika.<\/li>\n<li>S pomo\u010djo izbolj\u0161anih modelov smo z orodjem Transkribus pripravili po cca. 200 strani prepisa za vsakega od obeh avtorjev.<\/li>\n<li>Celotno besedilo (cca. 220 + 300 strani rokopisov) smo nato pretvorili v zapis XML TEI in ga dalje urejali po Smernicah TEI.<\/li>\n<li>Skupen model za transkripcijo slovenskih rokopisov te dobe smo nato ustvarili tako, da smo zdru\u017eili v en sam model zna\u010dilnosti \u0161tirih rok, t.j., zdru\u017eili smo \u0161tiri poprej izdelane u\u010dne mno\u017eice: pribl. 55.000 besed besedil fran\u010di\u0161kana Konrada Branke (1737\u20131789); 20.000 besed Mihaela Zagaj\u0161ka (1739\u20131827), \u017eupnika na Kalobju; 12.000 besed fran\u010di\u0161kana Tobije Vernika; in 93.000 besed Ignacija Holzapfla, duhovnega pisca in dekana v Ribnici. Celotna u\u010dna mno\u017eica je velika cca. 170.000 besed. Velikost u\u010dne mno\u017eice za posamezno roko je razli\u010dna glede na te\u017eavnost in posebnosti rokopisa te roke. Najve\u010dja je u\u010dna mno\u017eica za Holzapfla, ki ima dale\u010d najbolj te\u017eaven rokopis. Povpre\u010dna stopnja napake CER (Character error rate) je 3,29%. Najbolj\u0161a je prepoznava besedil fran\u010di\u0161kana Tobije Vernika, ker ima najlep\u0161i rokopis, nekoliko slab\u0161a je pri Holzapflovi zelo specifi\u010dni pisavi. Z dodajanjem novih u\u010dnih mno\u017eic drugih starej\u0161ih piscev je mo\u010d model \u0161e izbolj\u0161ati.<\/li>\n<\/ol>\n<p>Rezultati projekta so:<\/p>\n<ul>\n<li>Zdru\u017eeni model \u00bbSlovenski rokopisi 18. in 19. stoletja\u00ab, ki je javno dostopen v spletnem servisu Transkribus kot <a href=\"https:\/\/www.transkribus.org\/model\/slovenian-18th-and-19th-century-manuscripts\">Model ID 216113<\/a>.<\/li>\n<li>Dve diplomati\u010dni izdaji, kodirani po Smernicah TEI in odprto dostopni na repozitoriju CLARIN.SI: <a href=\"http:\/\/hdl.handle.net\/11356\/1995\">http:\/\/hdl.handle.net\/11356\/1995<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1993\">http:\/\/hdl.handle.net\/11356\/1993<\/a>.<\/li>\n<li>\u0160tiri elektronske diplomati\u010dne izdaje, objavljene z orodjem <a href=\"https:\/\/teipublisher.com\/\">TEI Publisher<\/a> na <a href=\"https:\/\/sbs.manuscripta.zrc-sazu.si\/\">portalu \u00bbSlovensko baro\u010dno slovstvo\u00ab<\/a> v paralelnem prikazu prepisa in faksimila: <a href=\"https:\/\/sbs.manuscripta.zrc-sazu.si\/sbs_dipl_ms_206\">sbs_dipl_ms_206<\/a>, <a href=\"https:\/\/sbs.manuscripta.zrc-sazu.si\/sbs_dipl_ms_207\">sbs_dipl_ms_207<\/a>, \u00a0<a href=\"https:\/\/sbs.manuscripta.zrc-sazu.si\/sbs_dipl_ms_209\">sbs_dipl_ms_209<\/a>, <a href=\"https:\/\/sbs.manuscripta.zrc-sazu.si\/sbs_dipl_ms_210\">sbs_dipl_ms_210<\/a>.<\/li>\n<\/ul>\n<p>Besedilo razpisa 2024 [<a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2024\/03\/Projektni-razpis-CLARIN.SI-2024.pdf\">PDF]<\/a><\/p>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2023<\/strong><\/h3>\n<p>V 2023 je CLARIN.SI podprl \u0161est projektov, ki so bili vsi tudi uspe\u0161no zaklju\u010deni.<\/p>\n<h4><strong>SemSex: Izdelava semanti\u010dne baze znanja o spolnosti in prepoznavanje definiranih konceptov v u\u010dnih vsebinah<\/strong><\/h4>\n<p>Prijavitelj: Slavko \u017ditnik, FRI UL<br \/>\nIzvajalec: Tim Prezelj, PEF in MF UL, Timotej Knez, FRI UL, Miha \u0160travs, FRI UL<br \/>\nPrejeta sredstva: 7.000 \u20ac<\/p>\n<p>S projektom SemSex (<a href=\"https:\/\/github.com\/clarinsi\/SemSex\">https:\/\/github.com\/clarinsi\/SemSex<\/a>) smo \u017eeleli vsaj delno zapolniti omenjene sistemske pomanjkljivosti in postaviti osnoven temelj za nadaljnje sistemske spremembe in izbolj\u0161ave na podro\u010dju spolne vzgoje v Sloveniji. Ker gre za kulturno ob\u010dutljivo tematiko, smo za dosego zastavljenih ciljev sku\u0161ali izbrati kar se da objektiven, nepristranski in strokovno podprt metodolo\u0161ki pristop, ki pa bi bil v paradigmatskem smislu uporaben tudi \u0161ir\u0161e, ne zgolj znotraj specifi\u010dnega okvira vsebin s podro\u010dja spolnosti. Z vpeljavo strojnih orodij, smo v projektu \u017eeleli postaviti in na primeru preizkusiti nov originalen teoretko-analiti\u010den pristop analize \u0161olskega prostora, kar nam je v dobri meri tudi uspelo. Upamo, da bodo rezultati projekta SemSex v prvi vrsti pomagali odlo\u010devalcem in raziskoalcem pri evalvaciji in optimizaciji programa spolne vzgoje v Sloveniji. Poleg tega pa tudi, da se bo metodolo\u0161ki okvir, uporabljen na konkretnem primeru raz\u0161iril tudi na analizo in evalvacijo drugih podobnih medkurikularnih podro\u010dij, saj je trenuten sistem naravnan izrazito kvalitativno, s tem pa tudi premalo sistemati\u010dnen.<\/p>\n<p>V okviru projekta so bile izvedene tri aktivnosti, ki se med seboj vsebinsko povezujejo:<\/p>\n<p><em>Aktivnost A1:<\/em> Zasnovali smo hierarhi\u010dno urejen okvir vsebin s podro\u010dja spolne vzgoje, na podlagi katerega je bila zgrajena semanti\u010dna baza znanja za domeno spolnosti.<\/p>\n<p><u>Izdelek D1:<\/u> Semanti\u010dna baza znanja v strojno berljivi obliki (RDF): <a href=\"https:\/\/github.com\/clarinsi\/SemSex#1-ontology\">https:\/\/github.com\/clarinsi\/SemSex#1-ontology<\/a><\/p>\n<p><em>Aktivnost A2:<\/em> Na podlagi baze (D1) smo izdelali model za prepoznavanje povedi ali odstavkov, povezanih z dolo\u010denim konceptom o spolnosti.<\/p>\n<p><u>Izdelek D2:<\/u> Repozitorij kode z nau\u010denim modelom za prepoznavanje vsebin o spolnosti: <a href=\"https:\/\/github.com\/clarinsi\/SemSex#2-concept-detection\">https:\/\/github.com\/clarinsi\/SemSex#2-concept-detection<\/a>; <a href=\"http:\/\/hdl.handle.net\/11356\/1894\">http:\/\/hdl.handle.net\/11356\/1894<\/a>.<\/p>\n<p><em>Aktivnost A3:<\/em> Opravili smo sistemati\u010dno, avtomatsko (z ro\u010dnim pregledom), kvalitativno analizo obstoje\u010dih u\u010dnih na\u010drtov, kjer \u017eelimo identificirati koncepte iz semanti\u010dne baze znanja. Na tej podlagi lahko ugotovimo katere vsebine iz postavljenega okvirja so prisotne, na kak\u0161en na\u010din in kak\u0161na je njihova formalna obravnava.<\/p>\n<p><u>Izdelek D3:<\/u> Korpus vseh aktualnih u\u010dnih na\u010drtov slovenskih osnovnih \u0161ol z ozna\u010denimi specifi\u010dnimi deli o spolnosti (glede na semanti\u010dno bazo znanja): <a href=\"http:\/\/hdl.handle.net\/11356\/1895\">http:\/\/hdl.handle.net\/11356\/1895<\/a>.<\/p>\n<p>Metodolo\u0161ki pristop, ki smo ga opisali v okviru projekta SemSex nameravamo razvijati naprej tudi po uradnem zaklju\u010dku projekta, posebej ker je del rezultatov \u017ee dosegel odmev v znanstvenem prispevku (<a href=\"https:\/\/www.pei.si\/ISBN\/978-961-270-351-6\/978-961-270-351-6.165-182.pdf\">Prezelj, 2023<\/a>).<\/p>\n<h4><strong>ZRCalo: prenova \u010drkovne vrste za vna\u0161alni sistem ZRCola 2<\/strong><\/h4>\n<p>Prijavitelj: Jano\u0161 Je\u017eovnik, ZRC SAZU<br \/>\nIzvajalci: Nace Pu\u0161nik (zunanji izvajalec), Du\u0161a Divjak Race, Carmen Kenda-Je\u017e, ZRC SAZU<br \/>\nPrejeta sredstva: 5.000 \u20ac<\/p>\n<p>Prva faza prenove \u010drkovne vrste, financirana v okviru projekta, je zajemala pripravo nabora \u010drkovne vrste ZRCalo do 100 znakov. \u010crkovna vrsta bo s\u010dasoma nadomestila pisavo ZRCola kot komponento vna\u0161alnega sistema ZRCola 2 (<u><a href=\"http:\/\/hdl.handle.net\/11356\/1090\">http:\/\/hdl.handle.net\/11356\/1090<\/a><\/u>). V sklopu projekta so bile pripravljene velike (majuskule) in male (minuskule) \u010drke, ki so del nabora slovenske abecede. Poleg tega so bila v tem delu pripravljena nekatera diakriti\u010dna znamenja, ustrezno povezana s pomo\u010djo povezovanja komponent. Trenutna razli\u010dica pisave skupaj obsega nabor 384 znakov, zlasti tistih, zajetih v unikodnih blokih <a href=\"https:\/\/www.unicode.org\/charts\/PDF\/U0000.pdf\">Basic Latin<\/a>, <a href=\"https:\/\/www.unicode.org\/charts\/PDF\/U0080.pdf\">Latin-1 Supplement<\/a>, <a href=\"https:\/\/www.unicode.org\/charts\/PDF\/U0100.pdf\">Latin Extended-A<\/a>, <a href=\"https:\/\/www.unicode.org\/charts\/PDF\/U0180.pdf\">Latin Extended-B<\/a> in <a href=\"https:\/\/www.unicode.org\/charts\/PDF\/U1E00.pdf\">Latin Extended Additional<\/a>, sicer pa tudi v posameznih drugih blokih. Tehni\u010dne specifike, ki se odra\u017eajo v narejenih \u010drkah, so bile ustrezno urejene in prilagojene v namenskem urejevalnem okolju. Metri\u010dne in prirezovalne lastnosti \u010drk so bile v tem delu \u017ee prilagojene, predvsem za osnovni nabor znakov. Z ve\u010djim \u0161tevilom znakov se bo metrika \u0161e urejala, saj bo potrebno tudi preostale novo nastale znake ustrezno povezati s trenutnim naborom. Iz delovne datoteke pisave smo izdelali odprtokodno razli\u010dico (open type format, .otf), ki omogo\u010da uporabo pisave v razli\u010dnih sistemih.<\/p>\n<p>Rezultat projekta je objavljen na repozitoriju CLARIN.SI pod licenco CC-BY <a href=\"http:\/\/hdl.handle.net\/11356\/1884\">http:\/\/hdl.handle.net\/11356\/1884<\/a>.<\/p>\n<h4><strong>Spleti\u0161\u010de s celostnim popisom sistemov ozna\u010devanja slovenskih korpusov<\/strong><\/h4>\n<p>Prijaviteljica in izvajalka: Tina Munda, CJVT UL<br \/>\nPrejeta sredstva: 2.000 \u20ac<\/p>\n<p>V okviru projekta je bilo nadgrajeno spletno mesto za informacije o jezikoslovnem ozna\u010devanju slovenskih korpusov na <a href=\"https:\/\/wiki.cjvt.si\/\">CJVT Wiki<\/a>, ki je v sloven\u0161\u010dini na voljo na <a href=\"https:\/\/wiki.cjvt.si\/shelves\/jezikoslovno-oznacevanje-korpusov\">https:\/\/wiki.cjvt.si\/shelves\/jezikoslovno-oznacevanje-korpusov<\/a>, v angle\u0161\u010dini pa na <a href=\"https:\/\/wiki.cjvt.si\/shelves\/linguistic-annotation-of-slovene-corpora\">https:\/\/wiki.cjvt.si\/shelves\/linguistic-annotation-of-slovene-corpora<\/a>.<\/p>\n<p>Korpusno ozna\u010devanje je predstavljeno po slede\u010dih ozna\u010devalnih nivojih: tokenizacija, stav\u010dne segmentacija, lematizacija, oblikoskladnja JOS\/MULTEXT-East v6, skladnja SSJ\/JOS, skladnja Universal Dependencies (UD), udele\u017eenske vloge (SRL), imenske entitete (NER), koreference in povezav, kot tudi sistema za ozna\u010devanje jezikovnih popravkov v korpusih \u0160olar (besedila u\u010dencev) in KOST (besedila govorcev sloven\u0161\u010dine kot tujega jezika). Vsako ozna\u010devalno ravnino sestavljajo kratka predstavitev, predstavitev oznak oz. procesa, ozna\u010devalne smernice ter relevantne reference in povezave.<\/p>\n<p>Obenem je bila v projektu vzpostavljena angle\u0161ka razli\u010dica omenjene vsebine, ki omogo\u010da vpogled v slovensko korpusno ozna\u010devanje tudi mednarodni zainteresirani javnosti. Stranski produkt tega dela projekta so datoteke TSV s slovenskimi in angle\u0161kimi oznakami relevantnih ozna\u010devalnih sistemov, ki so med drugim priro\u010dne za gradnjo kolofonov v datotekah XML.<\/p>\n<p>S ciljem poenotenega nadgrajevanja tega spleti\u0161\u010da tudi v prihodnje so bila tudi dopolnjena <a href=\"https:\/\/wiki.cjvt.si\/books\/preberi-me-navodila-za-dodajanje-vsebine\">navodila za dodajanje vsebine<\/a>, poskrbljeno pa je bilo tudi za promocijo spleti\u0161\u010da na dru\u017ebenih omre\u017ejih in novi\u010dnikih.<\/p>\n<h4><strong>Korpusno osnovani slovensko-japonski u\u010dni slovar<\/strong><\/h4>\n<p>Prijaviteljica: Kristina Hmeljak Sangawa, FF UL<br \/>\nIzvajalci: Jan Hrastnik, \u0161tudent FMF UL; Nina Sangawa Hmeljak, \u0161tudentka FRI UL; Laura Barovi\u010d Bo\u017ejak, Nadja Bosti\u010d, Katarina Hitomi Gerl, Nina Kali\u0161nik, Sara Kle\u010d, Eva Kova\u010d in Jure Tom\u0161e, \u0161tudenti FF UL<br \/>\nPrejeta sredstva: 3.500 \u20ac<\/p>\n<p>V okviru projekta smo izdelali slovensko-japonski spletni slovar za slovensko govore\u010de. Podatke iz obstoje\u010dega japonsko-slovenskega slovarja jaSlo 3.1 (<a href=\"http:\/\/hdl.handle.net\/11356\/1050\">http:\/\/hdl.handle.net\/11356\/1050<\/a>), ki obsega 9.891 gesel, smo strojno obrnili v grob slovensko-japonski slovar, iz gesel najprej avtomatsko in nato ro\u010dno izlo\u010dili dvojnike in neprimerne izto\u010dnice, gesla dopolnili s slovenskimi besednimi vrstami in stopnjo te\u017eavnosti po lestvici SEJO, kot jo navaja Jedrno besedi\u0161\u010de sloven\u0161\u010dine (<a href=\"http:\/\/hdl.handle.net\/11356\/1697\">http:\/\/hdl.handle.net\/11356\/1697<\/a>), nato pa gesla ro\u010dno uredili z orodjem <a href=\"https:\/\/www.lexonomy.eu\/\">Lexonomy<\/a>.<\/p>\n<p>Geslom z ve\u010d prevodnicami smo dodali namige o pomenu posameznih japonskih prevodnic, delno tudi primere rabe v obeh jezikih, ki smo jih pridobili iz japonsko-slovenskega vzporednega korpusa jaSlo (<a href=\"https:\/\/nl.ijs.si\/jaslo\/#parallel\">https:\/\/nl.ijs.si\/jaslo\/#parallel<\/a>) in jih ro\u010dno priredili za slovarsko rabo. Ro\u010dno smo japonskim sinonimom iz razli\u010dnih registrov dodali tudi pragmati\u010dne oznake (spo\u0161tljivo, poni\u017eno, vljudno ipd.) in opombe o omejitvah pri rabi besed, ki so namenjene uporabnikom slovarja, ki se u\u010dijo japon\u0161\u010dine kot tujega jezika.<\/p>\n<p>Slovar je za brskanje dostopen na portalu Lexonomy, na <a href=\"https:\/\/www.lexonomy.eu\/#\/sloJa\">https:\/\/www.lexonomy.eu\/#\/sloJa<\/a>, za prevzem pa v repozitoriju CLARIN.SI pod licenco CC-BY 4.0 na <a href=\"http:\/\/hdl.handle.net\/11356\/1898\">http:\/\/hdl.handle.net\/11356\/1898<\/a>.<\/p>\n<h4>Izdelava u\u010dne mno\u017eice ozna\u010denih avtomatsko izlu\u0161\u010denih kolokacijskih podatkov<\/h4>\n<p>Prijavitelj: Iztok Kosem, CJVT UL<br \/>\nIzvajalci: Rebeka Roblek, Karolina Zgaga, Bojan Klemenc, Polona Gantar<br \/>\nPrejeta sredstva: 8.500 \u20ac<\/p>\n<p>V okviru projekta je bila izdelana u\u010dna mno\u017eica 713.310 kolokacijskih kandidatov, ki so bili avtomatsko izlu\u0161\u010deni iz referen\u010dnega korpusa <a href=\"http:\/\/hdl.handle.net\/11356\/1320\">Gigafida 2.0<\/a> in ozna\u010deni glede na njihovo kolokacijsko ustreznost. Kolokacijski kandidati (minimalna frekvenca = 4) so bili izlu\u0161\u010deni za tri skladenjske strukture, ki so poleg tega, da so med najpogostej\u0161imi skladenjskimi strukturami v slovenskem jeziku, tudi pomensko najbolj obvestilne:<\/p>\n<ul>\n<li>Glagol + samostalnik v to\u017eilniku (163.229 kolokacijskih kandidatov)<\/li>\n<li>Pridevnik + samostalnik (342.714 kolokacijskih kandidatov)<\/li>\n<li>Samostalnik + samostalnik v rodilniku (207.367 kolokacijskih kandidatov).<\/li>\n<\/ul>\n<p>Pri ozna\u010devanju smo bele\u017eili tri odlo\u010ditve: Da \u2013 dober kolokacijski kandidat (skladenjska ustreznost in pomenska smiselnost), Raz\u0161irjena \u2013 pogojno dober kolokacijski kandidat, ki ima zelo pogosto ali vedno \u0161e tretji element (brez katerega v\u010dasih pomensko ni smiseln), Ne \u2013 slab kolokacijski kandidat.<\/p>\n<p>U\u010dna mno\u017eica, ki bo integrirana tudi v Digitalno slovarsko bazo za sloven\u0161\u010dino na <a href=\"https:\/\/www.cjvt.si\/\">Centru za jezikovne vire in tehnologije Univerze v Ljubljan<\/a>i, je na voljo v repozitoriju CLARIN.SI pod licenco CC BY-SA 4.0 na <a href=\"http:\/\/hdl.handle.net\/11356\/1903\">http:\/\/hdl.handle.net\/11356\/1903<\/a>.<\/p>\n<h4><strong>Ukrajinski parlamentarni korpus za raziskave <\/strong><strong>kodnega<\/strong><strong> preklapljanja \u00a0<\/strong><\/h4>\n<p>Prijaviteljica:\u00a0 Anna Kryvenko, INZ (Slovenija) &amp; NISS (Ukrajina)<br \/>\nIzvajalci: Maty\u00e1\u0161 Kopp, Karlova univerza (\u010ce\u0161ka), Andriana Rii, \u0161tudentka Nacionalne politehni\u010dne univerze v Lvovu (Ukrajina)<br \/>\nPrejeta sredstva: 8.000 \u20ac<\/p>\n<p>V okviru projekta je bil izdelan ukrajinski parlamentarni korpus ParlaMint-UA 4.0.1, ki je raz\u0161irjena razli\u010dica korpusa ParlaMint-UA 4.0, slednji izdelan kot del projekta \u201c<a href=\"https:\/\/www.clarin.eu\/content\/parlamint-towards-comparable-parliamentary-corpora\">ParlaMint: Towards Comparable Parliamentary Corpora<\/a>\u201d, ki ga je financiral CLARIN in je dostopen na <a href=\"http:\/\/hdl.handle.net\/11356\/1859\">http:\/\/hdl.handle.net\/11356\/1859<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1860\">http:\/\/hdl.handle.net\/11356\/1860<\/a>.<\/p>\n<p>ParlaMint-UA 4.0.1 je enkrat ve\u010dji kot ParlaMint-UA 4. Vsebuje skoraj 42 milijonov besed, in vklju\u010duje starej\u0161e podatke med letoma 2002 in 2012 ter novej\u0161e podatke med septembrom in novembrom 2023. Ve\u010d podrobnosti o korpusu ParlaMint-UA 4.0.1 lahko najdete na <a href=\"https:\/\/ufal.github.io\/ParlaMint-UA\/\">https:\/\/ufal.github.io\/ParlaMint-UA\/<\/a>.<\/p>\n<p>Projekt je za\u010del tudi razvoj ozna\u010devanja kodnih preklopov v ukrajinskem parlamentarnem korpusu, in sicer z nadgradnjo dolo\u010devanja jezika (ukrajin\u0161\u010dina, ru\u0161\u010dina) od ravni odstavka na raven povedi. Za identifikacijo jezika je bila uporabljena knji\u017enica <a href=\"mailto:https:\/\/github.com\/pemistahl\/lingua-py\">lingua-py<\/a>. Potrebno je poudariti, da je bil uradni jezik ukrajinskega parlamenta vedno ukrajin\u0161\u010dina. Pojavnice v ru\u0161\u010dini obsegajo le 6 % celote, in jih po sredini leta 2019, ko je za\u010del veljati zakon o za\u0161\u010diti delovanja ukrajinskega jezika kot dr\u017eavnega, prakti\u010dno ni ve\u010d. Ker pa je ukrajinsko-ruska dvojezi\u010dnost \u0161e vedno raz\u0161irjena v sodobni ukrajinski dru\u017ebi, jezikovne izbire, ki so jih dru\u017ebeni akterji sprejemali na plenarnih zasedanjih v nedavni preteklosti, niso bile niti iracionalne niti neopa\u017eene s strani volivcev. Motivacije in mehanizmi, na katerih temeljijo te izbire, so zelo zanimivi za znanstvenike na razli\u010dnih podro\u010djih dru\u017ebenih in humanisti\u010dnih ved ter za \u0161ir\u0161o javnost.<\/p>\n<p>Verjamemo, da bo ukrajinski parlamentarni korpus ParlaMint-UA 4.0.1 priro\u010den vir, ki bo prispeval k raziskavam parlamentarnega diskurza na splo\u0161no in k napredku korpusno osnovanih \u0161tudij kodnega preklapljanja\u00a0 v institucionalnih kontekstih.<\/p>\n<p>Rezultat projekta je objavljen na repozitoriju CLARIN.SI pod licenco Creative Commons &#8211; Attribution 4.0 International (CC BY 4.0) in ga lahko prenesete s <a href=\"http:\/\/hdl.handle.net\/11356\/1900\">http:\/\/hdl.handle.net\/11356\/1900<\/a>. <strong>\u00a0<\/strong><\/p>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2022<\/strong><\/h3>\n<p>V 2022 CLARIN.SI sprejel v financiranje \u0161est projektov, ki so bili vsi tudi uspe\u0161no zaklju\u010deni in so opisani v nadaljevanju:<\/p>\n<h4><strong>Spletni vmesnik za napredno brskanje po slovenskih univerzalno skladenjsko raz\u010dlenjenih korpusih<\/strong><\/h4>\n<p>Prijaviteljica: Kaja Dobrovoljc, FF UL<br \/>\nIzvajalec: Miha \u0160travs, \u0161tudent FRI UL<br \/>\nPrejeta sredstva: 5.000 \u20ac<\/p>\n<p>V okviru projekta smo razvili spletni vmesnik <em>Drevesnik <\/em>(<a href=\"https:\/\/orodja.cjvt.si\/drevesnik\/\">https:\/\/orodja.cjvt.si\/drevesnik\/<\/a>), ki jezikoslovcem in drugim raziskovalcem omogo\u010da brskanje po izbranih slovenskih skladenjsko raz\u010dlenjenih korpusih z zmogljivim povpra\u0161evalnim jezikom na eni strani in uporabniku prijazno vizualizacijo rezultatov na drugi. Temelji na odprtokodnem orodju <a href=\"https:\/\/github.com\/TurkuNLP\/dep_search\">dep_search<\/a>, ki smo ga lokalizirali in dodatno nadgradili tako, da odslej poleg poizvedb po oznakah sheme Universal Dependencies omogo\u010da tudi iskanje po oblikoskladenjskih oznakah sheme JOS, naklju\u010dno razporeditev rezultatov ter njihovo zamejitev glede na dol\u017eino povedi. Uporabniki lahko v korpusih i\u0161\u010dejo po posami\u010dnih besedah ali kompleksnej\u0161ih skladenjskih strukturah, pri \u010demer jim je pri oblikovanju iskalnega pogoja v pomo\u010d posebna spletna stran s slovenskimi ponazoritvenimi primeri. Rezultati poizvedbe se prika\u017eejo v obliki skladenjsko raz\u010dlenjenih dreves (grafov), v razli\u010dnih oblikah pa so na voljo tudi za prenos na uporabnikov ra\u010dunalnik. Trenutno je poizvedovanje mo\u017eno po ro\u010dno raz\u010dlenjenih korpusih pisne (SSJ) in govorjene sloven\u0161\u010dine (SST) ter po strojno raz\u010dlenjenem korpusu ccKres, pri \u010demer zaledni sistem omogo\u010da tudi dodajanje novih korpusov v formatu CONLL-U.<\/p>\n<p>Izvorna koda in dokumentacija je dostopna na <a href=\"https:\/\/github.com\/clarinsi\/drevesnik\">https:\/\/github.com\/clarinsi\/drevesnik<\/a>, razli\u010dica 1.1 pa je dostopna za prenos tudi s repozitorijia CLARIN.SI:<\/p>\n<ul>\n<li>\u0160travs, Miha and Dobrovoljc, Kaja, 2023, <i>Service for querying dependency treebanks Drevesnik 1.1<\/i>, Slovenian language resource repository CLARIN.SI, <a href=\"http:\/\/hdl.handle.net\/11356\/1923\">http:\/\/hdl.handle.net\/11356\/1923<\/a>.<\/li>\n<\/ul>\n<h4><strong>Korpus u\u010dbenikov za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika KUUS in seznami temeljnega besedi\u0161\u010da za stopnje A1, A2 in B1<\/strong><\/h4>\n<p>Prijavitelj: Matej Klemen, Center za sloven\u0161\u010dino kot drugi in tuji jezik, FF UL<br \/>\nDrugi sodelavci projekta: \u0160pela Arhar Holdt, FF+FRI UL, Damjan Huber, Center za sloven\u0161\u010dino kot drugi in tuji jezik, FF UL, Iztok Kosem, FF+FRI UL, Mateja Lutar, Center za sloven\u0161\u010dino kot drugi in tuji jezik, FF UL, Senja Pollak, IJS<br \/>\nPrejeta sredstva: 2.500 evrov<\/p>\n<p>V projektu smo oblikovali korpus u\u010dbenikov za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika KUUS in z analizo besedi\u0161\u010da v njem tudi izhodi\u0161\u010dni seznam jedrnega besedi\u0161\u010da za stopnje A1, A2 in B1 po <em>Skupnem evropskem jezikovnem okviru <\/em>(SEJO). Korpus KUUS zajema 17 u\u010dbenikov za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika, izdanih na Centru za sloven\u0161\u010dino kot drugi in tuji jezik, ki se trenutno pogosto uporabljajo pri pou\u010devanju sloven\u0161\u010dine kot drugega in tujega jezika pri otrocih, mladostnikih in odraslih v Sloveniji in po svetu. Korpus obsega 520.796 besed in je oblikoskladenjsko ozna\u010den ter opremljen z metapodatki.<\/p>\n<p>Seznami besed za posamezne stopnje jezikovnega znanja imajo pri u\u010denju tujih jezikov dolgo tradicijo. Za sloven\u0161\u010dino kot drugi in tuji jezik so na razli\u010dne na\u010dine vklju\u010deni v jezikovne dokumente, npr. v <em>Pre\u017eivetveno raven za sloven\u0161\u010dino<\/em> (Pirih Svetina idr. 2004), <em>Sporazumevalni prag za sloven\u0161\u010dino <\/em>(Ferbe\u017ear idr. 2004) itn., in so bili pripravljeni kot konsenz sestavljavcev posameznih dokumentov. V projektu pa smo pripravili seznam, ki temelji na korpusnem pristopu in v enem dokumentu zdru\u017euje besedi\u0161\u010de za razli\u010dne stopnje.<\/p>\n<p>Iz korpusa KUUS smo izvozili besede oz. leme in dolo\u010dili \u0161tevil\u010dne kriterije, na podlagi katerih smo besede opremili z oznako stopnje SEJO: A1-jedro, A1-\u0161ir\u0161e, A2, B1. Preverili smo, ali se posamezna beseda pojavlja tako v u\u010dbenikih kot tudi na Referen\u010dnem seznamu pogostih splo\u0161nih besed (Pollak idr. 2020, <a href=\"http:\/\/hdl.handle.net\/11356\/1346\">http:\/\/hdl.handle.net\/11356\/1346<\/a>). Besede, ki so dobile oznake A1, A2, B1 in hkrati niso del referen\u010dnega seznama splo\u0161nega pogostega besedi\u0161\u010da, smo ro\u010dno pregledali in vsebinsko kategorizirali. Dolo\u010den dele\u017e teh besed smo prepoznali kot relevantne kandidate za vklju\u010ditev na seznam jedrnega besedi\u0161\u010da, ozna\u010denega s stopnjami SEJO: vklju\u010dili smo npr. za u\u010dbenike tipi\u010dno jezikoslovno terminologijo (npr. <em>poved<\/em>,<em> pogojnik<\/em>,<em> modalen<\/em>). Tako izhodi\u0161\u010dni seznam jedrnega besedi\u0161\u010da v trenutni razli\u010dici obsega 350 besed s pripisano oznako A1-jedro, 864 besed z oznako A1-\u0161ir\u0161e, 1.451 besed, ki smo jim pripisali oznako A2, in 2.608 besed na stopnji B1; skupaj 5.273 besed.<\/p>\n<p>Rezultata projekta sta pod licenco ACA ID-BY-NC-INF-NORED 1.0 na voljo v repozitoriju CLARIN.SI v dveh vnosih:<\/p>\n<ul>\n<li>Corpus of textbooks for learning Slovenian as L2 KUUS 1.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1696\">http:\/\/hdl.handle.net\/11356\/1696<\/a><\/li>\n<li>Core vocabulary for Slovenian as L2 1.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1697\">http:\/\/hdl.handle.net\/11356\/1697<\/a><\/li>\n<\/ul>\n<p>Pripravo in sestavo korpusa ter izdelavo izhodi\u0161\u010dnih seznamov jedrnega besedi\u0161\u010da za stopnje A1, A2 in B1 po SEJO smo podrobneje predstavili v prispevku:<\/p>\n<p>KLEMEN, Matej, ARHAR HOLDT, \u0160pela, POLLAK, Senja, KOSEM, Iztok, HUBER, Damjan, LUTAR, Mateja, 2022. Korpus u\u010dbenikov za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika. Nata\u0161a Pirih Svetina, Ina Ferbe\u017ear (ur.): <em>Na sti\u010di\u0161\u010du svetov: sloven\u0161\u010dina kot drugi in tuji jezik. Obdobja 41.<\/em> Ljubljana: Zalo\u017eba Univerze v Ljubljani. 165\u2013174. DOI: <a href=\"https:\/\/doi.org\/10.4312\/Obdobja.41.2784-7152\">https:\/\/doi.org\/10.4312\/Obdobja.41.2784-7152<\/a>, <a href=\"https:\/\/centerslo.si\/simpozij-obdobja\/zborniki\/obdobja-41\/\">https:\/\/centerslo.si\/simpozij-obdobja\/zborniki\/obdobja-41\/<\/a><\/p>\n<h4><strong>ParaDiom \u2013 Vzporedni korpus besedil z idiomatskimi enotami<\/strong><\/h4>\n<p>Prijavitelj: Gregor Donaj, UM FERI<br \/>\nDrugi sodelavci projekta: \u0160pela Antloga, UM FERI<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>ParaDiom (<u>Para<\/u>llel Corpus of I<u>diom<\/u>atic Texts) je vzporedni korpus, sestavljen iz povedi, vzor\u010denih iz obstoje\u010dih korpusov. Korpus vsebuje 1.000 segmentov slovenskega besedila s prevodi v angle\u0161\u010dino in 1.000 povedi angle\u0161kega besedila s prevodi v sloven\u0161\u010dino. Segmenti so med jezikoma poravnani. Vzor\u010dene povedi vsebujejo samostalni\u0161ke, pridevni\u0161ke, glagolske in prislovne frazeme, primerjalne frazeme in pregovore, ki so v korpusu tudi ozna\u010deni.<\/p>\n<p>Vzor\u010denje povedi je temeljijo na izbiri 100 slovenskih in 92 angle\u0161kih frazemov in primerjalnih frazemov ter iskanju povedi v obstoje\u010dih korpusih <a href=\"http:\/\/hdl.handle.net\/11356\/1035\">ccGigafida<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1431\">ParlaMint<\/a> in <a href=\"http:\/\/fedora.clarin-d.uni-saarland.de\/clmet\/clmet.html\">The Corpus of Late Modern English Texts<\/a>. Vzor\u010dene povedi so bile ozna\u010dene z MULTEXT-East MSD oznakami, Universal Dependencies oblikoslovnimi lastnostni in lemami s programom <a href=\"https:\/\/github.com\/stanfordnlp\/stanza\">Stanza<\/a> za angle\u0161\u010dino in <a href=\"https:\/\/github.com\/clarinsi\/classla\">CLASSLA<\/a> za sloven\u0161\u010dino. \u010ce je poved vklju\u010devala pregovor, smo ga ozna\u010dili. Polovica vzor\u010denih povedi je bila prevajana ro\u010dno, polovica pa strojno z ro\u010dnimi popravki.<\/p>\n<p>Ozna\u010devanje idiomatskih enot je potekalo v orodju <a href=\"http:\/\/hdl.handle.net\/11356\/1262\">Q-CAT<\/a>. Ozna\u010deni samostalni\u0161ki, pridevni\u0161ki in prislovni frazemi so dobili oznako MWE ID (\u2018idiomatic multiword expression\u2019), glagolski frazemi MWE VID (\u2018verbal idiomatic multiword expression\u2019), primerjalni frazemi MWE SIM (\u2018simile\u2019) in pregovori MWE P (\u2018proverb\u2019).<\/p>\n<p>Rezultati projekta so na voljo pod licenco CC BY-NC-SA 4.0 na repozitoriju CLARIN.SI:<\/p>\n<ul>\n<li>Parallel corpus of idiomatic text ParaDiom 1.0; <a href=\"http:\/\/hdl.handle.net\/11356\/1714\">http:\/\/hdl.handle.net\/11356\/1714<\/a>.<\/li>\n<\/ul>\n<h4><strong>Ustvarjanje slovenske mno\u017eice SI-NLI za sklepanje o pomenskem sosledju besedil<\/strong><\/h4>\n<p>Prijavitelj: Matej Klemen, UL FRI<br \/>\nDrugi sodelavci projekta: Ale\u0161 \u017dagar, UL FRI, Jaka \u010cibej, UL CJVT, Marko Robnik-\u0160ikonja, UL FRI<br \/>\nPrejeta sredstva:\u00a0 10.000 EUR<\/p>\n<p>SI-NLI (Slovene Natural Language Inference Dataset) je podatkovna mno\u017eica, namenjena u\u010denju modelov, ki razpoznavajo pomensko sosledje podanega para povedi. Med predpostavko \u201cPred mano te\u010de pet metrov \u0161iroka reka.\u201d in hipotezo \u201cSko\u010dil sem z enega na drugi breg.\u201d je npr. ozna\u010dena relacija nasprotovanja, saj trditev v hipotezi nasprotuje predpostavki (\u010dlovek ne more sko\u010diti tako dale\u010d). Mno\u017eico smo ustvarili s pomo\u010djo povedi, ki se pojavljajo v slovenskih referen\u010dnih korpusih. Pri ustvarjanju mno\u017eice smo se osredoto\u010dili na to, da ustvarimo med seboj raznolike primere, saj smo pri pregledu sorodnih obstoje\u010dih mno\u017eic v angle\u0161\u010dini ugotovili, da vsebujejo preve\u010d enostavne primere, kar lahko strojne modele zavede, da se nau\u010dijo besedilnih artefaktov namesto logi\u010dnega sklepanja. Skupna velikost podatkovne mno\u017eice je 5.937 parov povedi. Razdeljena je na u\u010dno, validacijsko in testno mno\u017eico, ki vsebujejo po 4.392, 547 in 998 primerov. Delitev smo opravili s pomo\u010djo slovenskih jezikovnih modelov tipa BERT ter s tem zagotovili, da so te\u017eki in lahki primeri enakomerno porazdeljeni v vseh treh podmno\u017eicah.<\/p>\n<p>Zasnovali smo delno avtomatski in delno ro\u010dni postopek ustvarjanja u\u010dnih primerov. Par povedi (predpostavka in hipoteza) smo najprej avtomatsko izlu\u0161\u010dili s pomo\u010djo nevronskega kodirnika stavkov, nato pa so ozna\u010devalci za vsako predpostavko tvorili po eno hipotezo, ki je ustrezala kriterijem izhajanja (ang. <em>entailment<\/em>, E), nevtralnosti (ang. <em>neutral<\/em>, N) ali nasprotovanja (ang. <em>contradiction<\/em>, C). Pri tem so sledili smernicam, ki smo jih zasnovali z namenom, da zagotovimo kvalitetno ustvarjene in raznolike u\u010dne primere. V smernicah je npr. navedeno, da ozna\u010devalec, ko tvori hipotezo za relacijo nasprotovanja, ne sme zgolj zanikati trdilnega stavka, saj je to preve\u010d enostavno. Vsak primer je bil pregledan s strani vsaj dveh ozna\u010devalcev, nekatere primere pa je pregledal \u0161e tretji ozna\u010devalec. SI-NLI tako omogo\u010da kakovostno preu\u010devanje sklepalnih sposobnosti strojno nau\u010denih modelov za slovenski jezik in je glede kakovosti primerov posebnost tudi v svetovnem merilu.<\/p>\n<p>Rezultati projekta so dostopni na slede\u010dih mestih:<\/p>\n<ul>\n<li>Programska koda je dostopna na repozitoriju <a href=\"https:\/\/github.com\/clarinsi\/si-nli\">https:\/\/github.com\/clarinsi\/si-nli<\/a>. Z njo je mogo\u010de iz korpusov izlu\u0161\u010diti pare povedi za nadaljnjo obdelavo in ozna\u010devanje ter dou\u010diti jezikovne modele.<\/li>\n<li>Mno\u017eica je objavljena na repozitoriju CLARIN.SI: Slovene Natural Language Inference Dataset SI-NLI, <a href=\"http:\/\/hdl.handle.net\/11356\/1707\">http:\/\/hdl.handle.net\/11356\/1707<\/a>. Vklju\u010dena je tudi v ogrodje za evalvacijo jezikovnih modelov za sloven\u0161\u010dino SloBENCH (<a href=\"https:\/\/slobench.cjvt.si\/\">https:\/\/slobench.cjvt.si\/<\/a>), zato so oznake v testni mno\u017eici skrite.<\/li>\n<li>Na ustvarjeni podatkovni mno\u017eici smo za sklepanje o pomenskem sosledju dou\u010dili slovenski jezikovni model SloBERTa, ki dosega klasifikacijsko to\u010dnost 73,5 %, in ve\u010djezikovni model CroSloEngual BERT, ki dosega klasifikacijsko to\u010dnost 67,3 %. Modela sta javno dostopna na portalu HuggingFace na <a href=\"https:\/\/huggingface.co\/cjvt\/sloberta-si-nli\">https:\/\/huggingface.co\/cjvt\/sloberta-si-nli<\/a> in <a href=\"https:\/\/huggingface.co\/cjvt\/crosloengual-bert-si-nli\">https:\/\/huggingface.co\/cjvt\/crosloengual-bert-si-nli<\/a>.<\/li>\n<\/ul>\n<h4><strong>Izdelava korpusa programov politi\u010dnih strank za dr\u017eavnozborske volitve 2022<\/strong><\/h4>\n<p>Prijavitelj: Andrej Pan\u010dur, INZ<br \/>\nDrugi sodelavci projekta: Petra Polani\u010d, Filip Dobrani\u0107, INZ<br \/>\nPrejeta sredstva: 2.500 EUR<\/p>\n<p>V korpus so bili vklju\u010deni programi, s katerimi so politi\u010dne stranke sodelovale na dr\u017eavnozborskih volitvah 24. 4. 2022, kakor so bili objavljeni na spletnih mestih strank do dne pred volitvami.<\/p>\n<p>Besedilo politi\u010dnega programa posamezne stranke je bilo shranjeno v svojo datoteko, z izjemo strank Na\u0161a prihodnost in Dobra dr\u017eava, ki sta na volitvah nastopili skupaj, zato smo njuna programa obravnavali skupaj in sta shranjena v eni datoteki. Besedilo je bilo v prvem koraku pretvorjeno v .txt format, kjer je zbrano nespremenjeno besedilo programov strank z izjemo delov, ki so bili izpu\u0161\u010deni pri vseh strankah, ki te elemente v programu imajo, to so: uvodnik predsednika ali predsednice stranke ob objavi programa, kazalo, poimensko na\u0161tevanje kandidatov po posameznih volilnih okrajih in dalj\u0161i citati (npr. iz drugih dokumentov stranke, citati govorov s kongresa stranke in podobno). Besedilo je bilo ob pretvorbi v .txt format pregledano in o\u010di\u0161\u010deno elementov, kot so podvajanje besedila, besedilo v glavi in nogi programa (npr. naslov poglavja v glavi posamezne strani programa), besedilo grafov, opisi slik in navedbe virov slik. V primeru dveh strank, ki sta svoje programe objavili kot besedilo na spletni strani, v korpus ni bilo vklju\u010deno nedokon\u010dano besedilo nekaterih delov programa (eksplicitna navedba, da je besedilo \u0161e v urejanju ali uporaba nadomestnega besedila). Besedila programov so bila nato jezikoslovno ozna\u010dena z ozna\u010devalnim orodjem CLASSLA in pretvorjena v format CoNLL-U.<\/p>\n<p>V korpusu je zbranih 19 programov strank. Vsebuje 330.559 pojavnic; najkraj\u0161i program je program stranke Lista Borisa Popovi\u010da (264 pojavnic), najdalj\u0161i pa program stranke Socialni demokrati (6.7071 pojavnic). Iz metapodatkov je razvidno ime stranke in njen URL, kot tudi URL zajetega programa..<\/p>\n<p>Korpus omogo\u010da pregled programov strank in vsebinsko primerjavo med njimi tudi na jezikoslovni ravni (npr. s primerjavo najpogostej\u0161ih pridevnikov v razli\u010dnih programih, pojavnost izrazov in specifi\u010dnih besednih zvez v posameznih programih itd.). Stranke vsebino svojih programov predstavljajo na raznolike na\u010dine, kar je bilo razvidno tudi med pripravo korpusa; ob izrazitih razlikah v dol\u017eini programov so prisotne tudi razlike v formatu in prisotnosti razli\u010dnih grafi\u010dnih elementov (slik, miselnih vzorcev, grafov). Za razvoj korpusa ali nastanek podobnih korpusov bi k vsebini lahko pomembno prispeval sistemati\u010den na\u010din bele\u017eenja teh elementov. K jezikoslovni in vsebinski analizi programov politi\u010dnih strank bi pomembno pripomogel tudi obstoj korpusov, ki pokrivajo programe strank v dalj\u0161em \u010dasovnem obdobju, kar bi omogo\u010dilo tudi kronolo\u0161ko primerjavo programov iste stranke od njenega nastanka in pregled klju\u010dnih tem, ki so jih stranke naslavljale v \u010dasu posameznih volitev.<\/p>\n<p>Rezultat projekta je na voljo pod licenco CC BY-NC-SA 4.0 na repozitoriju CLARIN.SI:<\/p>\n<ul>\n<li>Corpus of political party programs Programi2022; <a href=\"http:\/\/hdl.handle.net\/11356\/1734\">http:\/\/hdl.handle.net\/11356\/1734<\/a>.<\/li>\n<\/ul>\n<h4><strong>Evalvacijsko gradivo SloBench za razpoznavalnike govora<\/strong><\/h4>\n<p>Prijavitelj: Darinka Verdonik, UM FERI<br \/>\nDrugi sodelavci projekta: Andreja Bizjak, Simona Majheni\u010d, UM FERI<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>Leta 2021 je bila vzpostavljena platforma SloBench (<a href=\"https:\/\/slobench.cjvt.si\/\">https:\/\/slobench.cjvt.si\/<\/a>), namenjena evalvaciji jezikovnotehnolo\u0161kih orodij za slovenski jezik. Evalvacijska gradiva na platformi so skrita. V projektu SloBench ASR smo pripravili evalvacijsko gradivo SloBench za evalvacijo uspe\u0161nosti razpoznavalnikov teko\u010dega govora za slovenski jezik. Gradivo je bilo zbrano namensko za platformo SloBench in zajema posnetke in govorce, ki po najbolj\u0161em vedenju prijavitelja \u0161e niso zajeti v drugih obstoje\u010dih govornih bazah ali korpusih za slovenski jezik. Gradivo zajema:<\/p>\n<ul>\n<li>15 posnetkov v skupnem obsegu 3 h 18 min. 28 sek. (3:18:28)<\/li>\n<li>javni govor v obsegu 2:08:35 in nejavni govor v obsegu 1:09:53<\/li>\n<li>9 posnetkov v obsegu 2:03:04 iz jugozahodnega dela Slovenije in 6 posnetkov v obsegu 1:15:24 iz severovzhodnega dela Slovenije<\/li>\n<li>18 mo\u0161kih govorcev in 19 \u017eenskih govork<\/li>\n<li>javni govor zajema tematike evolucija, opis kraja, znanstveni slam, opis \u017eivljenja, kultura govora, novice, knjige, energetika, nejavni govor pa 4 monologe in 3 dialoge med dvema osebama<\/li>\n<li>v nejavnem govoru sodeluje 10 govorcev, od tega 3 stari do 30 let, 5 starih od 30 do 49 let in 2 nad 50 let<\/li>\n<\/ul>\n<p>Vsi posnetki so ro\u010dno transkribirani v na\u010dinu pogovornega zapisa in standardiziranega zapisa (Verdonik et al. 2013), skladno standardom, kot je bil uporabljan pri transkribiranju baze Artur v projektu Razvoj sloven\u0161\u010dine v digitalnem okolju, dostopne prek repozitorija CLARIN.SI.<\/p>\n<p>Posnetki evalvacijskega gradiva SloBench za razpoznavalnike so dostopni na <a href=\"https:\/\/slobench.cjvt.si\/leaderboard\/view\/10\">https:\/\/slobench.cjvt.si\/leaderboard\/view\/10<\/a>. Transkripcije so uporabljene za izvedbo evalvacije. Rezultati evalvacij so javno objavljeni na <a href=\"https:\/\/slobench.cjvt.si\/leaderboard\/view\/10\">https:\/\/slobench.cjvt.si\/leaderboard\/view\/10<\/a>.<\/p>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2021<\/strong><\/h3>\n<p>V 2021 CLARIN.SI sprejel v financiranje \u0161tiri projekte, vendar so bili samo trije uspe\u0161no zalju\u010deni, in so opisani v nadaljevanju.<\/p>\n<h4><b>Lu\u0161\u010denja iz korpusa KAS<\/b><\/h4>\n<p>Prijavitelji: Ale\u0161 \u017dagar, Matic Kava\u0161 in Marko Robnik-\u0160ikonja, UL FRI<br \/>\nPrejeta sredstva:\u00a0\u00a09.500 EUR<\/p>\n<p>Korpus akademske sloven\u0161\u010dine KAS 1.0 (<a href=\"http:\/\/hdl.handle.net\/11356\/1244\">http:\/\/hdl.handle.net\/11356\/1244<\/a>) vsebuje diplomska, magistrska in doktorska dela prevzeta s portala odprte znanosti v obsegu pribli\u017eno 82.000 dokumentov do leta 2018, obstaja pa tudi vnos <a href=\"http:\/\/hdl.handle.net\/11356\/1420\">http:\/\/hdl.handle.net\/11356\/1420<\/a>, ki zajema samo avtomatsko izlu\u0161\u010dene slovenske in angle\u0161ke povzetke teh del. Pri analizi korpusa KAS smo ugotovili, da so nekateri podatki nezadovoljivo strukturirani in izlu\u0161\u010deni. Med nekonsistentnostmi, ki smo jih zaznali, so npr. pome\u0161ani slovenski in angle\u0161ki povzetki in klju\u010dne besede, neobstoj povzetkov ali nek drug besedilni element namesto povzetka, nesegmentirana besedila in neobstoje\u010da klasifikacija besedil, \u0161umna ekstrakcija nekaterih besedilnih elementov idr. Do sedaj iz korpusa izlu\u0161\u010dene podatkovne mno\u017eice niso obsegale povzemanja ali izkori\u0161\u010dale soobstoja angle\u0161kih in slovenskih povzetkov za strojno prevajanje.<\/p>\n<p>Projekt je izdelal \u010distej\u0161o razli\u010dico korpusa KAS z dodano segmentacijo besedil po poglavjih in posodobljenim oblikoskladenjskim ozna\u010devanjem. Posodobljeni korpus povzetkov pa vsebuje manj napak in vsebuje ustrezno ozna\u010dene povzetke, iz katerih je razvidno, v katerem jeziku je posamezen povzetek napisan. Izlu\u0161\u010dili smo pribli\u017eno 72.000 slovenskih in 54.000 angle\u0161kih povzetkov. Z uporabo modelov strojnega u\u010denja smo v metapodatkih dopolnili pribli\u017eno polovico manjkajo\u010dih informacij o raziskovalnem podro\u010dju posameznega dela. Na podlagi besedil in povzetkov smo ustvarili ve\u010d novih podatkovnih mno\u017eic: enojezi\u010dno (72.000 primerov) in medjezikovno (54.000 primerov) mno\u017eico za povzemanje dolgih akademskih besedil in mno\u017eico poravnanih stavkov iz povzetkov v angle\u0161\u010dini in sloven\u0161\u010dini primerno za u\u010denje oz. evalvacijo strojnega prevajanja. Ustvarili smo tri razli\u010dice mno\u017eice za strojno prevajanje z razli\u010dnimi vrednostmi zanesljivosti poravnave: privzeta poravnava vsebuje pribli\u017eno 497 tiso\u010d parov, zanesljivej\u0161a poravnava 475 tiso\u010d in zelo zanesljiva poravnava 426 tiso\u010d parov.<\/p>\n<p>Programska koda je dostopna na repozitoriju <a href=\"https:\/\/github.com\/korpus-kas\">https:\/\/github.com\/korpus-kas<\/a>. S programsko kodo je mogo\u010de izlu\u0161\u010diti besedila in povzetke, nau\u010diti modele za klasifikacijo raziskovalnih podro\u010dij posameznih del ter poravnati stavke povzetkov napisanih v angle\u0161kem in slovenskem jeziku.<\/p>\n<p>Korpus in u\u010dne mno\u017eice so objavljene na repozitoriju CLARIN.SI:<\/p>\n<ul>\n<li aria-level=\"1\">Corpus of Academic Slovene KAS 2.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1448\">http:\/\/hdl.handle.net\/11356\/1448<\/a><\/li>\n<li aria-level=\"1\">Abstracts from the KAS corpus KAS-Abs 2.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1449\">http:\/\/hdl.handle.net\/11356\/1449<\/a><\/li>\n<li aria-level=\"1\">Summarization datasets from the KAS corpus KAS-Sum 1.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1446\">http:\/\/hdl.handle.net\/11356\/1446<\/a><\/li>\n<li aria-level=\"1\">Machine Translation datasets from KAS corpus KAS-MT 1.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1447\">http:\/\/hdl.handle.net\/11356\/1447<\/a><\/li>\n<\/ul>\n<p>Vse postopke lu\u0161\u010denja in priprave mno\u017eic smo podrobneje opisali v \u010dlanku:<\/p>\n<p>\u017dagar, A., Kava\u0161, M., &amp; Robnik \u0160ikonja, M. (2021). Corpus KAS 2.0\u202f: cleaner and with new datasets. In <em>Information Society &#8211; IS 2021\u202f: Proceedings of the 24th International Multiconference<\/em>. <a href=\"https:\/\/doi.org\/10.5281\/zenodo.5562228\">https:\/\/doi.org\/10.5281\/zenodo.5562228<\/a><\/p>\n<h4>SloBENCH: Zasnova in izdelava ogrodja za merjenje uspe\u0161nosti<\/h4>\n<p>Prijavitelji: Slavko \u017ditnik, Simon Krek, Marko Robnik-\u0160ikonja in Frenk Dragar, ULFRI<br \/>\nPrejeta sredstva: 10.000 EUR<\/p>\n<p>Na podro\u010dju obdelave naravnega jezika obstaja kar nekaj nalog, ki predstavljajo pomembne dele opremljenosti posameznega jezika z jezikovnimi tehnologijami in viri. Primeri tak\u0161nih nalog so avtomatsko povzemanje, prevajanje, oblikoslovno ozna\u010devanje ali tehnike ekstrakcije informacij. Jezikovni viri in tehnologije so dostopni preko razli\u010dnih platform (npr. repozitorij CLARIN.SI), vendar se njihova objektivna primerjava ne izvaja celovito ali enotno.<\/p>\n<p>V okviru projekta smo zagotovili mo\u017enost uvajanja preglednosti in transparentnosti nad razvitimi orodji in viri za jezikovne tehnologije slovenskega jezika. Orodje SloBENCH je spleti\u0161\u010de z javno objavljenimi primerjalniki za poljubno nalogo jezikovnih tehnologij. Omogo\u010da ve\u010d vlog uporabnikov ter dodajanje, spreminjanje ali izdelavo novih verzij primerjalnikov. Spletne storitve SloBENCH omogo\u010dajo avtomatizirano dodajanje rezultatov ter poljubno implementacijo in izra\u010dun metrik za posamezen primerjalnik. Orodja za evalvacijo, ki so del spleti\u0161\u010da SloBENCH, so objavljena in vzdr\u017eevana v javnem repozitoriju CLARIN.SI. Zaradi enostavnosti testiranja omogo\u010dajo, da lahko evalvacijsko orodje za izbrano nalogo vsakdo za\u017eene v okviru svojega sistema.<\/p>\n<p>V za\u010detni verziji orodja so vzpostavljene evalvacijske skripte s primeri u\u010dnih in testnih mno\u017eic za devet razli\u010dnih nalog: prepoznavanje imenskih entitet, oblikoslovnih\/oblikoskladenjskih oznak, lematizacija, raz\u010dlenjevanje, prepoznavanje udele\u017eenskih vlog, prevajanje (ANG-SLO, SLO-ANG), povzemanje in odgovarjanje na vpra\u0161anja.<\/p>\n<p>Po zaklju\u010dku projekta bo za njegovo nadaljnje vzdr\u017eevanje skrbel CJVT. Poleg internega repozitorija spleti\u0161\u010da in dokumentacije, ki se vodi v okviru CJVT, je bilo v okviru projekta vzpostavljeno:<\/p>\n<ul>\n<li>Spleti\u0161\u010de <a href=\"https:\/\/slobench.cjvt.si\">https:\/\/slobench.cjvt.si<\/a>: Glavna javna vstopna to\u010dka do vseh primerjalnikov.<\/li>\n<li>Evalvacijsko ogrodje &#8211; <a href=\"https:\/\/github.com\/clarinsi\/slobench-eval-docker\">https:\/\/github.com\/clarinsi\/slobench-eval-docker<\/a><\/li>\n<li>Javni DockerHub repozitorij z zgrajenimi Docker slikami, ki jih uporablja SloBENCH: <a href=\"https:\/\/hub.docker.com\/r\/slobench\/eval\/tags\">https:\/\/hub.docker.com\/r\/slobench\/eval\/tags<\/a>.<\/li>\n<\/ul>\n<h4>Korpus metafor v govorjenem jeziku G-KOMET<\/h4>\n<p>Prijavitelji: \u0160pela Antloga, Univerza v Mariboru, Fakulteta za elektrotehniko, ra\u010dunalni\u0161tvo in informatiko<br \/>\nPrejeta sredstva:\u00a0 6.000 EUR<\/p>\n<p>G-KOMET (korpus metafor v govorjenem jeziku) je nadgradnja pisnega korpusa metafori\u010dnih izrazov in metafor <a href=\"http:\/\/hdl.handle.net\/11356\/1293\">KOMET 1.0<\/a> s transkripcijami (po)govora v obsegu 50.000 besed. Korpus vklju\u010duje uravnote\u017een nabor transkripcij informativnega, izobra\u017eevalnega, razvedrilnega, zasebnega in nezasebnega diskurza. V njem so ro\u010dno ozna\u010dene metafori\u010dne besede, to so jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore, stalne besedne zveze, torej ve\u010dbesedne enote, katerih vsaj ena sestavina je bila rabljena metafori\u010dno, in metonimije, izraze, ki jih uporabljamo, da bi z njimi izrazili nekaj drugega.<\/p>\n<p>Ozna\u010devanje metafori\u010dnih besed je temeljilo na postopku za identifikacijo metafor MIPVU. Postopek je bil prilagojen specifikam slovenskega jezika in specifikam govorjenega jezika. Metafori\u010dnim besedam je bil dolo\u010den tip metafori\u010dnega prenosa, torej ali gre za direktno, indirektno metaforo, izraz, ki vpeljuje metafori\u010dno besedo, ali mejni primer. Metafori\u010dnim besedam in stalnim besednim zvezam je bilo dolo\u010deno \u0161e pomensko polje metafori\u010dne preslikave. Ozna\u010denim metonimijam pa je bil dolo\u010den tip metonimi\u010dne preslikave. G-KOMET omogo\u010da sistemati\u010dno analizo metafori\u010dnih in metonimi\u010dnih izrazov v slovenskem govorjenem jeziku.<\/p>\n<p>Korpus je objavljen na repozitoriju CLARIN.SI:<\/p>\n<ul>\n<li>Corpus of metaphorical expressions in spoken Slovene language G-KOMET 1.0: <a href=\"http:\/\/hdl.handle.net\/11356\/1490\">http:\/\/hdl.handle.net\/11356\/1490<\/a><\/li>\n<\/ul>\n<h3><strong>Poro\u010dila o projektih CLARIN.SI 2020<\/strong><\/h3>\n<p>V 2020 je CLARIN.SI prejel manj prijav, kot prej\u0161nja leta, v veliki meri zaradi zasedenosti skoraj vseh konzorcijskih partnerjev z delom na projektu <a href=\"https:\/\/www.slovenscina.eu\/\">RSDO<\/a>. Od prijavljenih projektov so bili izbranih trije, pri \u010demer je eden od projektov odstopil od pogodbe, saj so se pojavili zapleti okoli avtorskih pravic nad virom, ki je bil mi\u0161ljen za objavo. Uspe\u0161no zaklju\u010dena projekta sta opisana v nadaljevanju.<\/p>\n<h4><strong>Razvoj u\u010dnega gradiva na korpusu siParl 2.0: Korpusni pristop k raziskovanju parlamentarnega diskurza<\/strong><\/h4>\n<p>Prijaviteljica: Kristina Pahor de Maiti, UL FF<br \/>\nPrejeta sredstva: 5.000 EUR<\/p>\n<p>Slovenski raziskovalci so pod okriljem CLARIN.SI klju\u010dno pripomogli k razvoju parlamentarnih korpusov in razumevanju njihovega potenciala za raziskovalce v evropskem kontekstu (<a href=\"https:\/\/github.com\/clarin-eric\/parla-clarin\/\">razvoj priporo\u010dil za kodiranje<\/a>, <a href=\"https:\/\/hdl.handle.net\/11356\/1345\">razvoj parlamentarnih korpusov za razli\u010dne jezike<\/a>, <a href=\"https:\/\/www.clarin.eu\/resource-families\/parliamentary-corpora\">pregled dostopnih parlamentarnih korpusov<\/a>, <a href=\"https:\/\/www.clarin.eu\/ParlaCLARIN-II\">organizacija mednarodnih znanstvenih dogodkov o izgradnji in analizi parlamentarnih korpusov<\/a>). Vendar te dejavnosti v slovenski raziskovalni skupnosti \u0161e niso dobro poznane, zato smo v okviru tega projekta pripravili u\u010dno gradivo, za katerega menimo, da bo pripomoglo k premo\u0161\u010danju te vrzeli.<\/p>\n<p>Cilj projekta je bil zato izdelati u\u010dno gradivo, prek katerega bi na dostopen, metodolo\u0161ko ustrezen in raziskovalno relevanten na\u010din predstavili uporabnost jezikovnih korpusov za prou\u010devanje dru\u017ebenokulturnih pojavov, ki jih lahko raziskujemo na podlagi jezikovne rabe v specializiranem diskurzu. V ta namen je bil uporabljen korpus siParl\u00a02.0 (<a href=\"https:\/\/hdl.handle.net\/11356\/1300\">http:\/\/hdl.handle.net\/11356\/1300<\/a>), ki vsebuje sejne zapise razprav v Dr\u017eavnem zboru Republike Slovenije za obdobje 1990\u20132018, kot analiti\u010dno orodje pa konkordan\u010dnik noSketch Engine CLARIN.SI (<a href=\"https:\/\/www.clarin.si\/noske\/\">https:\/\/www.clarin.si\/noske\/<\/a>) oz. korpus siParl\u00a02.0, dostopen prek tega konkordan\u010dnika.<\/p>\n<p>Gradivo je sestavljeno iz kraj\u0161ega teoreti\u010dnega uvoda, ki obravnava posebnosti specializiranega diskurza in vpliva spola na sporazumevalne prakse ter vsebuje razlago najbolj uveljavljenih tehnik korpusne analize. Glavni del u\u010dnega gradiva je namenjen trem nalogam, kjer z uporabo razli\u010dnih tehnik korpusne analize raziskujemo polo\u017eaj \u017eensk v slovenskem parlamentu. Naloge bralca postopoma vodijo od izvedbe analiti\u010dnih postopkov do interpretacije rezultatov, dodani pa so tudi zaslonski posnetki, ki prikazujejo uporabo konkordan\u010dnika in bralcu omogo\u010dajo samostojno rabo korpusa.<\/p>\n<p>\u010ceprav u\u010dno gradivo temelji na slovenskem parlamentarnem korpusu, je analizo mogo\u010de ponoviti na podobno ozna\u010denih parlamentarnih korpusih v drugih jezikih, prav tako pa se predstavljene tehnike korpusne analize lahko uporabi tudi na drugih vrstah korpusov, kar po eni strani omogo\u010da mednacionalno primerjavo parlamentarne kulture in diskurza, po drugi strani pa spodbuja meddisciplinarno izmenjavo metodolo\u0161kih pristopov. Za najve\u010djo mo\u017eno uporabnost u\u010dnih gradiv smo pripravili tudi angle\u0161ko razli\u010dico, namenjeno tujejezi\u010dnim uporabnikom.<\/p>\n<p>U\u010dno gradivo je objavljeno v reviji <em>Prispevki za novej\u0161o zgodovino<\/em>, ki jo izdaja In\u0161titut za novej\u0161o zgodovino, Ljubljana:<\/p>\n<ul>\n<li>FI\u0160ER, Darja, PAHOR DE MAITI, Kristina. &#8220;Prvi\u010d, sem politi\u010darka in ne politik, drugi\u010d pa&#8230;&#8221;: korpusni pristop k raziskovanju parlamentarnega diskurza. <i>Prispevki za novej\u0161o zgodovino<\/i>. 2021, letn. 61, \u0161t. 1, str. 144-179, ISSN 0353-0329. <a href=\"https:\/\/ojs.inz.si\/pnz\/article\/view\/3823\/4189\" target=\"_blank\" rel=\"noopener\">https:\/\/ojs.inz.si\/pnz\/article\/view\/3823<\/a>, DOI: <a href=\"https:\/\/dx.doi.org\/10.51663\/pnz.61.1.07\" target=\"_blank\" rel=\"noopener\">10.51663\/pnz.61.1.07<\/a>.<\/li>\n<\/ul>\n<p>U\u010dno gradivo je tako v slovenskem kot angle\u0161kem jeziku dostopno tudi v digitalni knji\u017enici INZ:<\/p>\n<ul>\n<li>FI\u0160ER, Darja, PAHOR DE MAITI, Kristina. <i>&#8220;Prvi\u010d, sem politi\u010darka in ne politik, drugi\u010d pa &#8230;&#8221;: korpusni pristop k raziskovanju parlamentarnega diskurza<\/i>. In\u0161titut za novej\u0161o zgodovino, 2021. 1 spletni vir. Zbirka Parlamentaria, 2. ISBN 978-961-7104-06-6. <a href=\"https:\/\/sidih.github.io\/voices\/index-sl.html\" target=\"_blank\" rel=\"noopener\">https:\/\/sidih.github.io\/voices\/index-sl.html<\/a>.<\/li>\n<\/ul>\n<p>Na voljo so tudi <a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2020\/12\/siParl2.0-materiali-recenzija.pdf\">recenzije gradiva<\/a>.<\/p>\n<h4><strong>Izdelava epigrafskega korpusa srednjeve\u0161kih in zgodnje novove\u0161kih napisov na Slovenskem MEMIS<\/strong><\/h4>\n<p>Prijavitelj: Gregor Pobe\u017ein, In\u0161titut za kulturno zgodovino ZRC SAZU<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>V projektu \u00bbEpigrafski korpus srednjeve\u0161kih in zgodnje novove\u0161kih napisov na Slovenskem MEMIS 1.0\u00ab je bilo testno zbranih, evidentiranih, obdelanih v formatu XML in prevedenih 51 napisov v latinskem jeziku iz poznega srednjega in zgodnjega novega veka od l. 1222 do srede 17. stoletja; v pri\u010dujo\u010dem obsegu korpus vsebuje le napise iz slovenskih obalnih mest s poudarkom na Kopru in Piranu, in sicer vse napise, ki se bodisi nahajajo v svojem primarnem kontekstu, bodisi so bili premaknjeni ali celo uni\u010deni in so dostopni samo \u0161e v prepisih. Gradivo za korpus je bilo zbrano s pomo\u010djo terenskih raziskav, tj. evidentiranja in dokumentiranja napisov <em>in situ<\/em>.<\/p>\n<p>V korpusu so napisi razvezani (razvezane so abreviature in ligature) in komentirani ter prevedeni, zbrani in razgrnjeni pa so tudi razli\u010dni metapodatki. Za potrebe zapisa v formatu XML je bila uporabljena predloga za obdelavo rokopisov <a href=\"https:\/\/sourceforge.net\/p\/epidoc\/wiki\/Examples\/\">EpiDoc template XML file<\/a>, ki omogo\u010da obdelavo ve\u010dine relevantnih epigrafskih metapodatkov.<\/p>\n<p>Namen korpusa je ustvariti metodolo\u0161ko podlago za obdelavo srednjeve\u0161kih in zgodnje novove\u0161kih napisov v latinskem jeziku (in v vernakulranih jezikih), ki se nahajajo, oziroma so bili odkriti na obmo\u010dju slovenskega etni\u010dnega ozemlja. Korpus, ki bo kot integrirni vir objavljen v okviru infrastrukture DARIAH.SI, bo omogo\u010dal sistemati\u010dno obdelavo in objavljanje bogate napisne dedi\u0161\u010dine, ki za razliko od anti\u010dne materije \u0161e \u010daka na znanstveno obdelavo.<\/p>\n<p>Epigrafski korpus MEMIS 1.0 je za prevzem dostopen pod licenco CC BY-SA 4.0 na:<\/p>\n<ul>\n<li>Pobe\u017ein, Gregor, 2020, <i>Epigraphic corpus of Medieval and Early Modern inscriptions in Slovenia MEMIS 1.0<\/i>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1376\">http:\/\/hdl.handle.net\/11356\/1376<\/a>.<\/li>\n<\/ul>\n<hr \/>\n<h3 id=\"clarinsi2018\"><strong>Poro\u010dila o projektih CLARIN.SI 2019<\/strong><\/h3>\n<p>CLARIN.SI je v letu 2019 ponovil uspe\u0161no podbudo, za\u010deto v 2018, in objavil projektni razpis za \u010dlane svojega konzorcija. Predmet razpisa so bili znova projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresni\u010devanju usmeritev infrastrukture CLARIN.SI, pri \u010demer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih \u0161est, ki so opisani v nadaljevanju.<\/p>\n<h4><strong>Orodje za statisti\u010dno analizo skladenjsko raz\u010dlenjenih korpusov<\/strong><\/h4>\n<p>Prijavitelja: Kaja Dobrovoljc, FF UL, Marko Robnik \u0160ikonja, FRI UL<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>V projektu smo razvili ra\u010dunalni\u0161ki program za statisti\u010dno analizo skladenjsko raz\u010dlenjenih korpusov (orodje STARK), ki omogo\u010da izdelavo frekven\u010dnih seznamov skladenjskih dreves iz odvisnostnoskladenjsko raz\u010dlenjenih korpusov. Uporabnik lahko v konfiguracijski datoteki nastavi ve\u010d parametrov, s katerimi dolo\u010da lastnosti izlu\u0161\u010denih dreves, kot so \u0161tevilo vozli\u0161\u010d v drevesu, tip izpisanih vozli\u0161\u010d (od konkretnih besed do abstraktnej\u0161ih slovni\u010dnih lastnosti) ter (ne)upo\u0161tevanje zaklju\u010denosti drevesa, relacij med vozli\u0161\u010di in zaporedja besed v besedilu. Poleg tovrstnega induktivnega lu\u0161\u010denja dreves brez vnaprej\u0161njih jezikoslovnih predpostavk orodje omogo\u010da tudi lu\u0161\u010denje dreves na podlagi dodatnih restrikcij in vnaprej opisanih drevesnih struktur. Rezultati se izpisujejo v obliki tabelari\u010dnega formata, v katerem so poleg podatkov o strukturi dreves in njegovih vozli\u0161\u010dih pripisani \u0161e izkorpusni podatki o pogostosti in stopnji statisti\u010dne povezanosti med vozli\u0161\u010di glede na razli\u010dne mere povezovalnosti. Orodje kot vhodno datoteko sprejme skladenjsko raz\u010dlenjen korpus v standardnem formatu CONLL-U, s \u010dimer je poleg skladenjsko raz\u010dlenjenih korpusov v sloven\u0161\u010dini, kot sta u\u010dni korpus ssj500k in referen\u010dni korpus Gigafida, neposredno uporaben tudi za skladenjske analize ve\u010d kot 70 drugih svetovnih jezikov, za katere so \u017ee na voljo korpusi v omenjenem formatu.<\/p>\n<p>Orodje STARK je orodje ukazne vrstice, ki je pod odprto licenco Apache 2.0 prosto dostopno na <a href=\"https:\/\/github.com\/clarinsi\/STARK\">https:\/\/github.com\/clarinsi\/STARK<\/a>, za prevzem pa tudi v repozitoriju CLARIN.SI:<\/p>\n<ul>\n<li>Krsnik, Luka; Dobrovoljc, Kaja and Robnik-\u0160ikonja, Marko, 2019, Dependency tree extraction tool STARK 1.0, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1284\">http:\/\/hdl.handle.net\/11356\/1284<\/a>.<\/li>\n<\/ul>\n<h4><strong>Vzpostavitev dostopa do histori\u010dnih verzij referen\u010dnega korpusa slovenskega jezika Gigafida<\/strong><\/h4>\n<p><strong>\u00a0<\/strong>Prijavitelj: Andra\u017e Repar, CJVT<br \/>\nPrejeta sredstva: 1.500 EUR<\/p>\n<p>V spletnih konkordan\u010dnikih CLARIN.SI <a href=\"https:\/\/www.clarin.si\/noske\">noSketch Engine<\/a> in <a href=\"https:\/\/www.clarin.si\/kontext\">KonText<\/a>\u00a0je bila na voljo samo najnovej\u0161a razli\u010dica korpusa Gigafida 2.0. \u010ceprav ta verzija korpusa Gigafida vsebuje tudi besedila iz starej\u0161ih razli\u010dic, pa se od njih vendarle razlikuje, saj so bila iz nje odstranjena podvojena in nestandardna besedila, poleg tega pa je bil korpus tudi na novo jezikoslovno ozna\u010den.<\/p>\n<p>Iz razli\u010dnih razlogov se ob\u010dasno pojavlja potreba po dostopu do starej\u0161ih razli\u010dic korpusa, na primer za dostop do odstranjenih nestandardnih besedil (\u0161e posebej je to lahko pomembno za raziskave na podro\u010dju zamejske sloven\u0161\u010dine, saj so bili odstranjeni viri, kot je glasilo Novi Matajur). Poleg tega se z omogo\u010danjem dostopa do starej\u0161ih razli\u010dic zagotavlja ponovljivost \u017ee izvedenih raziskav na prej\u0161njih razli\u010dicah korpusov.<\/p>\n<p>V okviru projekta je bil v spletnih konkordan\u010dnikih noSketch Engine in KonText vzpostavljen dostop do prej\u0161njih razli\u010dic korpusa Gigafida, in sicer do korpusov FidaPLUS, Gigafida 1.0 in Gigafida 1.1. V na\u010drtu je bila tudi vzpostavitev dostopa do prve verzije korpusa Gigafida (t. i. korpusa FIDA), za katerega je bil v okviru projekta \u017ee sklenjen dogovor z lastnikoma korpusa, tj. s podjetjema Amebis, d.o.o. in DZS, d.d. Vendar do tega \u017eal ni pri\u0161lo, ker so bila vsa projektna sredstva namenjena pla\u010dilu prenosa avtorskih pravic za korpus FIDA s podjetja DZS, d.d. na Univerzo v Ljubljani, in je zato zmanjkalo sredstev za izvedbo dejanskega prenosa korpusa s fizi\u010dnih nosilcev podatkov (CD-jev) v digitalno obliko, primerno za objavo na konkordan\u010dnikih.<\/p>\n<p>Prek konkordan\u010dnikov noSketch Engine in KonText so sedaj dostopne naslednje razli\u010dice korpusa Gigafida:<\/p>\n<ul>\n<li>Gigafida v2.0 proto (nededupliciran): <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida20&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida20_dedup\">KonText,<\/a><\/li>\n<li>Gigafida v2.0 (dedupliciran): <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida20_dedup&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida20_dedup\">KonText,<\/a><\/li>\n<li>Gigafida v1.1 (nededupliciran): <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida\">KonText,<\/a><\/li>\n<li>Gigafida v1.1 dedup (dedupliciran): <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida10&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida_dedup\">KonText,<\/a><\/li>\n<li>Gigafida v1.0: <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida10&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida10\">KonText,<\/a><\/li>\n<li>FidaPLUS: <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=fidaplus&amp;struct_attr_stats=1\">noSketch Engine<\/a>, <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=fidaplus\">KonText.<\/a><\/li>\n<\/ul>\n<h4><strong>Korpus za odkrivanje koreferen\u010dnosti in analizo sentimenta za posamezno entiteto \u2013 SentiCoref 1.0<\/strong><\/h4>\n<p>Prijavitelj: Slavko \u017ditnik, FRI UL<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>V projektu je bil izdelan korpus SentiCoref 1.0, ki vsebuje besedilne entitete z ozna\u010denim sentimentom. Poleg sentimenta so ozna\u010deni \u0161e koreferen\u010dnost in imenske entitete. Kot imenske entitete so ozna\u010dena osebna imena, organizacije in zemljepisna imena. Za vsako imensko entiteto so v besedilu ozna\u010dene tudi vse povezane koreferen\u010dne omenitve. Korpus omogo\u010da bolj\u0161o analizo koreferen\u010dnosti in sentimenta za posamezno entiteto v besedilu.<\/p>\n<p>Podatkovna mno\u017eica SentiCoref 1.0 vsebuje besedila iz korpusa SentiNews 1.0 (<a href=\"https:\/\/hdl.handle.net\/11356\/1110\">Bu\u010dar, 2017<\/a>), ki sestoji iz 10.427 dokumentov. Vsak izmed dokumentov korpusa SentiNews 1.0 je ozna\u010den s petstopenjskim sentimentom na nivoju dokumenta, odstavka in posameznega stavka. SentiCoref 1.0 pa vsebuje 837 dokumentov, ki so bili iz korpusa SentiNews 1.0 izbrani na podlagi \u0161tevila imenskih entitet (avtomatsko ozna\u010denih z orodjem Polyglot) in vsebujejo od 50 do 73 imenskih entitet.<\/p>\n<p>Korpus SentiCoref 1.0 vsebuje 31.419 imenskih entitet: 15.285 imen organizacij, 8.606 osebnih imen in 7.528 zemljepisnih imen. Vsi dokumenti vsebujejo 14.572 koreferen\u010dnih zaporedij (tj. entitet) in skupaj 438.733 omenitev. Entitete so ozna\u010dene z naslednjimi stopnjami sentimenta: zelo negativno: 30 entitet; negativno: 1.801 entitet; nevtralno: 10.869 entitet; pozitivno: 1.705 entitet; zelo pozitivno: 24 entitet.<\/p>\n<p>Korpus SentiCoref 1.0 in navodila za ozna\u010devanje so odprto dostopna pod licenco CC BY 4.0 na:<\/p>\n<ul>\n<li>\u017ditnik, Slavko, 2019, <em>Slovene corpus for aspect-based sentiment analysis &#8211; SentiCoref 1.0<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1285\">http:\/\/hdl.handle.net\/11356\/1285<\/a>.<\/li>\n<\/ul>\n<h4><strong>Govorni korpus dialo\u0161kih dejanj GORDAN 1.0<\/strong><\/h4>\n<p>Prijaviteljica: Darinka Verdonika, FERI UM<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>V projektu Govorni korpus dialo\u0161kih dejanj GORDAN 1.0\u00a0 je bil razvit govorni korpus z dodanimi oznakami za dialo\u0161ka dejanja. V korpusu smo zajeli uravnote\u017een vzorec razli\u010dnih tipov govorjenega diskurza v skupnem obsegu ene ure. Gradiva so bila zajeta po kriterijih javnosti, interaktivnosti, kanala in namere. Izbrana so bila iz drugih obstoje\u010dih korpusov\/baz: GOS, Gos Videolectures in BERTA.<\/p>\n<p>Pred izbiro in definiranjem sheme za ozna\u010devanje so bile preizku\u0161ene druge obstoje\u010de sheme: MRDA, AMI, ISO 24617-2 in DART. Ocenjevali smo jih glede na to, ali ozna\u010dujejo pragmati\u010dni pomen, ali so koherentne ter ali so splo\u0161no veljavne in dobro uravnote\u017eene. Pri vsaki shemi smo ugotovili ve\u010dje pomanjkljivosti, na podlagi katerih smo nato definirali novo shemo GORDAN 1.0 (GOvoRna DejAnja), ki zdru\u017euje ugotovljene pozitivne lastnosti analiziranih shem in ne vklju\u010duje negativnih.<\/p>\n<p>Z izdelano shemo GORDAN 1.0 je bilo izbrano gradivo ro\u010dno ozna\u010deno. Oznake so bile dodane v orodju Transcriber 1.5.1 prek funkcije dodajanja dogodkov v tekst. Ozna\u010devanje je potekalo ve\u010dmodalno, ob poslu\u0161anju, kjer so na voljo video posnetki, pa tudi ob gledanju posnetkov.<\/p>\n<p>Ozna\u010deno gradivo je na voljo v repozitoriju CLARIN.SI v dveh vnosih:<\/p>\n<ul>\n<li>Zwitter Vitez, Ana; et al., 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (audio\/video), Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1292\">http:\/\/hdl.handle.net\/11356\/1292<\/a>: vsebuje izvorno avdio gradivo (in video gradivo, \u010de je na voljo), ki ga je mogo\u010de prevzeti po pogojih izvorne licence, tj. CC BY-NC-ND 4.0;<\/li>\n<li>Verdonik, Darinka, 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (transcription), Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1291\">http:\/\/hdl.handle.net\/11356\/1291<\/a>: vsebuje ozna\u010deno tekstovno gradivo in specifikacijo sheme GORDAN 1.0. Vir je na voljo po pogojih licence CC BY 4.0.<\/li>\n<\/ul>\n<h4><strong>Korpus metafor Komet 1.0<\/strong><\/h4>\n<p>Prijaviteljica: \u0160pela Antloga , FERI UM<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>Komet (KOrpus METafor) je korpus slovenskih publicisti\u010dnih, leposlovnih in spletnih besedil v obsegu 200.000 besed, v katerem so ro\u010dno ozna\u010dene metafori\u010dne besede, torej besede, katerih pomen v danem kontekstu odstopa od njihovega osnovnega pomena. Za ozna\u010devanje metafori\u010dnih besed je bil uporabljen postopek za identifikacijo metafor MIPVU (<em>Metaphor Identification Procedure Vrije Universiteit) v angle\u0161\u010dini, ki je bil nadgrajen in prilagojen specifikam sloven\u0161\u010dine. Postopek o<\/em>mogo\u010da sistemati\u010dno identifikacijo jezikovne metafore, tj. vseh jezikovnih elementov, povezanih s pomenskimi prenosi na osnovi medpodro\u010dnih preslikav. Identificirani so bili vsi jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore. Ozna\u010deni izrazi so dobili eno od \u0161tirih oznak: MRWd (direktna metafora), MRWi (implicitna metafora), WIDLI (mejni primer) ali MFlag (metafori\u010dni signalizator). Metafori\u010dnim besedam so bili pripisani pomenski okvirji, kar ozna\u010dene izraze uvr\u0161\u010da v dolo\u010deno pomensko podro\u010dje, ki predstavlja izhodi\u0161\u010de pomenskega prenosa. Pomenski okvir omogo\u010da, da lahko znotraj dolo\u010dene pomenske kategorije (npr. \u010das, prostorska orientacija, premikanje, \u010dustvovanje itd.) poi\u0161\u010demo metafori\u010dne izraze, ki so lahko uresni\u010ditev dolo\u010dene konceptualne strukture. Korpus metafor omogo\u010da objektivno in sistemati\u010dno analizo metafori\u010dnih izrazov in metafor v razli\u010dnih slovenskih besedilih.<\/p>\n<p>Korpus je dostopen pod licenco CC BY-NC-SA 4.0 na:<\/p>\n<ul>\n<li>Antloga, \u0160pela, 2020, Metaphor corpus KOMET 1.0, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1293\">http:\/\/hdl.handle.net\/11356\/1293<\/a>.<\/li>\n<\/ul>\n<h4><strong>Postavitev novih pravopisnih pravil na portal Fran<\/strong><\/h4>\n<p>Prijavitelj: ZRC SAZU<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>V projektu je bila na portalu Fran za\u010deta javna predstavitev predloga novih pravopisnih pravil in ustreznih slovarskih sestavkov, ki gradivsko dopolnjujejo pravila. Osnutka prvih dveh poglavij pravopisnih pravil uporabnikom omogo\u010data sodelovanje v javni razpravi o ustreznosti predlaganih re\u0161itev ter pri njihovem vsebinskem oblikovanju.<\/p>\n<p>V ta namen je bilo posamezno poglavje novih pravopisnih pravil pretvorjeno iz tekstovnega formata .docx v TEI, pripravljen pa je bil tudi pretvornik. S tem so pravopisna pravila pripravljena za elektronsko okolje v skladu z mednarodnimi priporo\u010dili, s \u010dimer je olaj\u0161an njihov nadaljnji razvoj in vzdr\u017eevanje ter povezljivost in prilagojenost razli\u010dnim uporabam. Pravila so v zapisu TEI povezana z gesli pravopisnega slovarja (ePravopis).<\/p>\n<p>So\u010dasno s prenovo posameznih poglavij pravopisnih pravil na In\u0161titutu za slovenski jezik Frana Ramov\u0161a ZRC SAZU nastaja sprotni pravopisni slovar \u2013 ePravopis. S povezavo ePravopisa s pravili je narejen korenit korak, s katerim se v spletnem mediju presega raznolikost in hkrati dopolnjuje iste informacije v slovarskem zapisu in v pravilih. Uporabnikom je s povezavo tako ponujen vpogled, ki ga pravila doslej niso omogo\u010dala.<\/p>\n<p><a href=\"https:\/\/fran.si\/pravopis8\">Prvi dve poglavji pravopisnih pravil sta dostopni na portalu Fran<\/a>, v formatu TEI pa bosta pod licenco CC BY-NC 4.0 dostopni v repozitoriju CLARIN.SI, ko bodo na voljo tudi vsa ostala pravopisna poglavja.<\/p>\n<hr \/>\n<h3 id=\"clarinsi2018\"><strong>Poro\u010dila o projektih CLARIN.SI 2018<\/strong><\/h3>\n<p>CLARIN.SI je v letu 2018 prvi\u010d objavil projektni razpis za \u010dlane svojega konzorcija. Predmet razpisa so bili projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresni\u010devanju usmeritev infrastrukture CLARIN.SI, pri \u010demer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih sedem, ki so opisani v nadaljevanju.<\/p>\n<h4 id=\"p1\"><strong>Nadgradnja digitalne knji\u017enice eZISS \u2013 Elektronske znanstvenokriti\u010dne izdaje slovenskega slovstva<\/strong><\/h4>\n<p>Prijavitelja: Andrej Pan\u010dur, INZ, Matija Ogrin, ZRC SAZU<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>Projekt je dopolnil dve zelo kompleksni in obse\u017eni izdaji, ki vklju\u010dujeta raznolike komponente in realizirata razne tekstnokriti\u010dne koncepte analize ter prikaza besedil. Poleg tega je razvil znatno izbolj\u0161an prikaz elektronske izdaje, njenega notranjega sestava (prepisov, digitalnega faksimila, opomb, kriti\u010dnega aparata ter spremnega znanstvenega komentarja) in povezav med komponentami. Prilagojene so bile <a href=\"https:\/\/github.com\/SIstory\/Stylesheets\">obstoje\u010de transformacije XSLT iz repozitorija GitHub<\/a>, ki so bile z namenom dinami\u010dnega prikaza vzporednih mest nadgrajene s transformacijo XSLT 3.0 za SAXON-JS. Transformacije XSLT so dostopne v mapi \u00bbProfiles\u00ab na povezavah <a href=\"https:\/\/github.com\/DARIAH-SI\/Foglar-pub\">https:\/\/github.com\/DARIAH-SI\/Foglar-pub<\/a> in <a href=\"https:\/\/github.com\/DARIAH-SI\/Kapelski-pub\">https:\/\/github.com\/DARIAH-SI\/Kapelski-pub<\/a>.<\/p>\n<p>Delo je vsebovalo tudi uredni\u0161ko delo na obeh izdajah:<\/p>\n<ul>\n<li>Kapelski pasijon: Izpopolnjeno je bilo ozna\u010devanje v zapisu TEI, znanstveni komentar je bil deloma na novo organiziran, vsi prepisi pa so bili povezani s pripadajo\u010dimi datotekami digitalnih faksimilov in medsebojnimi sklici.<\/li>\n<li>Foglarjev rokopis: Izdelana je bila celotna digitalna izdaja z diplomati\u010dnim in kriti\u010dnim prepisom rokopisnega gradiva, vklju\u010dno z aparatom variantnih mest v ve\u010d rokopisnih verzijah obravnavanih pesmi. To izdajo je pripravila Nina Ditmajer. Oba prepisa sta povezana z digitalnim faksimilom, njuno ozna\u010devanje v zapisu TEI pa je bilo prilagojeno za raznolike mo\u017enosti prikaza in povezav.<\/li>\n<\/ul>\n<p>Pomemben motiv in vidik nadgradnje je uporabnost izdelanega postopka za nadaljnje elektronske edicije knji\u017enice eZISS v okviru infrastrukture DARIAH-SI. Ta naj bi namre\u010d v prihodnosti vzpostavila digitalno knji\u017enico, osnovano na zapisu TEI, v kateri bi bilo mogo\u010de predstaviti kompleksne digitalne izdaje, kot sta Kapelski pasijon in Foglarjev rokopis, povezana pa naj bi bila tudi s storitvami za analizo korpusov v infrastrukturi CLARIN.SI.<\/p>\n<p>Kapelski pasijon je dostopen na:<\/p>\n<ul>\n<li><a href=\"https:\/\/dariah-si.github.io\/Kapelski-pub\/\">https:\/\/dariah-si.github.io\/Kapelski-pub\/,<\/a><\/li>\n<li><a href=\"https:\/\/nl.ijs.si\/e-zrc\/kapelski\/\">http:\/\/nl.ijs.si\/e-zrc\/kapelski\/.<\/a><\/li>\n<\/ul>\n<p>Foglarjev rokopis je dostopen na:<\/p>\n<ul>\n<li><a href=\"https:\/\/sidih.github.io\/foglar\/\">https:\/\/sidih.github.io\/foglar\/<\/a><\/li>\n<\/ul>\n<h4 id=\"p2\"><strong>Korpus parlamentarnih razprav Dr\u017eavnega zbora Republike Slovenije 1990\u20132018<\/strong><\/h4>\n<p>Prijavitelj: Andrej Pan\u010dur, INZ<br \/>\nPrejeta sredstva: 3.000 EUR<\/p>\n<p>V projektu je bil oblikovan korpus siParl, ki vsebuje vse parlamentarne razprave Dr\u017eavnega zbora Republike Slovenije od 1990 do 2018 (do zaklju\u010denega 7. mandata) in razprave v delovnih telesih dr\u017eavnega zbora od leta 1996, kar je skupno skoraj 230 milijonov pojavnic. Parlamentarne razprave iz obdobja 1990\u20131992 smo prenesli iz obstoje\u010dega korpusa SlovParl 2.0, vse ostale razprave pa so bile ozna\u010dene na novo. Ozna\u010devanje je potekalo v modulu TEI za dramska besedila, ki je bil nato pretvorjen v modul TEI za transkribiranje govorov. Korpus vsebuje podatke o vseh govorih in govornikih, neverbalno vsebino zapisnikov sej in ustrezne metapodatke. Vsebina govorov je bila tudi jezikoslovno ozna\u010dena, in sicer tokenizirana, oblikoskladenjsko ozna\u010dena in lematizirana.<\/p>\n<p>Korpus siParl je na voljo prek konkordan\u010dnikov, za prevzem pa pod licenco CC BY na:<\/p>\n<ul>\n<li>Pan\u010dur, Andrej; Erjavec, Toma\u017e; Ojster\u0161ek, Mihael; \u0160orn, Mojca and Blaj Hribar, Neja, 2019, <em>Slovenian parliamentary corpus siParl 1.0 (1990-2018)<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1236\">http:\/\/hdl.handle.net\/11356\/1236<\/a>.<\/li>\n<\/ul>\n<h4 id=\"p3\"><strong>Nagla\u0161evanje leksikona Sloleks<\/strong><\/h4>\n<p>Prijaviteljica: \u0160pela Arhar Holdt, CJVT UL<br \/>\nPrejeta sredstva: 5.000 EUR<\/p>\n<p>V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ro\u010dno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoje\u010di vmesnik leksikona, ki zdaj omogo\u010da mno\u017ei\u010denje naglasnih podatkov. Projekt se je osredoto\u010dil na leme z nepremi\u010dnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoje\u010dih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogo\u010de potrditi s predvideno 75-odstotno natan\u010dnostjo. Ro\u010dno je bilo pregledanih 24 % leksikona, od tega ve\u010dina z mno\u017ei\u010denjem. Z avtomatskimi in ro\u010dnimi spremembami je bil v projektu popravljen 21,7-odstotni dele\u017e avtomatsko nagla\u0161ene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri ob\u010dnoimenskem pa primeri s premi\u010dnim naglasnim tipom in naglasno variantnostjo.<\/p>\n<p>V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabni\u0161kega vmesnika: (a) aplicirana je bila grafi\u010dna podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogo\u010dajo jezikovni skupnosti sodelovanje pri nadaljnjem \u010di\u0161\u010denju oz. dopolnjevanju naglasnih podatkov (pozitivno\/negativno ocenjevanje avtomatsko pripisanih naglasov in foneti\u010dnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki \u0161e potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je mo\u017enost, da uporabniki sami snemajo posnetke izgovora.<\/p>\n<p>Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:<\/p>\n<ul>\n<li>Dobrovoljc, Kaja; et al., 2019, <em>Morphological lexicon Sloleks 2.0<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1230\">http:\/\/hdl.handle.net\/11356\/1230<\/a>.<\/li>\n<\/ul>\n<h4 id=\"p4\"><strong>Izdelava seznamov besed in n-gramov za razli\u010dne ravni \u0161olanja in razli\u010dne predmete<\/strong><\/h4>\n<p>Prijavitelj: Iztok Kosem, FF UL<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>V projektu je bil formiran korpus u\u010dbenikov za osnovne in srednje \u0161ole, iz njega pa so bili izlu\u0161\u010deni seznami besed, n-gramov in klju\u010dnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno ozna\u010deno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 u\u010dbenikov za 16 predmetov. V drugem koraku je bilo izvedeno lu\u0161\u010denje, pri \u010demer je bilo upo\u0161tevanih ve\u010d kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ro\u010dno. Kon\u010dni rezultat so slede\u010di seznami:<\/p>\n<ul>\n<li>Seznam splo\u0161nih besed, ki se pojavljajo v vsaj 8 od 16 \u0161olskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in \u0161tevilu predmetov.<\/li>\n<li>Seznam splo\u0161nih besed po nivoju \u0161olanja (razred\/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni \u0161olanja) in \u0161tevilu predmetov (od skupno 16).<\/li>\n<li>Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in \u0161tevilu predmetov (od skupno 16), v katerih se pojavlja n-gram.<\/li>\n<\/ul>\n<p>Seznami so dostopni pod licenco CC BY na:<\/p>\n<ul>\n<li>Kosem, Iztok; Pori, Eva and Arhar Holdt, \u0160pela, 2019, <em>Keywords and n-grams from a textbook corpus<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1215\">http:\/\/hdl.handle.net\/11356\/1215<\/a>.<\/li>\n<\/ul>\n<h4 id=\"p5\"><strong>Orodje za u\u010dinkovito analizo slovenskih korpusov<\/strong><\/h4>\n<p>Prijavitelja: Marko Robnik \u0160ikonja, \u0160pela Arhar Holdt, UL FRI<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>V projektu je bil razvit pregleden in razumljiv uporabni\u0161ki vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogo\u010da prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za ve\u010d formatov zapisa in preizku\u0161eno na ve\u010djih slovenskih in tujih korpusih.<\/p>\n<p>Izpisom so bili dodani metapodatki, ki omogo\u010dajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prika\u017eejo ob preletu z mi\u0161ko. Dodana je bila mo\u017enost izra\u010duna in izpisa razli\u010dnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izlu\u0161\u010dene besedne nize. Poleg tega je bil dodan izra\u010dun ocene obdelovalnega \u010dasa. Pri nastavitvah, ki lahko mo\u010dno vplivajo na obdelovalni \u010das, so bila dodana opozorila. Dodana je bila tudi mo\u017enost preklapljanja med slovensko in angle\u0161ko razli\u010dico poimenovanj in mo\u017enost obdelave nelatini\u010dnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novej\u0161ih korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.<\/p>\n<p>Program LIST je dostopen pod odprto licenco Apache2 na:<\/p>\n<ul>\n<li>Krsnik, Luka; et al., 2019, <em>Corpus extraction tool LIST 1.0<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1227\">http:\/\/hdl.handle.net\/11356\/1227<\/a>.<\/li>\n<\/ul>\n<h4 id=\"p6\"><strong>Gos Videolectures II<\/strong><\/h4>\n<p>Prijavitelja: Darinka Verdonik, Andrej \u017dgank, UM FERI<br \/>\nPrejeta sredstva: 6.000 EUR<\/p>\n<p>V projektu je bilo obstoje\u010de gradivo baze Gos Videolectures raz\u0161irjeno z ro\u010dno izdelanimi transkripcijami v obsegu 8 ur, ki vsebujejo pogovorni in standardizirani zapis z ro\u010dno segmentacijo na izjave in z oznakami opaznej\u0161ih akusti\u010dnih dogodkov. V gradivo so vklju\u010deni izbrani novej\u0161i posnetki s portala Videolectures.net, ki so uravnote\u017eeni glede na vsebinsko podro\u010dje ter glede na osnovne lastnosti govorcev (spol, starost). Transkripcije baze Gos Videolectures so bile poleg tega avtomatsko poravnane z govornim signalom na nivoju besed in na skr\u010denem seznamu osnovnih fonemov za sloven\u0161\u010dino. Za izvedbo obeh vrst avtomatske segmentacije je bila uporabljena prilagojena razli\u010dica avtomatskega razpoznavalnika teko\u010dega slovenskega govora UMB Broadcast News, ki je bil razvit na UM FERI.<\/p>\n<p>Kot pri prej\u0161njih razli\u010dicah baze Gos Videolectures je bila tudi ta sedaj pretvorjena iz izvornega zapisa Transcriber XML in dodanih metapodatkovnih datotek v zapis TEI (modul za govorjene korpuse), ki vklju\u010duje seznam govorcev z metapodatki, metapodatke o govorih (predavanjih), poravnavo izjav in stavkov z govornim signalom, kodiranje opaznej\u0161ih akusti\u010dnih dogodkov in zdru\u017eene besede pogovornega in standardiziranega zapisa. Standardizirane besede so bile dodatno avtomatsko oblikoskladenjsko ozna\u010dene in lematizirane. Konverzija je tudi slu\u017eila za validacijo izvornih datotek, s katero smo odkrili ve\u010dje \u0161tevilo napak in jih tudi popravili. Iz dokumenta TEI je bila generirana vertikalna datoteka, primerna za uvoz v konkordan\u010dnike infrastrukture CLARIN.SI. Pri tem so bili posnetki razdeljeni na posamezne izjave in stavke ter pretvorjeni v format MP3, kazalci na te posnetke pa dodani v vertikalno datoteko, kar omogo\u010da poslu\u0161anje posnetkov tudi prek konkordan\u010dnikov.<\/p>\n<p>Korpus projekta je dostopen prek konkordan\u010dnikov CLARIN.SI in za prevzem na:<\/p>\n<ul>\n<li>VideoLectures.NET, 2019,\u00a0<i>Spoken corpus Gos VideoLectures 4.0 (audio)<\/i>, Slovenian language resource repository CLARIN.SI,\u00a0<a href=\"https:\/\/hdl.handle.net\/11356\/1222\">http:\/\/hdl.handle.net\/11356\/1222<\/a>.<\/li>\n<li>Verdonik, Darinka; et al., 2019, <em>Spoken corpus Gos VideoLectures 4.0 (transcription)<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1223\">http:\/\/hdl.handle.net\/11356\/1223<\/a>.<\/li>\n<\/ul>\n<h4 id=\"p7\"><strong>Multimedijska digitalna nare\u010dna podatkovna baza slovarja obla\u010dilnega izrazja ziljskega govora Kanalske doline (Val Canale \u2013 Kanaltal \u2013 Valcjan\u00e2l)<\/strong><\/h4>\n<p>Prijaviteljica: Karmen Kenda-Je\u017e, ZRC SAZU<br \/>\nPrejeta sredstva: 4.000 EUR<\/p>\n<p>Multimedijska digitalna nare\u010dna podatkovna zbirka za <em>Slovar obla\u010dilnega izrazja ziljskega govora v Kanalski dolini<\/em>, ki je objavljen na portalu FRAN, je nastala iz gradivske zbirke, na podlagi katere sta bili prej \u017ee narejeni dve knji\u017eni izdaji slovarja. Prenos v digitalno okolje ni pomenil samo oblikovne prilagoditve novemu mediju (npr. na\u010din prikaza slovarskih podatkov, odpravo kratic ali poenotenje slovni\u010dnih oznak), ampak tudi vrsto mikrostrukturnih sprememb, ki sta jih povzro\u010dili vsebinska osamosvojitev spletnega slovarskega gesla in vzpostavitev neposredne povezave z zbirko zvo\u010dnih izse\u010dkov. Kon\u010dna podoba spletnega slovarja je zato precej oddaljena od svoje knji\u017ene predloge.<\/p>\n<p>Slovar, ki obsega 594 izto\u010dnic, je bil iz formata programa Word pretvorjen v slovarsko podatkovno zbirko v formatu XML, pri tem pa so bile vzpostavljene znotraj- in zunajslovarske povezave. Prvotna zbirka zvo\u010dnih izse\u010dkov je bila pregledana, izlo\u010deni so bili izse\u010dki slab\u0161e kakovosti (npr. tisti s prete\u017eno prekrivnim govorom). \u010ce je bilo mogo\u010de, je bilo dopolnilno zvo\u010dno gradivo pridobljeno s ponovno analizo zvo\u010dnih posnetkov. Zvo\u010dni izse\u010dki so bili povezani z izto\u010dnicami in s slovarskimi zgledi.<\/p>\n<p>Podatkovna zbirka je bila nato dopolnjena z izbranimi fotografijami iz arhiva etnografskih raziskav obla\u010dilne kulture, posamezna gesla pa so bila povezana \u0161e z etnografsko spletno zbirko projekta Glasovi Kanalske doline:\u00a0<a href=\"https:\/\/as.parsis.si\/zborzbirk\/zbirka.a5w?zid=1040\">Zborzbirk<\/a> (Kulturna dedi\u0161\u010dina v zbirkah med Alpami in Krasom). \u00a0S portala Fran je mogo\u010de dostopati tudi do dosedanjih razprav o ziljskem govoru Kanalske doline (Ov\u010dja vas in njena slovenska govorica, 2005; Lipalja vas in njena slovenska govorica, 2016), za katere je bil v okviru tega projekta zagotovljen prosti dostop.<\/p>\n<p>Podatkovna zbirka je dostopna na:<\/p>\n<ul>\n<li>Kenda-Je\u017e, Karmen; Perdih, Andrej and Race, Du\u0161a, 2019, <em>The Dictionary of the Clothing Terminology of the Zilja Local Dialect of Canale Valley (Kanalska dolina \u2013 Val Canale \u2013 Kanaltal \u2013 Valcjan\u00e2l)<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1217\">http:\/\/hdl.handle.net\/11356\/1217<\/a>.<\/li>\n<li>Gliha Komac, Nata\u0161a; Kandutsch, Elisa; Bartaloth, Rudi and Smole, Matev\u017e, 2019, <em>The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina \u2013 Val Canale \u2013 Kanaltal \u2013 Valcjan\u00e2l): photographs<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1221\">http:\/\/hdl.handle.net\/11356\/1221<\/a>.<\/li>\n<li>Kenda-Je\u017e, Karmen, 2019, <em>The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina \u2013 Val Canale \u2013 Kanaltal \u2013 Valcjan\u00e2l): audio<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"https:\/\/hdl.handle.net\/11356\/1220\">http:\/\/hdl.handle.net\/11356\/1220<\/a>.<\/li>\n<\/ul>\n<h2>Projekti, v katerih sodeluje CLARIN.SI<\/h2>\n<h3>CLARIN ParlaMint<\/h3>\n<p>CLARIN.SI (Institut &#8220;Jo\u017eef Stefan&#8221; in In\u0161titut za novej\u0161o zgodovino) sta sodelovala v projektu &#8220;<a href=\"https:\/\/www.clarin.eu\/content\/parlamint-towards-comparable-parliamentary-corpora\">ParlaMint: Towards Comparable Parliamentary Corpora<\/a>&#8220;, ki ga je 2020-2021 (faza I) in 2022-2023 (faza II) financiral CLARIN ERIC. V prvi fazi projekta smo izdelali primerljive korpuse parlamentarnih razprav 17 evropskih dr\u017eav (tudi Slovenije) v letih 2015-2020, v drugi fazi pa nabor korpusov raz\u0161irili na 29 parlamentov in 2015-2022, poleg tega pa korpuse tudi obogatili npr. s korpusi strojno prevedenimi v angle\u0161\u010dino. Vzorci izdelanih korpusov so dostopni na <a href=\"https:\/\/github.com\/clarin-eric\/ParlaMint\">GitHub<\/a>, celotni korpusi faze II pa na repozitoriju CLARIN.SI, in sicer v treh razli\u010dicah:<\/p>\n<ul>\n<li>Erjavec, Toma\u017e et al., 2023, <i>Multilingual comparable corpora of parliamentary debates ParlaMint 4.0<\/i>, Slovenian language resource repository CLARIN.SI, <a href=\"http:\/\/hdl.handle.net\/11356\/1859\">http:\/\/hdl.handle.net\/11356\/1859<\/a>.<\/li>\n<li>Erjavec, Toma\u017e et al., 2023, <i>Linguistically annotated multilingual comparable corpora of parliamentary debates ParlaMint.ana 4.0<\/i>, Slovenian language resource repository CLARIN.SI, <a href=\"http:\/\/hdl.handle.net\/11356\/1860\">http:\/\/hdl.handle.net\/11356\/1860<\/a>.<\/li>\n<li>Kuzman, Taja et al., 2023, <em>Linguistically annotated multilingual comparable corpora of parliamentary debates in English ParlaMint-en.ana 4.0<\/em>, Slovenian language resource repository CLARIN.SI, <a href=\"http:\/\/hdl.handle.net\/11356\/1864\">http:\/\/hdl.handle.net\/11356\/1864<\/a>.<\/li>\n<\/ul>\n<p>Ozadje, izdelava in opis korpusov faze I so predstavljeni v:<\/p>\n<p>Erjavec, T., Ogrodniczuk, M., Osenova, P. et al. The ParlaMint corpora of parliamentary proceedings. <em>Language Resources &amp; Evaluation<\/em> (2022). <a href=\"https:\/\/doi.org\/10.1007\/s10579-021-09574-0\" rel=\"nofollow\">https:\/\/doi.org\/10.1007\/s10579-021-09574-0<\/a>.<\/p>\n<h3>Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator (SLOKIT)<\/h3>\n<p class=\"v1MsoNormal\">CLARIN.SI (In\u0161titut Jo\u017eef Stefan) je sodeloval v projektu\u00a0<a href=\"https:\/\/slokit.ijs.si\/\" target=\"_blank\" rel=\"noopener noreferrer\">Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator<\/a>, ki ga je v letih 2022-2023 financiralo Ministrstvo za kulturo. Projektni partner je bilo Dru\u0161tvo \u0161tudentov invalidov Slovenije, infrastrukturno podporo pa je omogo\u010dil\u00a0<a href=\"https:\/\/www.cjvt.si\/\" target=\"_blank\" rel=\"noopener noreferrer\">Center za jezikovne vire in tehnologije Univerze v Ljubljani<\/a>.<\/p>\n<p>V okviru projekta so bile izvedene naslednje aktivnosti:<\/p>\n<ul>\n<li>Orodje\u00a0<a href=\"https:\/\/korpusnik.cjvt.si\/\" target=\"_blank\" rel=\"noopener noreferrer\">Korpusnik<\/a>\u00a0za povzemalni prikaz razli\u010dnih korpusnih podatkov<\/li>\n<li class=\"v1MsoListParagraph\">Segmentacija besedil na posamezne \u010dlanke \u010dasopisnih hi\u0161 Delo in Dnevnik v korpusu Gigafida, ter ozna\u010devanje segmentiranih \u010dlankov s tematskimi kategorijami. Rezultati bodo implementirani v naslednjo verzijo korpusa Gigafida, in sicer 2.2.<\/li>\n<li class=\"v1MsoListParagraph\">Nadgradnja podatkov v referen\u010dnem korpusu govorjene sloven\u0161\u010dine Gos, predvsem na ravni ozna\u010denosti in poravnave transkripcij in zvo\u010dnega zapisa. Nova verzija korpusa Gos 2.1 je na voljo v <a href=\"http:\/\/hdl.handle.net\/11356\/1863\">repozitoriju CLARIN.SI<\/a>.<\/li>\n<li class=\"v1MsoListParagraph\">Orodje\u00a0<a href=\"https:\/\/senta.cjvt.si\/\" target=\"_blank\" rel=\"noopener noreferrer\">SENTA<\/a>\u00a0za poenostavljanje in analizo besedil.<\/li>\n<\/ul>\n<p>Posebna pozornost pri izdelavi orodij Korpusnik in SENTA je bila posve\u010dena dostopnosti za uporabnike s posebnimi potrebami.<\/p>\n<h3>Razvoj sloven\u0161\u010dine v digitalnem okolju (RSDO)<\/h3>\n<p>CLARIN.SI sodeluje v projektu &#8220;<a href=\"https:\/\/slovenscina.eu\/\">Razvoj sloven\u0161\u010dine v digitalnem okolju<\/a>&#8220;, ki ga 2020-2022 podpira Ministrstvo za kulturo RS. Cilj projekta je zadovoljiti potrebe po ra\u010dunalni\u0161kih izdelkih in storitvah s podro\u010dja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, za podjetja in \u0161ir\u0161o javnost.<\/p>\n<p>V projektu infrastruktura CLARIN.SI vodi in izvaja Delovni sklop 6 &#8220;<span class=\"field field--name-title field--type-string field--label-hidden\"><a href=\"https:\/\/rsdo.slovenscina.eu\/vzdrzevanje-infrastrukturnega-centra-za-jezikovne-vire-tehnologije\">Vzdr\u017eevanje infrastrukturnega centra za jezikovne vire in tehnologije<\/a>&#8220;, v okviru katerega skrbi za javno dostopnost jezikovnih virov, ki nastajajo v okviru projekta. Pri zapisu virov so upo\u0161tevani mednarodni standardi in dobre prakse, viri pa bodo varno in dolgotrajno arhivirani v repozitoriju CLARIN.SI, izdelani korpusi pa bodo na voljo prek spletnih konkordan\u010dnikov CLARIN.SI.<\/span><\/p>\n<h3>Razvoj RI-SI-CLARIN<\/h3>\n<p>Projekt, s polnim imenom &#8220;Razvoj raziskovalne infrastrukture za mednarodno konkuren\u010dnost slovenskega RRI prostora RI-SI-CLARIN&#8221; se je izvajal v okviru Operativnega programa za izvajanje evropske kohezijske politike v obdobju 2014 -2020, in sicer v letih 2019-2021. Namen projekta je bil omogo\u010diti nabavo raziskovalne opreme raziskovalni infrastrukturi, kar je nilo financirano v vi\u0161ini 477.932,82 EUR z DDV.<\/p>\n<p>V okviru projekta so se izvr\u0161ili naslednji nakupi raziskovalne opreme:<\/p>\n<ul>\n<li>Institut &#8220;Jo\u017eef Stefan&#8221;: 2 gru\u010di visokozmogljivih ra\u010dunalnikov s pripadajo\u010do opremo za namene hitrej\u0161ih in proti okvaram odpornih spletnih storitev CLARIN.SI, predvsem repozitorijske platforme, spletnih konkordan\u010dnikov in storitev za avtomatsko jezikoslovno ozna\u010devanje besedil;<\/li>\n<li>Univerza v Ljubljani: visokozmogljivi stre\u017enik za hranjenje in dostop do jezikovnih virov, katerih skrbnik je infrastrukturni Center za jezikovne vire in tehnologije Univerze v Ljubljani;<\/li>\n<li>Univerza v Mariboru: gru\u010da GPU stre\u017enikov v 2019 in njena obnova v 2021, namenjena raziskavam, ki uporabljajo globoko u\u010denje; visokozmogljivi stre\u017eniki za obdelavo velikih jezikovnih podatkov; ter delo tehnika.<\/li>\n<\/ul>\n<p>Na voljo je <a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2022\/03\/RI-SI-CLARIN_Koncno-porocilo_2021-09.pdf\">kon\u010dno poro\u010dilo projekta<\/a>.<\/p>\n<h3>Slovensko vozli\u0161\u010de RDA<\/h3>\n<p>CLARIN.SI je 2020-2021 sodeloval v vzpostavljanju nacionalnega vozli\u0161\u010da &#8220;<a href=\"https:\/\/www.rd-alliance.org\/groups\/rda-slovenia\/\">RDA Node Slovenia<\/a>&#8220;, ki bo slu\u017eilo kot dolgotrajna centralna kontaktna to\u010dka med <a href=\"https:\/\/www.rd-alliance.org\/\"><em>Research Data Alliance<\/em><\/a> in podatkovnimi raziskovalci, raziskovanimi agencijami, in ostalimi dele\u017eniki v Sloveniji. Vozli\u0161\u010de koordinira <a href=\"https:\/\/www.adp.fdv.uni-lj.si\/\" target=\"_blank\" rel=\"noopener\">Arhiv dru\u017eboslovnih podatkov (ADP<\/a><a href=\"https:\/\/www.adp.fdv.uni-lj.si\/\" target=\"_blank\" rel=\"noopener\">)<\/a>, poleg CLARIN.SI pa v njem sodelujejo tudi raziskovalna infrastruktura za humanistiko <a href=\"http:\/\/www.dariah.si\/en\/\" target=\"_blank\" rel=\"noopener\">DARIAH-SI<\/a> in <a href=\"https:\/\/www.uni-lj.si\/\" target=\"_blank\" rel=\"noopener\">Univerza v Ljubljani<\/a>.<\/p>\n<p>V okviru delovne skupine vozli\u0161\u010da za koordinacijo infrastrukturnih podatkovnih storitev je CLARIN.SI izdelal:<\/p>\n<ul>\n<li>Meden, K., in Erjavec, T. (2021). <i>Pregled Slovenskih repozitorijev raziskovalnih podatkov<\/i>. CLARIN.SI.\u00a0 [<a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2021\/04\/RDA.SI-WG-repozitoriji-v1.1.pdf\">PDF<\/a>] [<a href=\"https:\/\/www.clarin.si\/info\/wp-content\/uploads\/2021\/04\/RDA.SI-WG-repozitoriji-v1.1.docx\">DOCX<\/a>]<\/li>\n<\/ul>\n<hr \/>\n<h2><\/h2>\n<div id=\"themify_builder_content-4001\" data-postid=\"4001\" class=\"themify_builder_content themify_builder_content-4001 themify_builder\">\n    <\/div>\n<!-- \/themify_builder_content -->\n","protected":false},"excerpt":{"rendered":"<p>Projekti, ki jih podpira CLARIN.SI Od leta 2018 dalje CLARIN.SI vsako leto objavi razpis za projekte izdelave ali nadgradnje virov ali storitev, ki pripomorejo k uresni\u010devanju usmeritev infrastrukture CLARIN(.SI), da bodisi obogatijo ponudbo CLARIN ali pa uporabijo infrastrukturo. CLARIN.SI nameni za izvedbo projektov 30.000 EUR letno. Projekti morajo zadostiti pogojem vsakoletnega razpisa, njihovo primernost in, [&hellip;]<\/p>\n","protected":false},"author":11,"featured_media":0,"parent":3818,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-4001","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"_links":{"self":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/4001","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/users\/11"}],"replies":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/comments?post=4001"}],"version-history":[{"count":247,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/4001\/revisions"}],"predecessor-version":[{"id":8840,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/4001\/revisions\/8840"}],"up":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3818"}],"wp:attachment":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/media?parent=4001"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}