Projekti CLARIN.SI

RAZPIS ZA PROJEKTE CLARIN.SI 2020

Objavljen razpis za projekte CLARIN.SI v 2020.

Pomembni datumi:

  1. Rok za oddajo vlog: 1. 6. 2020.
  2. Obvestilo o izboru: 15. 6. 2020.
  3. Zaključek projekta (objavlja rezultatov, oddana poročila, izdani računi): 15. 11. 2020, v nasprotnem primeru sredstev ne bo mogoče nakazati.

Projekte bo ocenila komisija v sestavi: Tomaž Erjavec, Mateja Jemec Tomazin, Simon Krek.

POROČILA O PROJEKTIH CLARIN.SI 2019

CLARIN.SI je v letu 2019 ponovil uspešno spodbudo, začeto v 2018, in objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili znova projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih šest, ki so opisani v nadaljevanju.

Orodje za statistično analizo skladenjsko razčlenjenih korpusov

Prijavitelja: Kaja Dobrovoljc, FF UL, Marko Robnik Šikonja, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu smo razvili računalniški program za statistično analizo skladenjsko razčlenjenih korpusov (orodje STARK), ki omogoča izdelavo frekvenčnih seznamov skladenjskih dreves iz odvisnostnoskladenjsko razčlenjenih korpusov. Uporabnik lahko v konfiguracijski datoteki nastavi več parametrov, s katerimi določa lastnosti izluščenih dreves, kot so število vozlišč v drevesu, tip izpisanih vozlišč (od konkretnih besed do abstraktnejših slovničnih lastnosti) ter (ne)upoštevanje zaključenosti drevesa, relacij med vozlišči in zaporedja besed v besedilu. Poleg tovrstnega induktivnega luščenja dreves brez vnaprejšnjih jezikoslovnih predpostavk orodje omogoča tudi luščenje dreves na podlagi dodatnih restrikcij in vnaprej opisanih drevesnih struktur. Rezultati se izpisujejo v obliki tabelaričnega formata, v katerem so poleg podatkov o strukturi dreves in njegovih vozliščih pripisani še izkorpusni podatki o pogostosti in stopnji statistične povezanosti med vozlišči glede na različne mere povezovalnosti. Orodje kot vhodno datoteko sprejme skladenjsko razčlenjen korpus v standardnem formatu CONLL-U, s čimer je poleg skladenjsko razčlenjenih korpusov v slovenščini, kot sta učni korpus ssj500k in referenčni korpus Gigafida, neposredno uporaben tudi za skladenjske analize več kot 70 drugih svetovnih jezikov, za katere so že na voljo korpusi v omenjenem formatu.

Orodje STARK je orodje ukazne vrstice, ki je pod odprto licenco Apache 2.0 prosto dostopno na https://gitea.cjvt.si/lkrsnik/STARK, za prevzem pa tudi v repozitoriju CLARIN.SI:

  • Krsnik, Luka; Dobrovoljc, Kaja and Robnik-Šikonja, Marko, 2019, Dependency tree extraction tool STARK 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1284.

Vzpostavitev dostopa do historičnih verzij referenčnega korpusa slovenskega jezika Gigafida

 Prijavitelj: Andraž Repar, CJVT
Prejeta sredstva: 1.500 EUR

V spletnih konkordančnikih CLARIN.SI noSketch Engine in KonText je bila na voljo samo najnovejša različica korpusa Gigafida 2.0. Čeprav ta verzija korpusa Gigafida vsebuje tudi besedila iz starejših različic, pa se od njih vendarle razlikuje, saj so bila iz nje odstranjena podvojena in nestandardna besedila, poleg tega pa je bil korpus tudi na novo jezikoslovno označen.

Iz različnih razlogov se občasno pojavlja potreba po dostopu do starejših različic korpusa, na primer za dostop do odstranjenih nestandardnih besedil (še posebej je to lahko pomembno za raziskave na področju zamejske slovenščine, saj so bili odstranjeni viri, kot je glasilo Novi Matajur). Poleg tega se z omogočanjem dostopa do starejših različic zagotavlja ponovljivost že izvedenih raziskav na prejšnjih različicah korpusov.

V okviru projekta je bil v spletnih konkordančnikih noSketch Engine in KonText vzpostavljen dostop do prejšnjih različic korpusa Gigafida, in sicer do korpusov FidaPLUS, Gigafida 1.0 in Gigafida 1.1. V načrtu je bila tudi vzpostavitev dostopa do prve verzije korpusa Gigafida (t. i. korpusa FIDA), za katerega je bil v okviru projekta že sklenjen dogovor z lastnikoma korpusa, tj. s podjetjema Amebis, d.o.o. in DZS, d.d. Vendar do tega žal ni prišlo, ker so bila vsa projektna sredstva namenjena plačilu prenosa avtorskih pravic za korpus FIDA s podjetja DZS, d.d. na Univerzo v Ljubljani, in je zato zmanjkalo sredstev za izvedbo dejanskega prenosa korpusa s fizičnih nosilcev podatkov (CD-jev) v digitalno obliko, primerno za objavo na konkordančnikih.

Prek konkordančnikov noSketch Engine in KonText so sedaj dostopne naslednje različice korpusa Gigafida:

Korpus za odkrivanje koreferenčnosti in analizo sentimenta za posamezno entiteto – SentiCoref 1.0

Prijavitelj: Slavko Žitnik, FRI UL
Prejeta sredstva: 6.000 EUR

V projektu je bil izdelan korpus SentiCoref 1.0, ki vsebuje besedilne entitete z označenim sentimentom. Poleg sentimenta so označeni še koreferenčnost in imenske entitete. Kot imenske entitete so označena osebna imena, organizacije in zemljepisna imena. Za vsako imensko entiteto so v besedilu označene tudi vse povezane koreferenčne omenitve. Korpus omogoča boljšo analizo koreferenčnosti in sentimenta za posamezno entiteto v besedilu.

Podatkovna množica SentiCoref 1.0 vsebuje besedila iz korpusa SentiNews 1.0 (Bučar, 2017), ki sestoji iz 10.427 dokumentov. Vsak izmed dokumentov korpusa SentiNews 1.0 je označen s petstopenjskim sentimentom na nivoju dokumenta, odstavka in posameznega stavka. SentiCoref 1.0 pa vsebuje 837 dokumentov, ki so bili iz korpusa SentiNews 1.0 izbrani na podlagi števila imenskih entitet (avtomatsko označenih z orodjem Polyglot) in vsebujejo od 50 do 73 imenskih entitet.

Korpus SentiCoref 1.0 vsebuje 31.419 imenskih entitet: 15.285 imen organizacij, 8.606 osebnih imen in 7.528 zemljepisnih imen. Vsi dokumenti vsebujejo 14.572 koreferenčnih zaporedij (tj. entitet) in skupaj 438.733 omenitev. Entitete so označene z naslednjimi stopnjami sentimenta: zelo negativno: 30 entitet; negativno: 1.801 entitet; nevtralno: 10.869 entitet; pozitivno: 1.705 entitet; zelo pozitivno: 24 entitet.

Korpus SentiCoref 1.0 in navodila za označevanje so odprto dostopna pod licenco CC BY 4.0 na:

  • Žitnik, Slavko, 2019, Slovene corpus for aspect-based sentiment analysis – SentiCoref 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1285.

Govorni korpus dialoških dejanj GORDAN 1.0

Prijaviteljica: Darinka Verdonika, FERI UM
Prejeta sredstva: 6.000 EUR

V projektu Govorni korpus dialoških dejanj GORDAN 1.0  je bil razvit govorni korpus z dodanimi oznakami za dialoška dejanja. V korpusu smo zajeli uravnotežen vzorec različnih tipov govorjenega diskurza v skupnem obsegu ene ure. Gradiva so bila zajeta po kriterijih javnosti, interaktivnosti, kanala in namere. Izbrana so bila iz drugih obstoječih korpusov/baz: GOS, Gos Videolectures in BERTA.

Pred izbiro in definiranjem sheme za označevanje so bile preizkušene druge obstoječe sheme: MRDA, AMI, ISO 24617-2 in DART. Ocenjevali smo jih glede na to, ali označujejo pragmatični pomen, ali so koherentne ter ali so splošno veljavne in dobro uravnotežene. Pri vsaki shemi smo ugotovili večje pomanjkljivosti, na podlagi katerih smo nato definirali novo shemo GORDAN 1.0 (GOvoRna DejAnja), ki združuje ugotovljene pozitivne lastnosti analiziranih shem in ne vključuje negativnih.

Z izdelano shemo GORDAN 1.0 je bilo izbrano gradivo ročno označeno. Oznake so bile dodane v orodju Transcriber 1.5.1 prek funkcije dodajanja dogodkov v tekst. Označevanje je potekalo večmodalno, ob poslušanju, kjer so na voljo video posnetki, pa tudi ob gledanju posnetkov.

Označeno gradivo je na voljo v repozitoriju CLARIN.SI v dveh vnosih:

  • Zwitter Vitez, Ana; et al., 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (audio/video), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1292: vsebuje izvorno avdio gradivo (in video gradivo, če je na voljo), ki ga je mogoče prevzeti po pogojih izvorne licence, tj. CC BY-NC-ND 4.0;
  • Verdonik, Darinka, 2020, Dialogue act annotated spoken corpus GORDAN 1.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1291: vsebuje označeno tekstovno gradivo in specifikacijo sheme GORDAN 1.0. Vir je na voljo po pogojih licence CC BY 4.0.

Korpus metafor Komet 1.0

Prijaviteljica: Špela Antloga , FERI UM
Prejeta sredstva: 4.000 EUR

Komet (KOrpus METafor) je korpus slovenskih publicističnih, leposlovnih in spletnih besedil v obsegu 200.000 besed, v katerem so ročno označene metaforične besede, torej besede, katerih pomen v danem kontekstu odstopa od njihovega osnovnega pomena. Za označevanje metaforičnih besed je bil uporabljen postopek za identifikacijo metafor MIPVU (Metaphor Identification Procedure Vrije Universiteit) v angleščini, ki je bil nadgrajen in prilagojen specifikam slovenščine. Postopek omogoča sistematično identifikacijo jezikovne metafore, tj. vseh jezikovnih elementov, povezanih s pomenskimi prenosi na osnovi medpodročnih preslikav. Identificirani so bili vsi jezikovni izrazi, ki imajo potencial, da jih ljudje realiziramo kot metafore. Označeni izrazi so dobili eno od štirih oznak: MRWd (direktna metafora), MRWi (implicitna metafora), WIDLI (mejni primer) ali MFlag (metaforični signalizator). Metaforičnim besedam so bili pripisani pomenski okvirji, kar označene izraze uvršča v določeno pomensko področje, ki predstavlja izhodišče pomenskega prenosa. Pomenski okvir omogoča, da lahko znotraj določene pomenske kategorije (npr. čas, prostorska orientacija, premikanje, čustvovanje itd.) poiščemo metaforične izraze, ki so lahko uresničitev določene konceptualne strukture. Korpus metafor omogoča objektivno in sistematično analizo metaforičnih izrazov in metafor v različnih slovenskih besedilih.

Korpus je dostopen pod licenco CC BY-NC-SA 4.0 na:

Postavitev novih pravopisnih pravil na portal Fran

Prijavitelj: ZRC SAZU
Prejeta sredstva: 6.000 EUR

V projektu je bila na portalu Fran začeta javna predstavitev predloga novih pravopisnih pravil in ustreznih slovarskih sestavkov, ki gradivsko dopolnjujejo pravila. Osnutka prvih dveh poglavij pravopisnih pravil uporabnikom omogočata sodelovanje v javni razpravi o ustreznosti predlaganih rešitev ter pri njihovem vsebinskem oblikovanju.

V ta namen je bilo posamezno poglavje novih pravopisnih pravil pretvorjeno iz tekstovnega formata .docx v TEI, pripravljen pa je bil tudi pretvornik. S tem so pravopisna pravila pripravljena za elektronsko okolje v skladu z mednarodnimi priporočili, s čimer je olajšan njihov nadaljnji razvoj in vzdrževanje ter povezljivost in prilagojenost različnim uporabam. Pravila so v zapisu TEI povezana z gesli pravopisnega slovarja (ePravopis).

Sočasno s prenovo posameznih poglavij pravopisnih pravil na Inštitutu za slovenski jezik Frana Ramovša ZRC SAZU nastaja sprotni pravopisni slovar – ePravopis. S povezavo ePravopisa s pravili je narejen korenit korak, s katerim se v spletnem mediju presega raznolikost in hkrati dopolnjuje iste informacije v slovarskem zapisu in v pravilih. Uporabnikom je s povezavo tako ponujen vpogled, ki ga pravila doslej niso omogočala.

Prvi dve poglavji pravopisnih pravil sta dostopni na portalu Fran, v formatu TEI pa bosta pod licenco CC BY-NC 4.0 dostopni v repozitoriju CLARIN.SI, ko bodo na voljo tudi vsa ostala pravopisna poglavja.

POROČILA O PROJEKTIH CLARIN.SI 2018

CLARIN.SI je v letu 2018 prvič objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih sedem, ki so opisani v nadaljevanju.

Nadgradnja digitalne knjižnice eZISS – Elektronske znanstvenokritične izdaje slovenskega slovstva

Prijavitelja: Andrej Pančur, INZ, Matija Ogrin, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Projekt je dopolnil dve zelo kompleksni in obsežni izdaji, ki vključujeta raznolike komponente in realizirata razne tekstnokritične koncepte analize ter prikaza besedil. Poleg tega je razvil znatno izboljšan prikaz elektronske izdaje, njenega notranjega sestava (prepisov, digitalnega faksimila, opomb, kritičnega aparata ter spremnega znanstvenega komentarja) in povezav med komponentami. Prilagojene so bile obstoječe transformacije XSLT iz repozitorija GitHub, ki so bile z namenom dinamičnega prikaza vzporednih mest nadgrajene s transformacijo XSLT 3.0 za SAXON-JS. Transformacije XSLT so dostopne v mapi »Profiles« na povezavah https://github.com/DARIAH-SI/Foglar-pub in https://github.com/DARIAH-SI/Kapelski-pub.

Delo je vsebovalo tudi uredniško delo na obeh izdajah:

  • Kapelski pasijon: Izpopolnjeno je bilo označevanje v zapisu TEI, znanstveni komentar je bil deloma na novo organiziran, vsi prepisi pa so bili povezani s pripadajočimi datotekami digitalnih faksimilov in medsebojnimi sklici.
  • Foglarjev rokopis: Izdelana je bila celotna digitalna izdaja z diplomatičnim in kritičnim prepisom rokopisnega gradiva, vključno z aparatom variantnih mest v več rokopisnih verzijah obravnavanih pesmi. To izdajo je pripravila Nina Ditmajer. Oba prepisa sta povezana z digitalnim faksimilom, njuno označevanje v zapisu TEI pa je bilo prilagojeno za raznolike možnosti prikaza in povezav.

Pomemben motiv in vidik nadgradnje je uporabnost izdelanega postopka za nadaljnje elektronske edicije knjižnice eZISS v okviru infrastrukture DARIAH-SI. Ta naj bi namreč v prihodnosti vzpostavila digitalno knjižnico, osnovano na zapisu TEI, v kateri bi bilo mogoče predstaviti kompleksne digitalne izdaje, kot sta Kapelski pasijon in Foglarjev rokopis, povezana pa naj bi bila tudi s storitvami za analizo korpusov v infrastrukturi CLARIN.SI.

Kapelski pasijon je dostopen na:

Foglarjev rokopis je dostopen na:

Korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990–2018

Prijavitelj: Andrej Pančur, INZ
Prejeta sredstva: 3.000 EUR

V projektu je bil oblikovan korpus siParl, ki vsebuje vse parlamentarne razprave Državnega zbora Republike Slovenije od 1990 do 2018 (do zaključenega 7. mandata) in razprave v delovnih telesih državnega zbora od leta 1996, kar je skupno skoraj 230 milijonov pojavnic. Parlamentarne razprave iz obdobja 1990–1992 smo prenesli iz obstoječega korpusa SlovParl 2.0, vse ostale razprave pa so bile označene na novo. Označevanje je potekalo v modulu TEI za dramska besedila, ki je bil nato pretvorjen v modul TEI za transkribiranje govorov. Korpus vsebuje podatke o vseh govorih in govornikih, neverbalno vsebino zapisnikov sej in ustrezne metapodatke. Vsebina govorov je bila tudi jezikoslovno označena, in sicer tokenizirana, oblikoskladenjsko označena in lematizirana.

Korpus siParl je na voljo prek konkordančnikov, za prevzem pa pod licenco CC BY na:

  • Pančur, Andrej; Erjavec, Tomaž; Ojsteršek, Mihael; Šorn, Mojca and Blaj Hribar, Neja, 2019, Slovenian parliamentary corpus siParl 1.0 (1990-2018), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1236.

Naglaševanje leksikona Sloleks

Prijaviteljica: Špela Arhar Holdt, CJVT UL
Prejeta sredstva: 5.000 EUR

V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ročno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoječi vmesnik leksikona, ki zdaj omogoča množičenje naglasnih podatkov. Projekt se je osredotočil na leme z nepremičnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoječih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogoče potrditi s predvideno 75-odstotno natančnostjo. Ročno je bilo pregledanih 24 % leksikona, od tega večina z množičenjem. Z avtomatskimi in ročnimi spremembami je bil v projektu popravljen 21,7-odstotni delež avtomatsko naglašene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri občnoimenskem pa primeri s premičnim naglasnim tipom in naglasno variantnostjo.

V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabniškega vmesnika: (a) aplicirana je bila grafična podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogočajo jezikovni skupnosti sodelovanje pri nadaljnjem čiščenju oz. dopolnjevanju naglasnih podatkov (pozitivno/negativno ocenjevanje avtomatsko pripisanih naglasov in fonetičnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki še potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je možnost, da uporabniki sami snemajo posnetke izgovora.

Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:

Izdelava seznamov besed in n-gramov za različne ravni šolanja in različne predmete

Prijavitelj: Iztok Kosem, FF UL
Prejeta sredstva: 4.000 EUR

V projektu je bil formiran korpus učbenikov za osnovne in srednje šole, iz njega pa so bili izluščeni seznami besed, n-gramov in ključnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno označeno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 učbenikov za 16 predmetov. V drugem koraku je bilo izvedeno luščenje, pri čemer je bilo upoštevanih več kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ročno. Končni rezultat so sledeči seznami:

  • Seznam splošnih besed, ki se pojavljajo v vsaj 8 od 16 šolskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in številu predmetov.
  • Seznam splošnih besed po nivoju šolanja (razred/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni šolanja) in številu predmetov (od skupno 16).
  • Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in številu predmetov (od skupno 16), v katerih se pojavlja n-gram.

Seznami so dostopni pod licenco CC BY na:

  • Kosem, Iztok; Pori, Eva and Arhar Holdt, Špela, 2019, Keywords and n-grams from a textbook corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1215.

Orodje za učinkovito analizo slovenskih korpusov

Prijavitelja: Marko Robnik Šikonja, Špela Arhar Holdt, UL FRI
Prejeta sredstva: 4.000 EUR

V projektu je bil razvit pregleden in razumljiv uporabniški vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogoča prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za več formatov zapisa in preizkušeno na večjih slovenskih in tujih korpusih.

Izpisom so bili dodani metapodatki, ki omogočajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prikažejo ob preletu z miško. Dodana je bila možnost izračuna in izpisa različnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izluščene besedne nize. Poleg tega je bil dodan izračun ocene obdelovalnega časa. Pri nastavitvah, ki lahko močno vplivajo na obdelovalni čas, so bila dodana opozorila. Dodana je bila tudi možnost preklapljanja med slovensko in angleško različico poimenovanj in možnost obdelave nelatiničnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novejših korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.

Program LIST je dostopen pod odprto licenco Apache2 na:

Gos Videolectures II

Prijavitelja: Darinka Verdonik, Andrej Žgank, UM FERI
Prejeta sredstva: 6.000 EUR

V projektu je bilo obstoječe gradivo baze Gos Videolectures razširjeno z ročno izdelanimi transkripcijami v obsegu 8 ur, ki vsebujejo pogovorni in standardizirani zapis z ročno segmentacijo na izjave in z oznakami opaznejših akustičnih dogodkov. V gradivo so vključeni izbrani novejši posnetki s portala Videolectures.net, ki so uravnoteženi glede na vsebinsko področje ter glede na osnovne lastnosti govorcev (spol, starost). Transkripcije baze Gos Videolectures so bile poleg tega avtomatsko poravnane z govornim signalom na nivoju besed in na skrčenem seznamu osnovnih fonemov za slovenščino. Za izvedbo obeh vrst avtomatske segmentacije je bila uporabljena prilagojena različica avtomatskega razpoznavalnika tekočega slovenskega govora UMB Broadcast News, ki je bil razvit na UM FERI.

Kot pri prejšnjih različicah baze Gos Videolectures je bila tudi ta sedaj pretvorjena iz izvornega zapisa Transcriber XML in dodanih metapodatkovnih datotek v zapis TEI (modul za govorjene korpuse), ki vključuje seznam govorcev z metapodatki, metapodatke o govorih (predavanjih), poravnavo izjav in stavkov z govornim signalom, kodiranje opaznejših akustičnih dogodkov in združene besede pogovornega in standardiziranega zapisa. Standardizirane besede so bile dodatno avtomatsko oblikoskladenjsko označene in lematizirane. Konverzija je tudi služila za validacijo izvornih datotek, s katero smo odkrili večje število napak in jih tudi popravili. Iz dokumenta TEI je bila generirana vertikalna datoteka, primerna za uvoz v konkordančnike infrastrukture CLARIN.SI. Pri tem so bili posnetki razdeljeni na posamezne izjave in stavke ter pretvorjeni v format MP3, kazalci na te posnetke pa dodani v vertikalno datoteko, kar omogoča poslušanje posnetkov tudi prek konkordančnikov.

Korpus projekta je dostopen prek konkordančnikov CLARIN.SI in za prevzem na:

  • VideoLectures.NET, 2019, Spoken corpus Gos VideoLectures 4.0 (audio), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1222.
  • Verdonik, Darinka; et al., 2019, Spoken corpus Gos VideoLectures 4.0 (transcription), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1223.

Multimedijska digitalna narečna podatkovna baza slovarja oblačilnega izrazja ziljskega govora Kanalske doline (Val Canale – Kanaltal – Valcjanâl)

Prijaviteljica: Karmen Kenda-Jež, ZRC SAZU
Prejeta sredstva: 4.000 EUR

Multimedijska digitalna narečna podatkovna zbirka za Slovar oblačilnega izrazja ziljskega govora v Kanalski dolini, ki je objavljen na portalu FRAN, je nastala iz gradivske zbirke, na podlagi katere sta bili prej že narejeni dve knjižni izdaji slovarja. Prenos v digitalno okolje ni pomenil samo oblikovne prilagoditve novemu mediju (npr. način prikaza slovarskih podatkov, odpravo kratic ali poenotenje slovničnih oznak), ampak tudi vrsto mikrostrukturnih sprememb, ki sta jih povzročili vsebinska osamosvojitev spletnega slovarskega gesla in vzpostavitev neposredne povezave z zbirko zvočnih izsečkov. Končna podoba spletnega slovarja je zato precej oddaljena od svoje knjižne predloge.

Slovar, ki obsega 594 iztočnic, je bil iz formata programa Word pretvorjen v slovarsko podatkovno zbirko v formatu XML, pri tem pa so bile vzpostavljene znotraj- in zunajslovarske povezave. Prvotna zbirka zvočnih izsečkov je bila pregledana, izločeni so bili izsečki slabše kakovosti (npr. tisti s pretežno prekrivnim govorom). Če je bilo mogoče, je bilo dopolnilno zvočno gradivo pridobljeno s ponovno analizo zvočnih posnetkov. Zvočni izsečki so bili povezani z iztočnicami in s slovarskimi zgledi.

Podatkovna zbirka je bila nato dopolnjena z izbranimi fotografijami iz arhiva etnografskih raziskav oblačilne kulture, posamezna gesla pa so bila povezana še z etnografsko spletno zbirko projekta Glasovi Kanalske doline: Zborzbirk (Kulturna dediščina v zbirkah med Alpami in Krasom).  S portala Fran je mogoče dostopati tudi do dosedanjih razprav o ziljskem govoru Kanalske doline (Ovčja vas in njena slovenska govorica, 2005; Lipalja vas in njena slovenska govorica, 2016), za katere je bil v okviru tega projekta zagotovljen prosti dostop.

Podatkovna zbirka je dostopna na:

  • Kenda-Jež, Karmen; Perdih, Andrej and Race, Duša, 2019, The Dictionary of the Clothing Terminology of the Zilja Local Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1217.
  • Gliha Komac, Nataša; Kandutsch, Elisa; Bartaloth, Rudi and Smole, Matevž, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): photographs, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1221.
  • Kenda-Jež, Karmen, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): audio, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1220.