Projekti CLARIN.SI

Poročila o projektih CLARIN.SI 2018

Uvod

CLARIN.SI je v letu 2018 prvič objavil projektni razpis za člane svojega konzorcija. Predmet razpisa so bili projekti izdelave ali nadgradnje virov in storitev, ki pripomorejo k uresničevanju usmeritev infrastrukture CLARIN.SI, pri čemer je bilo za izvedbo projektov namenjenih 30.000 EUR. Od prijavljenih projektov je bilo izbranih sedem, ki so opisani v nadaljevanju.

Nadgradnja digitalne knjižnice eZISS – Elektronske znanstvenokritične izdaje slovenskega slovstva

Prijavitelja: Andrej Pančur, INZ, Matija Ogrin, ZRC SAZU

Prejeta sredstva: 4.000 EUR

Projekt je dopolnil dve zelo kompleksni in obsežni izdaji, ki vključujeta raznolike komponente in realizirata razne tekstnokritične koncepte analize ter prikaza besedil. Poleg tega je razvil znatno izboljšan prikaz elektronske izdaje, njenega notranjega sestava (prepisov, digitalnega faksimila, opomb, kritičnega aparata ter spremnega znanstvenega komentarja) in povezav med komponentami. Prilagojene so bile obstoječe transformacije XSLT iz repozitorija GitHub (https://github.com/SIstory/Stylesheets), ki so bile z namenom dinamičnega prikaza vzporednih mest nadgrajene s transformacijo XSLT 3.0 za SAXON-JS. Transformacije XSLT so dostopne v mapi »Profiles« na povezavah https://github.com/DARIAH-SI/Foglar-pub in https://github.com/DARIAH-SI/Kapelski-pub.

Delo je vsebovalo tudi uredniško delo na obeh izdajah:

  • Kapelski pasijon: Izpopolnjeno je bilo označevanje v zapisu TEI, znanstveni komentar je bil deloma na novo organiziran, vsi prepisi pa so bili povezani s pripadajočimi datotekami digitalnih faksimilov in medsebojnimi sklici.
  • Foglarjev rokopis: Izdelana je bila celotna digitalna izdaja z diplomatičnim in kritičnim prepisom rokopisnega gradiva, vključno z aparatom variantnih mest v več rokopisnih verzijah obravnavanih pesmi. To izdajo je pripravila Nina Ditmajer. Oba prepisa sta povezana z digitalnim faksimilom, njuno označevanje v zapisu TEI pa je bilo prilagojeno za raznolike možnosti prikaza in povezav.

Pomemben motiv in vidik nadgradnje je uporabnost izdelanega postopka za nadaljnje elektronske edicije knjižnice eZISS v okviru infrastrukture DARIAH-SI. Ta naj bi namreč v prihodnosti vzpostavila digitalno knjižnico, osnovano na zapisu TEI, v kateri bi bilo mogoče predstaviti kompleksne digitalne izdaje, kot sta Kapelski pasijon in Foglarjev rokopis, povezana pa naj bi bila tudi s storitvami za analizo korpusov v infrastrukturi CLARIN.SI.

Kapelski pasijon je dostopen na:

Foglarjev rokopis je dostopen na:

Korpus parlamentarnih razprav Državnega zbora Republike Slovenije 1990–2018

Prijavitelj: Andrej Pančur, INZ

Prejeta sredstva: 3.000 EUR

V projektu je bil oblikovan korpus siParl, ki vsebuje vse parlamentarne razprave Državnega zbora Republike Slovenije od 1990 do 2018 (do zaključenega 7. mandata) in razprave v delovnih telesih državnega zbora od leta 1996, kar je skupno skoraj 230 milijonov pojavnic. Parlamentarne razprave iz obdobja 1990–1992 smo prenesli iz obstoječega korpusa SlovParl 2.0, vse ostale razprave pa so bile označene na novo. Označevanje je potekalo v modulu TEI za dramska besedila, ki je bil nato pretvorjen v modul TEI za transkribiranje govorov. Korpus vsebuje podatke o vseh govorih in govornikih, neverbalno vsebino zapisnikov sej in ustrezne metapodatke. Vsebina govorov je bila tudi jezikoslovno označena, in sicer tokenizirana, oblikoskladenjsko označena in lematizirana.

Korpus siParl je na voljo prek konkordančnikov, za prevzem pa pod licenco CC BY na:

  • Pančur, Andrej; Erjavec, Tomaž; Ojsteršek, Mihael; Šorn, Mojca and Blaj Hribar, Neja, 2019, Slovenian parliamentary corpus siParl 1.0 (1990-2018), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1236.

Naglaševanje leksikona Sloleks

Prijavitelj: Špela Arhar Holdt, CJVT UL

Prejeta sredstva: 5.000 EUR

V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ročno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoječi vmesnik leksikona, ki zdaj omogoča množičenje naglasnih podatkov. Projekt se je osredotočil na leme z nepremičnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoječih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogoče potrditi s predvideno 75-odstotno natančnostjo. Ročno je bilo pregledanih 24 % leksikona, od tega večina z množičenjem. Z avtomatskimi in ročnimi spremembami je bil v projektu popravljen 21,7-odstotni delež avtomatsko naglašene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri občnoimenskem pa primeri s premičnim naglasnim tipom in naglasno variantnostjo.

V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabniškega vmesnika: (a) aplicirana je bila grafična podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogočajo jezikovni skupnosti sodelovanje pri nadaljnjem čiščenju oz. dopolnjevanju naglasnih podatkov (pozitivno/negativno ocenjevanje avtomatsko pripisanih naglasov in fonetičnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki še potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je možnost, da uporabniki sami snemajo posnetke izgovora.

Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:

Izdelava seznamov besed in n-gramov za različne ravni šolanja in različne predmete

Prijavitelj: Iztok Kosem, FF UL

Prejeta sredstva: 4.000 EUR

V projektu je bil formiran korpus učbenikov za osnovne in srednje šole, iz njega pa so bili izluščeni seznami besed, n-gramov in ključnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno označeno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 učbenikov za 16 predmetov. V drugem koraku je bilo izvedeno luščenje, pri čemer je bilo upoštevanih več kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ročno. Končni rezultat so sledeči seznami:

  • Seznam splošnih besed, ki se pojavljajo v vsaj 8 od 16 šolskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in številu predmetov.
  • Seznam splošnih besed po nivoju šolanja (razred/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni šolanja) in številu predmetov (od skupno 16).
  • Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in številu predmetov (od skupno 16), v katerih se pojavlja n-gram.

Seznami so dostopni pod licenco CC BY na:

  • Kosem, Iztok; Pori, Eva and Arhar Holdt, Špela, 2019, Keywords and n-grams from a textbook corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1215.

Orodje za učinkovito analizo slovenskih korpusov

Prijavitelj: Marko Robnik Šikonja, Špela Arhar Holdt, UL FRI

Prejeta sredstva: 4.000 EUR

V projektu je bil razvit pregleden in razumljiv uporabniški vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogoča prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za več formatov zapisa in preizkušeno na večjih slovenskih in tujih korpusih.

Izpisom so bili dodani metapodatki, ki omogočajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prikažejo ob preletu z miško. Dodana je bila možnost izračuna in izpisa različnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izluščene besedne nize. Poleg tega je bil dodan izračun ocene obdelovalnega časa. Pri nastavitvah, ki lahko močno vplivajo na obdelovalni čas, so bila dodana opozorila. Dodana je bila tudi možnost preklapljanja med slovensko in angleško različico poimenovanj in možnost obdelave nelatiničnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novejših korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.

Program LIST je dostopen pod odprto licenco Apache2 na:

Gos Videolectures II

Prijavitelj: Darinka Verdonik, Andrej Žgank, UM FERI

Prejeta sredstva: 6.000 EUR

V projektu je bilo obstoječe gradivo baze Gos Videolectures razširjeno z ročno izdelanimi transkripcijami v obsegu 8 ur, ki vsebujejo pogovorni in standardizirani zapis z ročno segmentacijo na izjave in z oznakami opaznejših akustičnih dogodkov. V gradivo so vključeni izbrani novejši posnetki s portala Videolectures.net, ki so uravnoteženi glede na vsebinsko področje ter glede na osnovne lastnosti govorcev (spol, starost). Transkripcije baze Gos Videolectures so bile poleg tega avtomatsko poravnane z govornim signalom na nivoju besed in na skrčenem seznamu osnovnih fonemov za slovenščino. Za izvedbo obeh vrst avtomatske segmentacije je bila uporabljena prilagojena različica avtomatskega razpoznavalnika tekočega slovenskega govora UMB Broadcast News, ki je bil razvit na UM FERI.

Kot pri prejšnjih različicah baze Gos Videolectures je bila tudi ta sedaj pretvorjena iz izvornega zapisa Transcriber XML in dodanih metapodatkovnih datotek v zapis TEI (modul za govorjene korpuse), ki vključuje seznam govorcev z metapodatki, metapodatke o govorih (predavanjih), poravnavo izjav in stavkov z govornim signalom, kodiranje opaznejših akustičnih dogodkov in združene besede pogovornega in standardiziranega zapisa. Standardizirane besede so bile dodatno avtomatsko oblikoskladenjsko označene in lematizirane. Konverzija je tudi služila za validacijo izvornih datotek, s katero smo odkrili večje število napak in jih tudi popravili. Iz dokumenta TEI je bila generirana vertikalna datoteka, primerna za uvoz v konkordančnike infrastrukture CLARIN.SI. Pri tem so bili posnetki razdeljeni na posamezne izjave in stavke ter pretvorjeni v format MP3, kazalci na te posnetke pa dodani v vertikalno datoteko, kar omogoča poslušanje posnetkov tudi prek konkordančnikov.

Korpus projekta je dostopen prek konkordančnikov CLARIN.SI in za prevzem na:

Multimedijska digitalna narečna podatkovna baza slovarja oblačilnega izrazja ziljskega govora Kanalske doline (Val Canale – Kanaltal – Valcjanâl)

Prijavitelj: Karmen Kenda-Jež, ZRC SAZU

Prejeta sredstva: 4.000 EUR

Multimedijska digitalna narečna podatkovna zbirka za Slovar oblačilnega izrazja ziljskega govora v Kanalski dolini, ki je objavljen na portalu FRAN, je nastala iz gradivske zbirke, na podlagi katere sta bili prej že narejeni dve knjižni izdaji slovarja. Prenos v digitalno okolje ni pomenil samo oblikovne prilagoditve novemu mediju (npr. način prikaza slovarskih podatkov, odpravo kratic ali poenotenje slovničnih oznak), ampak tudi vrsto mikrostrukturnih sprememb, ki sta jih povzročili vsebinska osamosvojitev spletnega slovarskega gesla in vzpostavitev neposredne povezave z zbirko zvočnih izsečkov. Končna podoba spletnega slovarja je zato precej oddaljena od svoje knjižne predloge.

Slovar, ki obsega 594 iztočnic, je bil iz formata programa Word pretvorjen v slovarsko podatkovno zbirko v formatu XML, pri tem pa so bile vzpostavljene znotraj- in zunajslovarske povezave. Prvotna zbirka zvočnih izsečkov je bila pregledana, izločeni so bili izsečki slabše kakovosti (npr. tisti s pretežno prekrivnim govorom). Če je bilo mogoče, je bilo dopolnilno zvočno gradivo pridobljeno s ponovno analizo zvočnih posnetkov. Zvočni izsečki so bili povezani z iztočnicami in s slovarskimi zgledi.

Podatkovna zbirka je bila nato dopolnjena z izbranimi fotografijami iz arhiva etnografskih raziskav oblačilne kulture, posamezna gesla pa so bila povezana še z etnografsko spletno zbirko projekta Glasovi Kanalske doline: Zborzbirk (Kulturna dediščina v zbirkah med Alpami in Krasom).  S portala Fran je mogoče dostopati tudi do dosedanjih razprav o ziljskem govoru Kanalske doline (Ovčja vas in njena slovenska govorica, 2005; Lipalja vas in njena slovenska govorica, 2016), za katere je bil v okviru tega projekta zagotovljen prosti dostop.

Podatkovna zbirka je dostopna na:

  • Kenda-Jež, Karmen; Perdih, Andrej and Race, Duša, 2019, The Dictionary of the Clothing Terminology of the Zilja Local Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl), Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1217.
  • Gliha Komac, Nataša; Kandutsch, Elisa; Bartaloth, Rudi and Smole, Matevž, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): photographs, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1221.
  • Kenda-Jež, Karmen, 2019, The Dictionary of the Clothing Terminology of the Zilja Dialect of Canale Valley (Kanalska dolina – Val Canale – Kanaltal – Valcjanâl): audio, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1220.