Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije

Partnerji CLARIN.SI

Alpineon, d.o.o.

Razvoj strojne in programske opreme s področja jezikovnih in govornih tehnologij: prepoznava in sinteza govora, strojno prevajanje govora, govorni portali, bralniki SMS sporočil ter elektronske pošte.

Zastopnica: Jerneja Žganec Gros
Namestnik: Boštjan Vesnicer

Amebis, d.o.o.

Podjetje Amebis je bilo ustanovljeno leta 1991 za razvoj in izdelavo programske opreme s področja jezikovnih tehnologij in elektronskega založništva. Cilj podjetja je ustvarjanje tako jedrnih tehnologij (modulov) kot proizvodov za široko rabo.

Glavna področja delovanja so:

  • Korpusi: gradnja besedilnih in govornih korpusov ter izdelava konkordančnikov (npr. Gigafida, Gos).
  • Jezikovne obdelave: različni jezikovni moduli za slovenščino in nekatere druge jezike, ki so na voljo kot vtičniki za različne programske pakete (MS Office, Lotus Notes, SAS itd.): črkovalniki, delilniki, lematizatorji, generatorji besednih oblik, slovnični pregledovalniki.
  • Strojno prevajanje: razvoj programa Presis, na pravilih temelječega sistema za strojno prevajanje za slovenščino, ki je tudi del sistema iTranslate4.
  • Sinteza govora: sintetizator govora Govorec (razvit skupaj z IJS) in visokokvalitetni sintetizator govora eBralec (razvit skupaj z Alpineonom in IJS) za slovenski jezik.
  • Sistemi dialoga: platforma SecondEgo, namenjena ustvarjanju in delu z virtualnimi asistenti (boti), ki poenostavljajo komunikacijo s končnimi uporabniki v različnih naravnih jezikih.
  • Elektronski slovarji: priprava več kot 160 elektronskih in 80 knjižnih slovarjev, pa tudi slovarskih portalov, med katerimi sta najbolj znana Termania and Fran.

Amebis je bil tudi partner v nekaj projektih EU in je eden ustanovnih članov CLARIN.SI.

Zastopnik: Miro Romih
Namestnik: Peter Holozan

Društvo za domače raziskave

Društvo so leta 2004 ustanovili umetnika Damijan Kracina in Alenka Pirman ter umetnostni zgodovinar Jani Pirnat. Člani društva aktivno delujejo na področjih sodobne umetnosti in kulturne dediščine od leta 1991. Društvo beleži, zbira, raziskuje in predstavlja domače pojave. Njegovo delovanje sega na kulturno, umetniško, znanstveno, izobraževalno in raziskovalno področje. Med letoma 2005 in 2010 je društvo svoje raziskave predstavljalo v Kabinetu, odmaknjenem razstavišču, ki je gostovalo v dvoriščnem prostoru Galerije Škuc v Ljubljani. Odtlej člani stremijo k interdisciplinarnemu sodelovanju s strokovnjaki in institucijami, ki omogoča razvoj inovativnih pristopov k obravnavanju in predstavljanju zadanih tem. Pri tem veliko pozornost posvečajo povezovanju sodobne umetnosti in kulturne dediščine, širjenju občinstva in komuniciranju s širšo javnostjo. Prva večja tovrstna projekta sta bili raziskava in razstava Dobesedno brez besed v Mestni galeriji Ljubljana leta 2010 ter mednarodni projekt Trda dejstva (2012-13). Od 2016 do 2019 se društvo posveča raziskavi Odlivanje smrti, ki na primeru posmrtnih mask prevprašuje vlogo umetnika pri posredovanju sporne kulturne dediščine. Raziskava je vključena v evropski projekt TRACES, ki ga financira Evropska komisija (Horizon 2020). Stalnica in trajna uspešnica društva ostaja projekt Razvezani jezik, skupnostni spletni slovar žive slovenščine, ki je postal nespregledljiv tudi v strokovnih krogih, vendar že od leta 2004 navdušuje predvsem najširšo javnost.

Zastopnica: Alenka Pirman
Namestnik: Jani Pirnat

Institut “Jožef Stefan”

Institut “Jožef Stefan” (IJS) je vodilna slovenska raziskovalna ustanova na področju bazičnih in aplikativnih raziskav v naravoslovju in tehnologiji. Na IJS so v razvoj in vzdrževanje infrastrukture za CLARIN.SI vključene tri organizacijske enote:

  • Odsek za tehnologije znanja izvaja raziskave naprednih informacijskih tehnologij. Uveljavljena področja dela vključujejo inteligentno podatkovno analitiko, tekstovno in spletno rudarjenje, jezikovne tehnologije in računalniško jezikoslovje, podporo odločanju ter upravljanje znanja. Na področju jezikovnih tehnologij je odsek eden izmed vodilnih (in najstarejših) slovenskih centrov za razvoj jezikovnih virov in orodij za jezikoslovno označevanje, še posebno v povezavi s standardizacijo kodiranja besedil in jezikovnih formalizmov ter odprtim dostopom do jezikovnih virov. Odsek je tudi ena prvih ustanov, ki je v Sloveniji začela razvijati in promovirati digitalno humanistiko.  
  • Področje dela Laboratorija za umetno inteligenco so informacijske tehnologije s poudarkom na tehnologijah umetne inteligence. Najpomembnejša področja raziskav in razvoja so: (a) analiza podatkov s poudarkom na tekstovnih, spletnih, večpredstavnih in dinamičnih podatkih, (b) tehnike za analizo velikih količin podatkov v realnem času, (c) vizualizacija kompleksnih podatkov, (d) semantične tehnologije in (e) jezikovne tehnologije. Na ravni Evropske unije laboratorij deluje kot partner v številnih projektih na področju analitike in obdelave besedil. Pokriva predvsem izdelavo tehnologij za luščenje znanja iz besedil in za strojno prevajanje. Poseben poudarek daje tudi promociji znanosti. V sodelovanju s Centrom za prenos znanja na področju informacijskih tehnologij (CT3) vzdržuje večkrat nagrajeni izobraževalni portal NET in prireja državno tekmovanje v znanju računalništva, ki je del krovnega tekmovanja združenja ACM.
  • Center za mrežno infrastrukturo upravlja infrastrukturo omrežij in strojne opreme na IJS. Dejaven je predvsem na področju avtentikacije zaupanja vrednih virov, med drugim vzdržuje storitev IdP na IJS in aktivno sodeluje pri mreži EduGain ter drugih tovrstnih prizadevanjih na ravni EU.

IJS je gostitelj raziskovalne infrastrukture CLARIN.SI. Koordinira delo infrastrukture, rzdržuje in nadgrajuje njen repozitorij in storitve, razvija jezikovne vire in orodja itd.

Zastopnik: Tomaž Erjavec (nacionalni koordinator)
Namestniki: Simon Krek,  Jan Jona Javoršek, Nikola Ljubešić

Inštitut za novejšo zgodovino

Inštitut za novejšo zgodovino (INZ) je osrednja nacionalna ustanova za zgodovinopisne raziskave obdobja od 19. stoletja do danes. Inštitut je ena najpomembnejših ustanov na področju digitalne humanistike v Sloveniji in je nacionalna koordinacijska ustanova DARIAH-SI, članice infrastrukturnega konzorcija DARIAH-ERIC.

Eden od treh raziskovalnih programov Inštituta je Raziskovalna infrastruktura slovenskega zgodovinopisja, ki vzdržuje portal Zgodovina Slovenije – SIstory. Raziskovalna infrastruktura izvaja digitalizacijo zgodovinsko pomembnega gradiva in upravlja izvorno digitalne vsebine. Druga naloga je spletno objavljanje literature in virov za zgodovinopisne raziskave, ne glede na njihovo obliko ali formate, s čimer se ne omejuje samo na besedilne vire. Ker tekstovne datoteke predstavljajo večino njihovega digitalnega arhivskega gradiva, se osredotočajo na napredno označevanje besedil v skladu s Smernicami TEI in uporabo ustreznih XML tehnologij. Na ta način nastajajo obsežni besedilni korpusi, ki temeljijo predvsem na stenografskih zapisih različnih slovenskih zakonodajnih teles.

INZ je bil eden izmed ustanovnih članov CLARIN.SI in prispeva k CLARIN predvsem s tem, da omogoča dostop do svojih velikih in bogato kodiranih zbirk besedil iz novejših slovenskih historičnih virov ter kot primarna zveza z DARIAH(-SI).

Zastopnik: Andrej Pančur
Namestnika: Mojca Šorn, Jurij Hadalin

Slovensko društvo za jezikovne tehnologije

Slovensko društvo za jezikovne tehnologije (SJDT) je bilo ustanovljeno leta 1998 in združuje okrog 120 strokovnjakov, ki uporabljajo jezikovne tehnologije kot znanstveniki, pedagogi ali splošni uporabniki. Dejavnosti SDJT-ja so usmerjene v promocijo razvoja jezikovnih tehnologij za slovenski jezik. Leta 2011 je društvo prejelo poseben status raziskovalne ustanove, katere delovanje je v javnem interesu. 

Glavni dejavnosti SDJT-ja sta serija rednih mesečnih jezikovnotehnoloških predavanj JOTA in organizacija konference Jezikovne tehnologije, ki poteka vsako drugo leto. Društvo (so)prireja tudi izobraževalne dogodke, kot so poletna šola “ESSLLI Summer School on Language, Logic and Information”, poletna šola TransTech o prevajalskih tehnologijah ter seminarji za osnovnošolske in srednješolske učitelje na temo uporabe korpusov in spletnih jezikovnih virov za slovenščino. 

SDJT je ustanovitveni član konzorcija CLARIN.SI in prispeva k ciljem evropskega združenja za jezikovne vire in tehnologije CLARIN predvsem z dejavnostmi, namenjenimi uporabnikom, tj. s seminarji, delavnicami in organizacijo konferenc. 

Zastopnica: Darja Fišer
Namestnica:  Kaja Dobrovoljc

Trojina, zavod za uporabno slovenistiko

Zavod za uporabno jezikoslovje Trojina je zasebni neprofitni raziskovalni zavod, ustanovljen leta 2004. Združuje strokovnjake slovenistike, leksikografije, korpusnega jezikoslovja, jezikovnih tehnologij, učenja jezika in prevajalstva. Zavod Trojina je ena vodilnih slovenskih ustanov na področju uporabnega jezikoslovja in razvoja didaktičnih jezikovnih tehnologij. V sodelovanju z drugimi slovenskimi ustanovami razvija številne korpuse in korpusna orodja, ki jih uporabljajo raziskovalci, učitelji slovenščine in njihovi učenci, sodelavci zavoda pa izvajajo tudi številne nacionalno pomembne korpusne raziskave.

Zavod je bil vodilni partner dveh visoko inovativnih in uporabnih raziskovalnih projektov, in sicer izdelave korpusa Šolar in vsebinsko povezane izdelave Pedagoškega slovničnega portala. Glavni cilj projektov je bila priprava metodologije za izdelavo korpusno osnovanih učnih gradiv, ki izhajajo iz analize pisne produkcije učencev in dijakov. Poleg razvijanja jezikovnih virov in orodij sodelavci Zavoda Trojina redno sodelujejo pri projektih za promocijo jezikovnih tehnologij med različnimi tipi uporabnikov, od učiteljev do raziskovalcev. V okviru projekta Jezikovnotehnološko izobraževanje učiteljev (2012-2014) smo pod vodstvom Slovenskega društva za jezikovne tehnologije npr. v osnovnih in srednjih šolah po celi Sloveniji izvedli delavnice o jezikovnih virih in tehnologijah za slovenščino. V letih 2014-2015 smo izdelali Portal jezikovnih virov, ki laični publiki predstavlja jezikovne vire in orodja za slovenščino s pomočjo predstavitvenih videoposnetkov, ki so opremljeni tudi s slovenskimi in angleškimi podnapisi. Portal je bil na začetku leta 2017 predstavljen kot primer dobre prakse na strani CLARIN.eu.

Od leta 2015 na Zavodu Trojina deluje Center za uporabno jezikoslovje, ki je financiran kot infrastrukturni program ARRS. Center je posvečen uporabnim raziskavam in jezikovnotehnološki podpori raziskovalcem in raziskovalnim programom, ki se ukvarjajo z jezikoslovnimi, humanističnimi in sociološkimi raziskavami, zlasti tistimi, povezanimi s problematiko pismenosti.

Trojina je ustanovni član konzorcija CLARIN.SI in prispeva k uresničevanju ciljev infrastrukture CLARIN s svetovalno in podporno dejavnostjo, pa tudi z izdelavo jezikovnih virov in orodij.

Zastopnik: Iztok Kosem

Univerza v Ljubljani

Univerza v Ljubljani je največja in najstarejša slovenska univerza. Delo na področju korpusnega jezikoslovja in jezikovnih tehnologij koordinira Center za jezikovne vire in tehnologije (CJVT UL). Center je je enota Univerze v Ljubljani namenjena znanstvenemu raziskovanju in vzpostavljanju ter vzdrževanju temeljnih digitalnih jezikovnih virov in jezikovnotehnoloških orodij za sodobni slovenski jezik. Namen centra je, da so ti viri in orodja praktično uporabni in preko spleta dostopni vsem uporabnikom slovenskega jezika v svetu.

Med raziskovalnimi nalogami sta izpostavljeni predvsem: i) opis sodobnega slovenskega jezika z vseh vidikov: deskriptivnega, normativnega, terminološkega, jezikovnotehnološkega, didaktičnega itd., s poudarkom na upoštevanju potreb različnih končnih uporabnikov jezikovnih virov, opisov in orodij; ii) računalniško podprto učenje in poučevanje slovenščine in tujih jezikov.

Praktične naloge obsegajo predvsem stalen, brezplačen in uporabniško prijazen dostop do korpusnih, leksikalnih, terminoloških in drugih zbirk Centra, vzpostavljanje in vzdrževanje spletnih učnih okolij za učenje in poučevanje slovenščine in tujih jezikov ter  distribucija javno financiranih in javno dostopnih jezikovnih virov in orodij za slovenščino.

Pomembna naloga Centra je omogočiti javno dostopnost informacij o jezikovnih virih in tehnologijah za slovenščino z namenom informiranja javnosti in razširjanja jezikovnih virov in orodij. Ta naloga je močno povezana s cilji infrastrukture CLARIN.

Zastopnica: Monika Kalin Golob
Namestniki: Simon Dobrišek, Nataša Logar, Karmen Pižorn, Marko Robnik ŠikonjaŠpela Vintar

Univerza v Mariboru

Raziskave jezikovnih in govornih tehnologij na Univerzi v Mariboru potekajo predvsem na Fakulteti za elektrotehniko in računalništvo, v okviru Inštituta za elektroniko in telekomunikacije in Inštituta za računalništvo (Laboratorij za heterogene računalniške sisteme).

Zastopnica: Darinka Verdonik
Namestnika: Milan Ojsteršek, Andrej Žgank

Univerza v Novi Gorici

Univerza v Novi Gorici je mlada (ust. 1995, univerzitetna akreditacija 2005) nejavna raziskovalno usmerjena univerza, ki jo sestavlja 7 fakultet in 12 raziskovalnih centrov. Je članica Evropske zveze univerz (European University Association), vključno s članstvom v Svetu za doktorsko izobraževanje (EUA Council for Doctoral Education). Kljub relativni majhnosti (med zaposlenimi ca. 100 doktorjev znanosti) je Univerza izvajala že vrsto nacionalno in evropsko financiranih projektov – med drugim tudi leta 2011 podeljeni, 4 mio. EUR vredni projekt iz razpisa FP7-REGPOT –, sodeluje s preko 40 evropskimi in mednarodnimi univerzami in raziskovalnimi ustanovami, sodeluje v študijskih in raziskovalnih izmenjavnih programih (ERASMUS, COST) in v enem Erasmus Mundus skupnem študijskem programu. Od leta 2015 je tudi članica mreže CLARIN.SI.

Dejavnosti povezane z mrežo CLARIN.SI potekajo v UNG-jevem Centru za kognitivne znanosti jezika. Enota trenutno zaposluje 6 doktorjev znanosti, ki se primarno osredotočajo na formalno teoretično in eksperimentalno jezikoslovje, hkrati pa se ukvarjajo tudi z uporabnojezikoslovnimi raziskavami, od jezikovnonačrtovalnih elaboratov za Ministrstvo za kulturo RS do izvajanja spletnega jezikovnega svetovanja (ŠUSS, JeSv). Skozi Center za kognitivne znanosti jezika prispeva Univerza v Novi Gorici h CLARIN-u s svojimi jezikovnimi viri.

Zastopnik: Rok Žaucer
Namestnik: Franc Marušič

Univerza na Primorskem

Sedež Univerze na Primorskem je v slovenskem Primorju, njene fakultete in inštituti pa so v Kopru, Izoli in Portorožu. Na Univerzi se izobražuje približno 5000 študentov, med raziskovalnimi področji, s katerimi se ukvarja, pa so tudi jezikovne tehnologije in viri.
 
Fakulteta za matematiko, naravoslovje in informacijske tehnologije dodiplomsko in podiplomsko izobražuje ter raziskuje na področjih matematike, računalništva, naravoslovje in biotehničnih ved. Z jezikovnimi tehnologijami, predvsem s strojnim prevajanjem in ekstrakcijo znanja, se ukvarjajo na Oddelku za informacijske vede in tehnologije.
 
Fakulteta za humanistične študije dodiplomsko in podiplomsko izobražuje ter raziskuje na področjih jezikoslovja, humanistike in družboslovje in raziskovanje. Z jezikovnimi tehologijami, predvsem s korpusnim jezikoslovjem, se ukvarjajo na Oddelku za uporabno jezikoslovje, Oddelku za slovenistiko in Oddelku za italijanistiko.
 
Univerza na Primorskem sodeluje v različnih raziskovalnih projektih s področja jezikovnih tehnologij. V konzorcij Clarin je prispevala nekaj področnih korpusov in slovarjev in je uporabnica Clarinovih virov in storitev.
 
Zastopnik: Jernej Vičič

Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti

Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti (ZRC SAZU) je vodilno slovensko raziskovalno središče na področju humanistike in sodi med vrhunske akademske ustanove v Srednji, Vzhodni in Jugovzhodni Evropi.

Multidisciplinarnost ZRC SAZU se kaže v raziskovanju tako humanistike kot tudi naravoslovnih in družboslovnih znanosti. Raziskovalna pozornost je med drugim usmerjena v mnogo tem, povezanih s slovensko naravno in kulturno dediščino. Raziskovalno mrežo ZRC SAZU sestavlja 18 inštitutov s skupaj več kot 300 raziskovalci in tehničnimi sodelavci.

Največji med inštituti je Inštitut za slovenski jezik Frana Ramovša, ki je nacionalno središče za sistematično spremljanje in opis slovenskega jezikovnega gradiva. Inštitut je bil ustanovljen leta 1945 z namenom, da zbira jezikovno gradivo in ga uporablja za izdelavo temeljnih del slovenskega jezikoslovja, predvsem slovarjev, kot so pravopisni slovar, slovar knjižnega jezika, terminološki slovarji, etimološki slovarji, zgodovinski slovarji, dialektološki slovarji, lingvistični atlasi, prav tako pa tudi opisne in zgodovinske slovnice in druge jezikoslovne raziskave. Na Inštitutu za slovenski jezik Frana Ramovša so nastali vsi pomembnejši enojezični razlagalni slovarji slovenskega jezika. Od leta 2000 je Inštitut objavil 38 slovarjev na 18.402 straneh, 73 monografij na 21.102 straneh in 36 številk jezikoslovnih revij na 7785 straneh. Večina teh del je elektronsko prosto ali tudi odprto dostopnih.

Zastopnica: Mateja Jemec Tomazin
Namestnici: Helena Dobrovoljc, Jerneja Fridl, Nina Ledinek