Obvestila
Kategorija, povezana z Themify widgetom, ki prikazuje obvestila na desni strani (sidebar) spletne strani.
Predstavitev Gigafide 2.0
Center za jezikovne vire in tehnologije Univerze v Ljubljani je 13. junija 2019 predstavil novo različico korpusa Gigafida, Gigafida 2.0. Posodobljena različica je referenčni korpus pisne slovenščine, ki vsebuje 1,1 milijarde besed in zajema dnevne časopise, revije, izbrani nabor spletnih besedil in knjižne publikacije različnih vrst. Korpus je dosegljiv na portalu Viri CJVT oziroma na povezavi https://viri.cjvt.si/gigafida/, kot tudi na konkordančnikih CLARIN.SI. Več o dogodku na objavi STA.
Obisk Tanje Wissik pri CLARIN.SI
Tanja Wissik (Center za digitalno humanistiko avstrijske akademije znanosti) je prejela “CLARIN Mobility Grant” za obisk Instituta “Jožef Stefan” aprila 2019. Tanja je pobudnica izdelave korpusa avstrijskih parlamentarnih zapiskov ParlAT, in je želela pretvoriti ParlAT v standadni zapis, kot je TEI, da zagotovi interoperabilnost z drugimi korpusi in s tem omogočiti učinkovito iskanje po različnih parlamentarnih podatkih. Med njenim obiskov 14.–19. 4. 2019 v Ljubljani, sta Tomaž Erjavec in Andrej Pančur pomagala Tanji analizirati njen korpus in predlagala načine, kako ga pretvoriti v TEI. Več o obisku piše v CLARIN blogu.
Doc. dr. Darja Fišer ponovno dve leti direktorica skupine User Involvement pri CLARIN ERIC
We are happy to announce that as of 1 October 2018 Darja Fišer (University of Ljubljana and Jožef Stefan Institute) has been reappointed as CLARIN ERIC Director of User Involvement for another two years.
In her first term, which lasted from 1 October 2016 to 30 September 2018, Darja Fišer has worked hard to bring CLARIN users and our infrastructure usability and usefulness to centre stage. With a strong support from the National Coordinator’s Forum, she has succeeded in appointing National User Involvement Coordinators in all CLARIN member countries who act as promotors of User Involvement activities at the national level but also serve as a vital link to share information and experience related to outreach and uptake of the infrastructure at the international level as well.
Three flagship initiatives have been introduced in Darja’s first period as User Involvement Director:
- CLARIN Resource Families: The goal of the initiative is to provide a systematic and comprehensive overview of the state of the infrastructure by focusing on the types of resources that are particularly relevant for a wide range of researchers from digital humanities, social sciences and human language technologies, such as parliamentary corpora, social media corpora, newspaper corpora, etc. Such systematic and user-friendly overviews have proven highly valuable for internal use but also directly useful for the users of the infrastructure. They have also shown CLARIN’s enrichment potential, lead to tangible improvements of metadata and functionalities of the Virtual Language Observatory, inspired development of new resources as well as fostered community building of researchers congregating around specific data types.
- Tour de CLARIN: This initiative aims to periodically highlight prominent User Involvement activities of a particular CLARIN national consortium. The highlights include a presentation of the national consortium and their flagship tools, resources and User Involvement events, as well as an interview with a prominent researchers who have used the consortium’s infrastructure in their research and can share their experience with CLARIN. Tour de CLARIN has helped to increase the visibility of the national consortia, revealed the richness of the CLARIN landscape, and displayed the full range of activities throughout the network.
- Call for (co-)funding User Involvement Events: Each year, we make a budget available for (co-)financing User Involvement events, such as summer schools, tutorials, seminars and master classes, which are organized by representatives of national consortia. 20 such events have been organized so far. They offered a wide range of topics and target diverse research communities which undoubtedly boost CLARIN’s outreach and uptake efforts well beyond the capacities of CLARIN ERIC alone and ensure long-term sustainability of the outreach model. Whenever possible, talks and lectures have been recorded and published on the Videlolectures.NET portal which now offers over 100 videos from CLARIN’s 12 events.
Videoposnetki predavanj simpozija “Etnografija 2.0”
Videoposnetki predavanj s simpozija ‘Etnografija 2.0: Novi pristopi za razumevanje načinov življenja‘, ki je potekal 31. maja 2018, so sedaj dostopna na VideloLectures.net. Na simpoziju so mdr. imeli predavanja Darja Fišer, o FAIR etnografiji in Marko Robnik-Šikonja, o Globokem učenju za analizo slik in besedil.
Blog o obisku Jozefa Mišutke
Oktobra 2017 nas je v okviru “CLARIN mobility grant” na IJS obiskal Jozef Mišutka s češkega CLARINa. V okviru njegovega obiska smo na CLARIN.SI instalirali konkordančnik KonText. O svojem obisku je sedaj objavil blog na straneh CLARIN ERIC.
Videoposnetki JOTA
Predavanja v okviru Jezikovnotehnološkega abonmaja so odslej dostopna tudi na portalu Videolectures.NET.
Objavo posnetkov omogoča CLARIN.SI.
Empirični podatki v jezikoslovju
Jakob Lenardič clarin, jezikoslovje, jezikovni korpusi, seriss
Avtorica prispevka Ana Slavec
Od 21. do 23. junija 2017 je na Fakulteti za elektrotehniko potekal 5. ReLDI seminar o empiričnih podatkih v jezikoslovju, ki se ga je udeležilo 50 udeležencev iz petih držav nekdanje Jugoslavije. Udeležila sem se ga tudi Ana Slavec (ADP), ki sem želela poglobiti svoje znanje o jezikoslovnih podatkih, saj so korpusi spletne slovenščine (JANES) ena izmed študij primera, ki jih obravnavamo v šesti delovni skupini v okviru projekta SERISS (Obzorje 2020).
ReLDI (Regional Linguistic Data Initiative) je dvoletno institucionalno partnerstvo med raziskovalnimi organizacijami na področju jezikoslovnih poodatkov v Švici, Srbiji in na Hrvaškem, ki ga financira Švicarska nacionalna znanstvena fundacija v okviru programa SCOPES. Spletna stran ReLDI je repozitorij za vire in orodja za analizo jezikoslovnih podatkov in instrumente za zbiranje podatkov, v prihodnosti pa bo gostila tudi spletne tečaje na temo eksperimentalnih in korpusnih metod, programiranja in statistike v jezikoslovnem raziskovanju.
To so bile tudi teme, ki smo jih obravnavali na seminarju v Ljubljani, ki sta ga vodili Tanja Samardžić in Maja Miličević. Seminar je potekal v angleškem jeziku, vendar so bile prosojnice in materiali v srbskem jeziku (vsi so dostopni na spletni strani seminarja). Prvi dan dopoldne smo poslušali predavanji o podatkih in napovedovanju v jezikoslovju ter o korpusno zasnovanih jezikoslovnih raziskavah. Tako kot v drugih vedah, se tudi v jezikoslovju lahko na podlagi empiričnih podatkov napoveduje dogodke, na primer slovnične lastnosti ali obstoj določenega elementa v besedilu. Pri tem so empirični podatki najpogosteje besedilni korpusi.
Besedilni korpusi so obsežne zbirke realnih besedil v elektronski obliki, ki so zajeta iz različnih virov na način, da predstavljajo vzorec jezikovne rabe določene vrste. (Vir: Jezikovna Slovenija)
V popoldanskem delu pa smo se na vajah učili pridobivanja korpusnih podatkov preko poizvedb in jezika CQL (corpus query language) v programu SketchEngine oz. v njegovi brezplačni omejeni različici NoSketchEngine. Na koncu smo se razdelili v skupine in dobili navodila za praktično delo. Sama sem na primer sodelovala v skupini, kjer smo morale udeleženke zasnovati raziskavo, ki bi proučevala zamenljivost veznikov DA in KER v vzročnem razmerju pri glagolskih zvezah, ki izražajo pozitivno ali negativno čustvovanje/občutenje.
Drugi dan smo poslušali predavanji o vlogi eksperimentiranja v jezikoslovju, ki je pomembno, saj omogoča raziskovanje širšega nabora jezikoslovnih pojavov, višjo stopnjo kontrole nad raziskavo ter ugotavljanje vzročno-posledičnih odnosov. V popoldanskem delu pa smo se učili o pripravi podatkov za statistično analizo v programu R ter nadaljevali s skupinskim delom. Postavili smo hipotezo, izbrali metodo ter pripravili raziskovalni načrt. V moji skupini smo se odločile za korpusno metodo in podatke pridobile iz korpusa KRES.
Zadnji dan smo poslušali predavanji o opisni statistiki, statistični inferenci in statističnih testih ter o analizi in vizualizaciji podatkov v R, v popoldanskem delu pa smo nadaljevali s praktičnim delom. Tabelo podatkov, ki je nastala na podlagi CQL poizvedb na korpusu KRES preko orodja NoSketchEngine, smo uvozile v R in podatke prikazale v obliki grafikona kvantilov (boxplot). Na koncu je vsaka skupina predstavila rezultate tega dela.
Seminar je bil namenjen predvsem raziskovalcem na področju jezikoslovja, ki imajo manko znanja s področja metodologije in raziskovanja in uporabe statistike. Večina udeležencev je prvič delala empirično raziskavo in uporabljala program R, zato smo začeli pri osnovah. Kot družboslovni metodologinji in statističarki so mi bile te vsebine že precej dobro poznane, zato je bilo zame dodana vrednost seminarja povsem drugje – v spoznavanju korpusne metodologije in v uvidu, kako se statistika uporablja na področju jezikoslovja. Predvsem sem poglobila znanje uporabe CQL v Sketch Engine, ki sem ga že uporabljala, vendar doslej le za osnovne poizvedbe.
Interdisciplinarnost je v sodobni znanosti izjemno pomembna, saj določenih problemov ni možno reševati le v okviru ene same discipline. Zato upam, da bo v prihodnosti še več tovrstnih dogodkov, ki omogočajo interdisciplinarno izobraževanje in povezovanje znanstvenikov.


