{"id":5389,"date":"2021-11-11T14:24:46","date_gmt":"2021-11-11T14:24:46","guid":{"rendered":"https:\/\/www.clarin.si\/info\/?page_id=5389"},"modified":"2021-11-26T10:00:59","modified_gmt":"2021-11-26T10:00:59","slug":"uspesne-aktivnosti","status":"publish","type":"page","link":"https:\/\/www.clarin.si\/info\/k-center\/uspesne-aktivnosti\/","title":{"rendered":"Uspe\u0161ne aktivnosti"},"content":{"rendered":"<p><span style=\"font-weight: 400;\">Kot uspe\u0161ne aktivnosti izpostavljamo dejavnosti, ki izpolnjujejo naslednja kriterija: 1. dostopnost jezikovnih virov in tehnologij za ju\u017enoslovanske jezike in 2. nastanek teh virov in tehnologij na podlagi sinergijskega sodelovanja. Ta kriterija sta izredno pomembna zaradi treh razlogov: 1. sodelovanje zagotavlja prena\u0161anje znanja v skupnosti, 2. sodelovanje zagotavlja tudi, da so novi viri in tehnologije primerljivi, zaradi \u010desar sta nadaljnji razvoj jezikovnih tehnologij in njihova uporaba la\u017eja in 3. ju\u017enoslovanski jeziki razpolagajo z omejenimi finan\u010dnimi sredstvi, zato je treba izkoristiti velike mo\u017enosti za sinergijsko delovanje na tem podro\u010dju, da ne bi ju\u017enoslovanski jeziki za\u010deli zaostajati za bolje financiranimi jeziki zahodne Evrope.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Trenutno \u0161e ni veliko rezultatov dejavnosti CLASSLE, ki bi povsem ustrezali obema kriterijema (razen\u00a0<\/span><a href=\"https:\/\/pypi.org\/project\/classla\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">cevovoda CLASSLA<\/span><\/a><span style=\"font-weight: 400;\">, jezikovnega modela <\/span><a href=\"https:\/\/huggingface.co\/classla\/bcms-bertic\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">BERTi\u0107<\/span><\/a><span style=\"font-weight: 400;\">, in\u00a0<\/span><a href=\"http:\/\/hdl.handle.net\/11356\/1427\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">korpusov besedil iz Wikipedije CLASSLA<\/span><\/a><span style=\"font-weight: 400;\">, ki le delno ustrezajo drugemu, sinergijskemu kriteriju), zato v nadaljevanju predstavljamo uspe\u0161ne dejavnosti, ki so nas spodbudile k temu, da smo ustanovili sredi\u0161\u010de znanja CLASSLA. Vsem je skupen projekt <\/span><a href=\"https:\/\/reldi.spur.uzh.ch\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">ReLDI<\/span><\/a><span style=\"font-weight: 400;\">, zaradi \u010desar je sinergijski fenomen teh dejavnosti postal znan kot \u201cu\u010dinek projekta ReLDI\u201d. Upamo, da bomo v bli\u017enji prihodnosti lahko za\u010deli govoriti o tem fenomenu kot o \u201cu\u010dinku CLASSLE\u201d.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">V nadaljevanju predstavljamo naslednje uspe\u0161ne aktivnosti:<\/span><\/p>\n\n<h2><b>U\u010dna nabora podatkov za jezikovno obdelavo nestandardne hrva\u0161\u010dine in srb\u0161\u010dine<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Eden izmed ciljev slovenskega nacionalnega projekta\u00a0<\/span><a href=\"https:\/\/nl.ijs.si\/janes\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">JANES<\/span><\/a><span style=\"font-weight: 400;\"> (2014-2018) je bil u\u010dni nabor podatkov, namenjen razvoju jezikovnih orodij za obdelavo nestandardne, spletne sloven\u0161\u010dine. Rezultat projekta je u\u010dni nabor podatkov\u00a0<\/span><a href=\"http:\/\/hdl.handle.net\/11356\/1238\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">Janes-Tag<\/span><\/a><span style=\"font-weight: 400;\"> s 75.000 pojavnicami, ro\u010dno ozna\u010denimi za potrebe tokenizacije, \u010dlenitve na stavke, normalizacije besed, oblikoskladenjskega ozna\u010devanja, lematizacije in ozna\u010devanja imenskih entitet. V tem obdobju je potekal tudi projekt ReLDI, namenjen hkratnemu razvijanju jezikovnih virov in tehnologij za hrva\u0161\u010dino in srb\u0161\u010dino, in raziskovalci s tega projekta so tesno sodelovali s kolegi s projekta JANES, ob \u010demer se je porodila zamisel, da bi po vzoru slovenskega nabora podatkov ustvarili \u0161e hrva\u0161kega in srbskega. Nabora podatkov sta tako nastala z ob\u010dutno manj\u0161imi stro\u0161ki v primerjavi s stro\u0161ki slovenskega nabora podatkov, saj so pri tem izkoristili 1. isto<\/span>\u00a0<a href=\"https:\/\/aclanthology.org\/L14-1642\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">metodo zbiranja podatkov s Twitterja<\/span><\/a><span style=\"font-weight: 400;\">, 2. isto tehnologijo za ro\u010dno ozna\u010devanje in 3. zelo kompleksne smernice za ozna\u010devanje, ki jih je bilo treba samo prilagoditi dvema dodatnima jezikoma. Tretja to\u010dka se je izkazala za zelo pomembno, saj slovnice vseh treh jezikov ne obravnavajo posebnosti nestandardnega jezika, zaradi \u010desar so morale smernice zelo podrobno opisati vse ravni jezika. V sklopu tega sinergijskega sodelovanja sta tako nastala u\u010dni nabor podatkov za nestandardno spletno hrva\u0161\u010dino<\/span> <a href=\"http:\/\/hdl.handle.net\/11356\/1241\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">ReLDI-NormTagNER-hr<\/span><\/a><span style=\"font-weight: 400;\"> in primerljiv u\u010dni nabor podatkov za srb\u0161\u010dino<\/span> <a href=\"http:\/\/hdl.handle.net\/11356\/1240\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">ReLDI-NormTagNER-sr<\/span><\/a><span style=\"font-weight: 400;\">. Ta nabora podatkov sta med temeljnimi viri, na podlagi katerih lahko s<\/span>\u00a0<a href=\"https:\/\/pypi.org\/project\/classla\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">cevovodom CLASSLA<\/span><\/a><span style=\"font-weight: 400;\"> jezikovno obdelamo tudi nestandardni spletni jezik, ne le slovenskega, ampak tudi hrva\u0161kega in srbskega.<\/span><\/p>\n<h2><b>U\u010dna nabora podatkov za jezikovno obdelavo standardne hrva\u0161\u010dine in srb\u0161\u010dine<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">Zbrati kakovostne podatke za u\u010dni nabor podatkov standardne hrva\u0161\u010dine ni bilo preprosto. Prve dejavnosti na tem podro\u010dju so se za\u010dele kot\u00a0<\/span><a href=\"https:\/\/aclanthology.org\/L14-1542\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">neuradni projekt dveh raziskovalcev<\/span><\/a><span style=\"font-weight: 400;\">, v sklopu katerega je nastal nabor podatkov SETimes.HR. Z razli\u010dnimi mednarodno financiranimi projekti so nato nabor pove\u010devali in izbolj\u0161evali, kar je vodilo do sedanjega nabora podatkov<\/span> <a href=\"http:\/\/hdl.handle.net\/11356\/1183\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">hr500k<\/span><\/a><span style=\"font-weight: 400;\">. \u010ceprav so prvi eksperimenti pokazali, da <\/span><a href=\"https:\/\/aclanthology.org\/W15-5301\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">je u\u010denje modelov za obdelavo srb\u0161\u010dine na hrva\u0161kem naboru podatkov uspe\u0161no<\/span><\/a><span style=\"font-weight: 400;\">, so se pri<\/span> <a href=\"https:\/\/reldi.spur.uzh.ch\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">projektu ReLDI<\/span><\/a><span style=\"font-weight: 400;\"> zavedali potreb po izvirnem srbskem naboru podatkov. To je spodbudilo<\/span> <a href=\"https:\/\/vukbatanovic.github.io\/pdf\/JTDH_SR_2018.pdf\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">nastanek nabora podatkov SETimes.SR<\/span><\/a><span style=\"font-weight: 400;\">, pri katerem so izkoristili 1. isti vir podatkov kot pri hrva\u0161kem naboru, 2. skoraj enake smernice in tehnologijo za ozna\u010devanje in 3. modele, u\u010dene na hrva\u0161\u010dini, s katerimi so zelo natan\u010dno ozna\u010dili srbske podatke pred ro\u010dnim ozna\u010devanjem. Tako je s pametnim izkori\u0161\u010danjem sinergije in s porabo le dele\u017ea sredstev, druga\u010de potrebnih za izdelavo tak\u0161nega jezikovnega vira, nastal \u0161e en nabor podatkov,<\/span> <a href=\"http:\/\/hdl.handle.net\/11356\/1200\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">SETimes.SR<\/span><\/a><span style=\"font-weight: 400;\">. Podobno kot zgoraj predstavljena nabora podatkov za nestandardna jezika, nabora za standardna jezika danes omogo\u010data osnovno jezikovno obdelavo hrva\u0161\u010dine in srb\u0161\u010dine, ne le s<\/span>\u00a0<a href=\"https:\/\/pypi.org\/project\/classla\/\" target=\"_blank\" rel=\"noopener\">c<span style=\"font-weight: 400;\">evovodom CLASSLA<\/span><\/a><span style=\"font-weight: 400;\">, temve\u010d tudi z drugimi cevovodi, ki temeljijo na projektu <\/span><a href=\"https:\/\/universaldependencies.org\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">Univerzalne odvisnostne drevesnice<\/span><\/a><span style=\"font-weight: 400;\">.<\/span><\/p>\n<h2><b>Oblikoslovna leksikona za hrva\u0161\u010dino in srb\u0161\u010dino<\/b><\/h2>\n<p><span style=\"font-weight: 400;\">V sklopu zbiranja u\u010dnega nabora podatkov za standardno hrva\u0161\u010dino je<\/span>\u00a0<a href=\"https:\/\/aclanthology.org\/R15-1050\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">z uporabo strojnega u\u010denja in obse\u017enih korpusov<\/span><\/a><span style=\"font-weight: 400;\"> nastal tudi<\/span>\u00a0<a href=\"http:\/\/hdl.handle.net\/11356\/1232\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">oblikoslovni leksikon hrLex<\/span><\/a><span style=\"font-weight: 400;\">. Ob tem so pri<\/span>\u00a0<a href=\"https:\/\/reldi.spur.uzh.ch\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">projektu ReLDI<\/span><\/a><span style=\"font-weight: 400;\"> dobili zamisel, da bi podobno storili tudi za srb\u0161\u010dino, \u0161e posebej z ozirom na dejstvo, da kar zadeva pregibno oblikoslovje, med jezikoma ni velikih razlik. Tako je z nizkimi stro\u0161ki nastal \u0161e en klju\u010dni jezikovni vir za srb\u0161\u010dino, oblikoslovni leksikon<\/span> <a href=\"http:\/\/hdl.handle.net\/11356\/1233\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">srLex<\/span><\/a><span style=\"font-weight: 400;\">. Predstavljena leksikona seveda pripomoreta k uspe\u0161nej\u0161i lematizaciji hrva\u0161\u010dine in srb\u0161\u010dine s<\/span>\u00a0<a href=\"https:\/\/pypi.org\/project\/classla\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">cevovodom CLASSLA<\/span><\/a><span style=\"font-weight: 400;\">.<\/span><\/p>\n<div id=\"themify_builder_content-5389\" data-postid=\"5389\" class=\"themify_builder_content themify_builder_content-5389 themify_builder\">\n    <\/div>\n<!-- \/themify_builder_content -->\n","protected":false},"excerpt":{"rendered":"<p>Kot uspe\u0161ne aktivnosti izpostavljamo dejavnosti, ki izpolnjujejo naslednja kriterija: 1. dostopnost jezikovnih virov in tehnologij za ju\u017enoslovanske jezike in 2. nastanek teh virov in tehnologij na podlagi sinergijskega sodelovanja. Ta kriterija sta izredno pomembna zaradi treh razlogov: 1. sodelovanje zagotavlja prena\u0161anje znanja v skupnosti, 2. sodelovanje zagotavlja tudi, da so novi viri in tehnologije primerljivi, [&hellip;]<\/p>\n","protected":false},"author":13,"featured_media":0,"parent":3834,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-5389","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"_links":{"self":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/5389","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/users\/13"}],"replies":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/comments?post=5389"}],"version-history":[{"count":4,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/5389\/revisions"}],"predecessor-version":[{"id":5393,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/5389\/revisions\/5393"}],"up":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3834"}],"wp:attachment":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/media?parent=5389"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}