{"id":6395,"date":"2023-06-23T13:53:59","date_gmt":"2023-06-23T13:53:59","guid":{"rendered":"https:\/\/www.clarin.si\/info\/?p=6395"},"modified":"2023-06-26T07:57:18","modified_gmt":"2023-06-26T07:57:18","slug":"novi-pilotni-spletni-korpusi-classla-web-in-tutorial-o-uporabi-korpusov-prek-konkordancnikov-clarin-si","status":"publish","type":"post","link":"https:\/\/www.clarin.si\/info\/novi-pilotni-spletni-korpusi-classla-web-in-tutorial-o-uporabi-korpusov-prek-konkordancnikov-clarin-si\/","title":{"rendered":"Novi pilotni spletni korpusi CLASSLA-web in tutorial o uporabi korpusov prek konkordan\u010dnikov CLARIN.SI"},"content":{"rendered":"<p>Z veseljem sporo\u010damo, da so znotraj sredi\u0161\u010da znanja CLASSLA na voljo pilotne verzije (v0.1) spletnih korpusov CLASSLA-web za <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_hr\">hrva\u0161\u010dino<\/a> (2,3 milijarde besed), <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sr\">srb\u0161\u010dino<\/a> (2,4 milijarde besed) in <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sl\">sloven\u0161\u010dino<\/a> (1,9 milijarde besed).<\/p>\n<p>Poleg novih korpusov je objavljen tudi <a href=\"https:\/\/www.clarin.si\/info\/k-centre\/classla-web-bigger-and-better-web-corpora-for-croatian-serbian-and-slovenian-on-clarin-si-concordancers\/\">poljudni \u010dlanek o uporabi korpusov CLASSLA-web prek konkordan\u010dnikov CLARIN.SI.<\/a><\/p>\n<p>Ve\u010d o novostih v sredi\u0161\u010du CLASSLA si lahko preberete v nadaljevanju:<\/p>\n<p><!--more--><\/p>\n<hr \/>\n<p><strong>Novosti v sredi\u0161\u010du znanja CLASSLA:<\/strong><\/p>\n<p>s sredi\u0161\u010da znanja CLARIN za ju\u017enoslovanske jezike (CLASSLA) z veseljem sporo\u010damo, da smo objavili pilotne verzije (v0.1) spletnih korpusov CLASSLA-web za <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sr\">hrva\u0161\u010dino <\/a>(2,3 milijarde besed), <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sr\">srb\u0161\u010dino<\/a> (2,4 milijarde besed) in <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sl\">sloven\u0161\u010dino<\/a> (1,9 milijarde besed). Poleg tega, da so korpusi med najve\u010djimi zbirkami besedil za vsakega od teh jezikov, so njihove prednosti \u0161e nedavnost besedil (saj so bili zbrani leta 2022), <a href=\"https:\/\/huggingface.co\/classla\/xlm-roberta-base-multilingual-text-genre-classifier\">avtomatsko dodani metapodatki o \u017eanrih besedil<\/a> in jezikoslovni podatki, dodani s cevovodom za jezikoslovno ozna\u010devanje <a href=\"https:\/\/pypi.org\/project\/classla\/\">CLASSLA-Stanza<\/a> (uporabljena verzija bo kmalu na voljo). Po korpusih lahko brskate preko konkordan\u010dnikov CLARIN.SI: <a href=\"https:\/\/www.clarin.si\/ske\/#open\">Crystal NoSketchEngine<\/a>, <a href=\"https:\/\/www.clarin.si\/noske\/\">Bonito NoSketchEngine<\/a> in <a href=\"https:\/\/www.clarin.si\/kontext\/corpora\/corplist\">KonText<\/a>. Trenutno smo objavili pilotne verzije korpusov, da izvemo va\u0161e mnenje o njih, proti koncu leta pa na\u010drtujemo objavo uradnih verzij (v1.0), ne samo teh treh korpusov, ampak tudi spletnih korpusov za bosan\u0161\u010dino, \u010drnogor\u0161\u010dino, makedon\u0161\u010dino in bolgar\u0161\u010dino.<\/p>\n<p>Vse vas lepo vabimo, da malo pobrskate po korpusih in se nam oglasite na <a href=\"mailto:helpdesk.classla@clarin.si\">helpdesk.classla@clarin.si<\/a> s kakr\u0161nimi koli predlogi za izbolj\u0161ave \u2014 potrudili se bomo, da jih upo\u0161tevamo \u017ee pri prvi uradni razli\u010dici. Poleg tega bomo zelo veseli informacij o tem, ali nameravate uporabiti korpuse v svojih raziskavah. Vabljeni tudi, da raz\u0161irite to sporo\u010dilo po svojih kanalih.<\/p>\n<p>Za vse, ki bi \u017eeleli izvedeti ve\u010d o tem, kako se da uporabljati spletne korpuse za raziskovanje jezika, smo pripravili tudi <a href=\"https:\/\/www.clarin.si\/info\/k-centre\/classla-web-bigger-and-better-web-corpora-for-croatian-serbian-and-slovenian-on-clarin-si-concordancers\/\">poljudni \u010dlanek o uporabi korpusov CLASSLA-web prek konkordan\u010dnikov CLARIN.SI<\/a>. V \u010dlanku korak za korakom predstavimo, kako lahko najdete kolokacije v razli\u010dnih \u017eanrih, pridobite statistiko o uporabi dolo\u010denih besed in najdete primere rabe nestandardnih besed, ki jih ni v slovarjih. Za iskanje po korpusih in pridobivanje statistike ni potrebno nobeno tehni\u010dno znanje, tako da ste zelo vabljeni, da raz\u0161irite informacijo o \u010dlanku tudi med manj tehni\u010dne sodelavce in svoje \u0161tudente s podro\u010dja jezikoslovja, digitalne humanistike, pa tudi pou\u010devanja jezika.<\/p>\n<p>Se \u017ee veselimo, da sli\u0161imo va\u0161e mnenje o korpusih CLASSLA-web!<\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Z veseljem sporo\u010damo, da so znotraj sredi\u0161\u010da znanja CLASSLA na voljo pilotne verzije (v0.1) spletnih korpusov CLASSLA-web za hrva\u0161\u010dino (2,3 milijarde besed), srb\u0161\u010dino (2,4 milijarde besed) in sloven\u0161\u010dino (1,9 milijarde besed). Poleg novih korpusov je objavljen tudi poljudni \u010dlanek o uporabi korpusov CLASSLA-web prek konkordan\u010dnikov CLARIN.SI. Ve\u010d o novostih v sredi\u0161\u010du CLASSLA si lahko preberete [&hellip;]<\/p>\n","protected":false},"author":12,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[41],"tags":[],"class_list":["post-6395","post","type-post","status-publish","format-standard","hentry","category-obvestila","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"_links":{"self":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/posts\/6395","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/comments?post=6395"}],"version-history":[{"count":13,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/posts\/6395\/revisions"}],"predecessor-version":[{"id":6409,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/posts\/6395\/revisions\/6409"}],"wp:attachment":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/media?parent=6395"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/categories?post=6395"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/tags?post=6395"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}