{"id":8223,"date":"2025-05-29T09:42:12","date_gmt":"2025-05-29T09:42:12","guid":{"rendered":"https:\/\/www.clarin.si\/info\/?page_id=8223"},"modified":"2025-08-20T07:31:17","modified_gmt":"2025-08-20T07:31:17","slug":"llms4ssh-sredisce-znanja-za-velike-jezikovne-modele-za-druzboslovje-in-humanistiko","status":"publish","type":"page","link":"https:\/\/www.clarin.si\/info\/k-centri\/llms4ssh-sredisce-znanja-za-velike-jezikovne-modele-za-druzboslovje-in-humanistiko\/","title":{"rendered":"LLMs4SSH: Sredi\u0161\u010de znanja za velike jezikovne modele za dru\u017eboslovje in humanistiko"},"content":{"rendered":"<p data-start=\"0\" data-end=\"423\">Infrastruktura CLARIN.SI je \u010dlanica\u00a0 <a href=\"https:\/\/llms4ssh.clarin-pl.eu\/\" target=\"_blank\" rel=\"noopener\"><b>LLMs4SSH<\/b>, sredi\u0161\u010da znanja CLARIN za velike jezikovne modele za dru\u017eboslovje in humanistiko<\/a><span style=\"font-weight: 400;\">. Sredi\u0161\u010de LLMs4SSH ponuja strokovno znanje o uporabi velikih jezikovnih modelov (VJM) za obdelavo jezikovnih podatkov in o prilagajanju teh modelov za potrebe raziskovalcev s podro\u010dij dru\u017eboslovja in humanistike.<\/span><\/p>\n<p data-start=\"425\" data-end=\"551\" data-is-last-node=\"\" data-is-only-node=\"\">Na tej strani povzemamo klju\u010dne informacije o trenutnih aktivnostih, povezanih z velikimi jezikovnimi modeli v Sloveniji.<\/p>\n\n<h2>Klju\u010dni projekti, povezani z velikimi jezikovnimi modeli<\/h2>\n<ul>\n<li data-start=\"39\" data-end=\"436\"><a href=\"https:\/\/www.cjvt.si\/povejmo\/\" target=\"_blank\" rel=\"noopener\"><b>PoVeJMo (Prilagodljiva obdelava naravnega jezika s pomo\u010djo velikih jezikovnih modelov)<\/b><\/a><span style=\"font-weight: 400;\">: Pri tem nacionalnem projektu razvijajo prve velike jezikovne modele, posebej prilagojene slovenskemu jeziku. Nastali modeli so prosto dostopni kot modeli <a href=\"https:\/\/huggingface.co\/collections\/cjvt\/gams-680a34e63dc760cd6fdc604c\" target=\"_blank\" rel=\"noopener\">GaMS<\/a>. V okviru projekta bodo na podlagi teh modelov razvili napredne tehnologije za podro\u010dja medicine, humanistike, industrije in za razvoj programske opreme.<\/span><\/li>\n<li data-start=\"438\" data-end=\"793\"><strong data-start=\"438\" data-end=\"500\"><a href=\"https:\/\/www.cjvt.si\/llm4dh\/o-projektu\/\" target=\"_blank\" rel=\"noopener\">LLM4DH (Veliki jezikovni modeli za digitalno humanistiko)<\/a><\/strong>: Ta nacionalni projekt se osredoto\u010da na obse\u017eno evalvacijo velikih jezikovnih modelov za sloven\u0161\u010dino, njihovo uporabo pri raziskavah na humanisti\u010dnih podro\u010djih (jezikoslovje in leksikografija, izobra\u017eevanje, novej\u0161a zgodovina, folkloristika in pravo) in na razvoj slikovno-jezikovnih modelov za sloven\u0161\u010dino.<\/li>\n<li data-start=\"795\" data-end=\"1225\"><strong data-start=\"795\" data-end=\"872\"><a href=\"https:\/\/www.uni-lj.si\/novice\/2025-01-10-z-umetno-inteligenco-do-boljsih-raziskav-v-digitalni-humanistiki\" target=\"_blank\" rel=\"noopener\">AI4DH (Center odli\u010dnosti za umetno inteligenco v digitalni humanistiki)<\/a><\/strong>: Namen tega evropskega projekta je okrepiti vlogo Univerze v Ljubljani kot ene vodilnih evropskih ustanov na podro\u010dju uporabe umetne inteligence (UI) v digitalni humanistiki. V sklopu projekta bodo vzpostavili center odli\u010dnosti, ki bo zdru\u017eeval vrhunske raziskave na podro\u010dju UI s podporo raziskovalcem v digitalni humanistiki za delo z UI.<\/li>\n<li data-start=\"1227\" data-end=\"1700\"><strong data-start=\"1227\" data-end=\"1300\"><a href=\"https:\/\/www.alt-edic.eu\/sl\/projects\/alt-edic4eu\/\" target=\"_blank\" rel=\"noopener\">ALT-EDIC4EU (Zavezni\u0161tvo za jezikovne tehnologije za Evropsko unijo)<\/a><\/strong>: Ta evropski projekt bo omogo\u010dil Zavezni\u0161tvu za jezikovne tehnologije (ALT-EDIC), da pospe\u0161i razvoj trpe\u017ene infrastrukture in vzpostavi evropski ekosistem jezikovnih tehnologij. V projekt so vklju\u010deni raziskovalne ustanove in industrijski partnerji s strate\u0161kih podro\u010dij, med drugim tudi Institut &#8220;Jo\u017eef Stefan&#8221; iz Slovenije.<\/li>\n<li data-start=\"1702\" data-end=\"2412\"><strong data-start=\"1702\" data-end=\"1758\"><a href=\"https:\/\/www.alt-edic.eu\/sl\/projects\/llms4eu\/\" target=\"_blank\" rel=\"noopener\">LLMs4EU (Veliki jezikovni modeli za Evropsko unijo)<\/a><\/strong>: Ta evropski projekt si prizadeva vzpostaviti infrastrukturo za enoten dostop do jezikovnih podatkov, ki bo predstavljala dodano vrednost za razvijalce VJM, in napredno platformo za pregledno evalvacijo VJM v evropskih jezikih. Poleg tega v sklopu projekta razvijajo jezikovne modele, prilagojene posameznim jezikom, sektorjem in primerom uporabe iz razli\u010dnih podro\u010dij (energetika, telekomunikacije, turizem, javne storitve in znanost). V projekt so vklju\u010dene \u0161tevilne raziskovalne ustanove in podjetja, specializirana za upravljanje z jezikovnimi podatki, za velike jezikovne modele in za jezikovne tehnologije, pri \u010demer so med klju\u010dnimi partnerji tudi ustanove in podjetja iz Slovenije.<\/li>\n<\/ul>\n<h2>Ogrodja za evalvacijo VJM za sloven\u0161\u010dino<\/h2>\n<p data-start=\"0\" data-end=\"147\">Naslednji ogrodji za evalvacijo omogo\u010data primerjavo velikih jezikovnih modelov na nalogah v slovenskem jeziku:<\/p>\n<ul>\n<li data-start=\"149\" data-end=\"617\"><strong data-start=\"149\" data-end=\"200\"><a href=\"https:\/\/slobench.cjvt.si\/\" target=\"_blank\" rel=\"noopener\">SloBENCH<\/a><\/strong>: Ta platforma omogo\u010da evalvacijo tehnologij za obdelavo naravnega jezika na naslednjih nalogah v slovenskem jeziku: naravnojezikovno sklepanje, strojno prevajanje (med angle\u0161\u010dino in sloven\u0161\u010dino), razpoznavanje govora, razpoznava imenskih entitet in skladenjsko raz\u010dlenjevanje. Vklju\u010duje tudi slovenski razli\u010dici zbirke podatkov Winograd Schema Challenge (WSC) in zbirk podatkov za evalvacijo SuperGLUE.<\/li>\n<li data-start=\"619\" data-end=\"1018\"><strong data-start=\"619\" data-end=\"642\"><a href=\"https:\/\/huggingface.co\/datasets\/cjvt\/slovenian-llm-eval\" target=\"_blank\" rel=\"noopener\">Slovenian LLM eval<\/a><\/strong>: Ta platforma zdru\u017euje sklop zbirk podatkov za evalvacijo velikih jezikovnih modelov v sloven\u0161\u010dini (ARC Challenge, ARC Easy, BoolQ, HellaSwag, NQ Open, OpenBookQA, PIQA, TriviaQA, Winogrande). Ogrodje temelji na delu Alekse Gordi\u0107a, ki je strojno prevedel priljubljene angle\u0161ke zbirke podatkov v sloven\u0161\u010dino. Avtorji ogrodja so nato dodatno izbolj\u0161ali slovenske prevode.<\/li>\n<\/ul>\n<h2>Ogrodja in zbirke podatkov za evalvacijo VJM v ju\u017enoslovanskih jezikih<\/h2>\n<p><a href=\"http:\/\/clarin.si\/\" target=\"_blank\" rel=\"noopener\">CLARIN.SI<\/a> prek <strong><a href=\"https:\/\/www.clarin.si\/info\/k-center\/\" target=\"_blank\" rel=\"noopener\">sredi\u0161\u010da znanja CLASSLA za ju\u017enoslovanske jezike<\/a><\/strong> \u00a0aktivno razvija jezikovne vire in tehnologije tudi za druge ju\u017enoslovanske jezike. V okviru teh aktivnosti je bilo razvitih ve\u010d ogrodij in zbirk podatkov za evalvacijo jezikovnih tehnologij za \u0161tevilne jezike, kot so:<\/p>\n<ul>\n<li data-start=\"331\" data-end=\"540\"><strong data-start=\"331\" data-end=\"343\"><a href=\"https:\/\/github.com\/clarinsi\/benchich\" target=\"_blank\" rel=\"noopener\">BENCHi\u0107<\/a>:<\/strong> Ogrodje za evalvacijo jezikovnih tehnologij za hrva\u0161\u010dino, srb\u0161\u010dino, bosan\u0161\u010dino in makedon\u0161\u010dino, ki vklju\u010duje razpoznavo imenskih entitet, razpoznavanje sentimenta, zdravorazumsko sklepanje in razpoznavanje jezikov.<\/li>\n<li data-start=\"542\" data-end=\"722\"><strong data-start=\"542\" data-end=\"559\"><a href=\"https:\/\/github.com\/clarinsi\/dialect-copa\" target=\"_blank\" rel=\"noopener\">DIALECT-COPA<\/a>:<\/strong> zdravorazumsko sklepanje v ju\u017enoslovanskih jezikih in nare\u010djih (sloven\u0161\u010dina, idrij\u0161\u010dina, hrva\u0161\u010dina, \u010dakav\u0161\u010dina, srb\u0161\u010dina, torla\u0161ko nare\u010dje, makedon\u0161\u010dina).<\/li>\n<li data-start=\"724\" data-end=\"830\"><a href=\"https:\/\/github.com\/TajaKuzman\/IPTC-Media-Topic-Classification\" target=\"_blank\" rel=\"noopener\"><strong>Kategorizacija tematike v novicah po shemi IPTC<\/strong> <\/a>(sloven\u0161\u010dina, hrva\u0161\u010dina, gr\u0161\u010dina, katalon\u0161\u010dina)<\/li>\n<li data-start=\"832\" data-end=\"1042\"><a href=\"https:\/\/github.com\/TajaKuzman\/AGILE-Automatic-Genre-Identification-Benchmark\" target=\"_blank\" rel=\"noopener\"><strong>Ogrodje AGILE za evalvacijo avtomatske identifikacije \u017eanra besedil<\/strong><\/a> (sloven\u0161\u010dina, hrva\u0161\u010dina, makedon\u0161\u010dina, angle\u0161\u010dina, alban\u0161\u010dina, katalon\u0161\u010dina, gr\u0161\u010dina, island\u0161\u010dina, malte\u0161\u010dina, tur\u0161\u010dina in ukrajin\u0161\u010dina)<\/li>\n<li data-start=\"1044\" data-end=\"1165\"><strong data-start=\"1044\" data-end=\"1061\"><a href=\"https:\/\/github.com\/orgs\/UniversalNER\/repositories\" target=\"_blank\" rel=\"noopener\">Ogrodje UniversalNER<\/a>: <\/strong>razpoznava imenskih entitet za \u0161tevilne jezike, vklju\u010dno s hrva\u0161\u010dino in srb\u0161\u010dino.<\/li>\n<li data-start=\"1167\" data-end=\"1333\"><a href=\"https:\/\/huggingface.co\/datasets\/classla\/ParlaSent\" target=\"_blank\" rel=\"noopener\"><strong>Zbirka podatkov ParlaSent za razpoznavanje sentimenta v parlamentarnih razpravah<\/strong><\/a> (sloven\u0161\u010dina, hrva\u0161\u010dina, bosan\u0161\u010dina, srb\u0161\u010dina, \u010de\u0161\u010dina, slova\u0161\u010dina, angle\u0161\u010dina)<\/li>\n<li data-start=\"1335\" data-end=\"1469\"><a href=\"https:\/\/clarinsi.github.io\/parlaspeech\/\" target=\"_blank\" rel=\"noopener\"><strong data-start=\"1335\" data-end=\"1350\">Zbirka podatkov ParlaPause za prepoznavo zapolnjenih premorov v govoru<\/strong><\/a>\u00a0 (sloven\u0161\u010dina, hrva\u0161\u010dina, srb\u0161\u010dina, \u010de\u0161\u010dina, polj\u0161\u010dina)<\/li>\n<li data-start=\"1471\" data-end=\"1557\"><a href=\"https:\/\/huggingface.co\/datasets\/classla\/mak_na_konac\" target=\"_blank\" rel=\"noopener\"><strong data-start=\"1471\" data-end=\"1488\">Ogrodje za evalvacijo razpoznavanja govora Mak Na Konac <\/strong><\/a>za hrva\u0161\u010dino in srb\u0161\u010dino<\/li>\n<li data-start=\"1559\" data-end=\"1648\"><a href=\"https:\/\/huggingface.co\/datasets\/classla\/Mici_Princ\" target=\"_blank\" rel=\"noopener\"><strong>Ogrodje za evalvacijo razpoznavanja govora Mi\u0107i Princ<\/strong><\/a> za \u010dakavsko nare\u010dje hrva\u0161\u010dine<\/li>\n<\/ul>\n<p data-start=\"1650\" data-end=\"2108\" data-is-last-node=\"\" data-is-only-node=\"\">Sredi\u0161\u010de znanja CLASSLA ponuja informacije tudi o drugih prosto dostopnih zbirkah podatkov, vklju\u010dno s splo\u0161nimi besedilnimi zbirkami ter u\u010dnimi in testnimi zbirkami podatkov za razli\u010dne naloge obdelave naravnega jezika. Najdete jih med pogostimi vpra\u0161anji z odgovori (FAQ) za <a href=\"https:\/\/www.clarin.si\/info\/k-center\/pogosta-vprasanja-za-slovenscino\/\" target=\"_blank\" rel=\"noopener\">sloven\u0161\u010dino<\/a>, <a href=\"http:\/\/www.clarin.si\/info\/k-centre\/faq4croatian\" target=\"_blank\" rel=\"noopener\">hrva\u0161\u010dino<\/a>, <a href=\"http:\/\/www.clarin.si\/info\/k-centre\/faq4serbian\" target=\"_blank\" rel=\"noopener\">srb\u0161\u010dino<\/a>, <a href=\"http:\/\/www.clarin.si\/info\/k-centre\/faq4bulgarian\/\" target=\"_blank\" rel=\"noopener\">bolgar\u0161\u010dino<\/a> in <a href=\"https:\/\/www.clarin.si\/info\/k-centre\/faq4macedonian\/\" target=\"_blank\" rel=\"noopener\">makedon\u0161\u010dino<\/a>. Pogosta vpra\u0161anja vklju\u010dujejo tudi informacije o virih in tehnologijah za jezikoslovno ozna\u010devanje besedil v ju\u017enoslovanskih jezikih.<\/p>\n<h2 data-start=\"1650\" data-end=\"2108\">Veliki jezikovni modeli in druge jezikovne tehnologije za sloven\u0161\u010dino<\/h2>\n<p data-start=\"0\" data-end=\"189\">Prosto dostopne velike jezikovne modele in jezikovne tehnologije za sloven\u0161\u010dino najdete predvsem na naslednjih povezavah:<\/p>\n<ul data-start=\"191\" data-end=\"325\">\n<li data-start=\"191\" data-end=\"220\">\n<p data-start=\"193\" data-end=\"220\"><a href=\"https:\/\/www.clarin.si\/repository\/xmlui\/?locale-attribute=sl\" target=\"_blank\" rel=\"noopener\">v repozitoriju CLARIN.SI<\/a><\/p>\n<\/li>\n<li data-start=\"221\" data-end=\"271\">\n<p data-start=\"223\" data-end=\"271\"><a href=\"https:\/\/huggingface.co\/cjvt\" target=\"_blank\" rel=\"noopener\">na profilu CJVT na repozitoriju Hugging Face<\/a><\/p>\n<\/li>\n<li data-start=\"272\" data-end=\"325\">\n<p data-start=\"274\" data-end=\"325\"><a href=\"https:\/\/huggingface.co\/classla\" target=\"_blank\" rel=\"noopener\">na profilu sredi\u0161\u010da CLASSLA na repozitoriju Hugging Face<\/a><\/p>\n<\/li>\n<\/ul>\n<p data-start=\"327\" data-end=\"643\">Informacije o odprto dostopnih velikih jezikovnih modelih, govornih tehnologijah in drugih tehnologijah za obdelavo naravnega jezika za slovenski jezik najdete v <strong><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/\" target=\"_blank\" rel=\"noopener\">pregledu jezikovnih tehnologij za sloven\u0161\u010dino<\/a><\/strong>, ki ga vzdr\u017euje sredi\u0161\u010de znanja CLASSLA. Pregled zajema jezikovne tehnologije, zbirke podatkov in znanstvene \u010dlanke z naslednjih podro\u010dij:<\/p>\n<ul data-start=\"645\" data-end=\"954\" data-is-last-node=\"\" data-is-only-node=\"\">\n<li data-start=\"645\" data-end=\"673\">\n<p data-start=\"647\" data-end=\"673\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#generative-models-llms-for-slovenian\" target=\"_blank\" rel=\"noopener\">generativni modeli (VJM)<\/a><\/p>\n<\/li>\n<li data-start=\"674\" data-end=\"769\">\n<p data-start=\"676\" data-end=\"769\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#embedding-models--rag-for-slovenian\" target=\"_blank\" rel=\"noopener\">modeli za izra\u010dun vektorskih vlo\u017eitev in s poizvedovanjem obogateno tvorjenje besedil (RAG)<\/a><\/p>\n<\/li>\n<li data-start=\"770\" data-end=\"803\">\n<p data-start=\"772\" data-end=\"803\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#machine-translation-for-slovenian\" target=\"_blank\" rel=\"noopener\">strojno prevajanje<\/a><\/p>\n<\/li>\n<li data-start=\"804\" data-end=\"836\">\n<p data-start=\"806\" data-end=\"836\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#bert-like-pretrained-models-for-slovenian\" target=\"_blank\" rel=\"noopener\">prednau\u010deni modeli tipa BERT<\/a><\/p>\n<\/li>\n<li data-start=\"837\" data-end=\"870\">\n<p data-start=\"839\" data-end=\"870\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#fine-tuned-models-for-slovenian\" target=\"_blank\" rel=\"noopener\">dou\u010deni modeli za sloven\u0161\u010dino<\/a><\/p>\n<\/li>\n<li data-start=\"871\" data-end=\"909\">\n<p data-start=\"873\" data-end=\"909\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#speech-technologies-for-slovenian\" target=\"_blank\" rel=\"noopener\">govorne tehnologije za sloven\u0161\u010dino<\/a><\/p>\n<\/li>\n<li data-start=\"910\" data-end=\"954\" data-is-last-node=\"\">\n<p data-start=\"912\" data-end=\"954\" data-is-last-node=\"\"><a href=\"https:\/\/github.com\/clarinsi\/Slovenian-Language-Technologies-Overview\/#other-language-technologies-for-slovenian\" target=\"_blank\" rel=\"noopener\">druge jezikovne tehnologije za sloven\u0161\u010dino<\/a><\/p>\n<\/li>\n<\/ul>\n<h2>Kontakt in dru\u017eabna omre\u017eja<\/h2>\n<p data-start=\"0\" data-end=\"488\">\u010ce imate kakr\u0161na koli vpra\u0161anja v zvezi z velikimi jezikovnimi modeli, jezikovnimi tehnologijami ali jezikovnimi viri, jih lahko zastavite sredi\u0161\u010du znanja CLASSLA, ki pokriva te teme za ju\u017enoslovanske jezike. Sredi\u0161\u010de znanja je dosegljivo prek e-po\u0161te: <strong data-start=\"293\" data-end=\"323\"><a class=\"cursor-pointer\" rel=\"noopener\" data-start=\"295\" data-end=\"321\">helpdesk.classla@clarin.si<\/a><\/strong>. CLASSLA ponuja tudi dodatna pojasnila glede dokumentacije na spletnih straneh sredi\u0161\u010da in podporo pri uporabi, prilagajanju, razvoju ali objavi virov in tehnologij za ju\u017enoslovanske jezike.<\/p>\n<p data-start=\"490\" data-end=\"663\">Prijavite se na <a href=\"https:\/\/mailman.ijs.si\/mailman\/listinfo\/classla\" target=\"_blank\" rel=\"noopener\"><strong data-start=\"493\" data-end=\"518\">po\u0161tni seznam sredi\u0161\u010da CLASSLA<\/strong><\/a>, da boste obve\u0161\u010deni o novih virih, tehnologijah, dogodkih in projektih za sloven\u0161\u010dino in druge ju\u017enoslovanske jezike.<\/p>\n<p data-start=\"665\" data-end=\"817\">Dejavnosti sredi\u0161\u010da znanja CLASSLA in infrastrukture CLARIN.SI, ki sta vklju\u010dena v sredi\u0161\u010de znanja LLMs4SSH, lahko spremljate tudi pred dru\u017eabnih omre\u017eij:<\/p>\n<ul data-start=\"819\" data-end=\"930\" data-is-last-node=\"\" data-is-only-node=\"\">\n<li data-start=\"819\" data-end=\"854\">\n<p data-start=\"821\" data-end=\"854\">prek omre\u017eij CLARIN.SI na <a href=\"https:\/\/x.com\/ClarinSlovenia\" target=\"_blank\" rel=\"noopener\">X<\/a> in <a href=\"https:\/\/www.linkedin.com\/company\/clarin-si\" target=\"_blank\" rel=\"noopener\">LinkedInu<\/a><\/p>\n<\/li>\n<li data-start=\"855\" data-end=\"930\" data-is-last-node=\"\">\n<p data-start=\"857\" data-end=\"930\" data-is-last-node=\"\">prek <a href=\"https:\/\/discord.com\/invite\/vQDRpGMU7C\" target=\"_blank\" rel=\"noopener\">Discord skupine \u00bbSlovenska skupnost za jezikovne vire in tehnologije\u00ab<\/a><\/p>\n<\/li>\n<\/ul>\n<h2 data-start=\"0\" data-end=\"164\">\u010clani CLARIN.SI v LLMs4SSH<\/h2>\n<p data-start=\"0\" data-end=\"164\"><br data-start=\"37\" data-end=\"40\" \/>Glavni \u010dlani CLARIN.SI, ki sodelujejo v sredi\u0161\u010du znanja LLMs4SSH, so Simon Krek, Nikola Ljube\u0161i\u0107, \u0160pela Vintar in Taja Kuzman Punger\u0161ek.<\/p>\n<p data-start=\"166\" data-end=\"1295\"><a href=\"https:\/\/www.simonkrek.si\/\" target=\"_blank\" rel=\"noopener\">Dr. Simon Krek<\/a> je raziskovalec na <a href=\"http:\/\/ailab.ijs.si\/\" target=\"_blank\" rel=\"noopener\">Odseku za umetno inteligenco na Institutu &#8220;Jo\u017eef Stefan&#8221;<\/a> in vodja <a href=\"https:\/\/www.cjvt.si\/\" target=\"_blank\" rel=\"noopener\">Centra za jezikovne vire in tehnologije (CJVT) Univerze v Ljubljani<\/a>. Dejaven je predvsem na podro\u010djih leksikografije in leksikogramatike, korpusnega jezikoslovja, obdelave naravnega jezika, vzpostavljanju jezikovnotehnolo\u0161ke infrastrukture ter na podro\u010dju ra\u010dunalni\u0161ko podprtega u\u010denja in pou\u010devanja jezika. Dr. Krek je med drugim vodil klju\u010dna slovenska projekta za jezikovne tehnologije (<a href=\"https:\/\/www.slovenscina.eu\/\">Sporazumevanje v slovenskem jeziku<\/a>\u00a0in <a href=\"https:\/\/rsdo.slovenscina.eu\/o-projektu\" target=\"_blank\" rel=\"noopener\">Razvoj sloven\u0161\u010dine v digitalnem okolju<\/a>). Sodeloval je pri \u0161tevilnih evropskih projektih (<a href=\"http:\/\/www.elda.org\/en\/projects\/archived-projects\/meta-net\/\" target=\"_blank\" rel=\"noopener\">META-NET<\/a>, <a href=\"http:\/\/xlike.ijs.si\/\" target=\"_blank\" rel=\"noopener\">xLike<\/a> idr.) in vodil projekt <a href=\"http:\/\/www.elex.is\/\" target=\"_blank\" rel=\"noopener\">ELEXIS<\/a> (Evropska leksikografska infrastruktura). Trenutno vodi projekt <a href=\"https:\/\/www.cjvt.si\/povejmo\/\" target=\"_blank\" rel=\"noopener\">PoVeJMo<\/a> za razvoj velikih jezikovnih modelov za sloven\u0161\u010dino in sodeluje v klju\u010dnih projektih s podro\u010dja jezikovnih tehnologij in velikih jezikovnih modelov, kot so <a href=\"https:\/\/mezzanine.um.si\/\" target=\"_blank\" rel=\"noopener\">MEZZANINE<\/a> (razvoj govornih virov in tehnologij za sloven\u0161\u010dino), <a href=\"https:\/\/www.cjvt.si\/llm4dh\/o-projektu\/\" target=\"_blank\" rel=\"noopener\">LLM4DH<\/a>, <a href=\"https:\/\/www.alt-edic.eu\/sl\/projects\/alt-edic4eu\/\" target=\"_blank\" rel=\"noopener\">ALT-EDIC4EU<\/a> in <a href=\"https:\/\/www.alt-edic.eu\/sl\/projects\/llms4eu\/\" target=\"_blank\" rel=\"noopener\">LLMs4EU<\/a>. Poleg tega opravlja funkcijo namestnika nacionalnega koordinatorja infrastrukture <a href=\"https:\/\/www.clarin.si\/\" target=\"_blank\" rel=\"noopener\">CLARIN.SI<\/a>.<\/p>\n<p data-start=\"1297\" data-end=\"2214\"><a href=\"https:\/\/nljubesi.github.io\/\" target=\"_blank\" rel=\"noopener\">Dr. Nikola Ljube\u0161i\u0107<\/a> in <a href=\"https:\/\/taja-kuzman.notion.site\/Taja-Kuzman-8fdda29e5968470286b57421984ed21d\" target=\"_blank\" rel=\"noopener\">Taja Kuzman Punger\u0161ek<\/a> sta raziskovalca na <a href=\"https:\/\/kt.ijs.si\/\" target=\"_blank\" rel=\"noopener\">Odseku za tehnologije znanja Instituta &#8220;Jo\u017eef Stefan&#8221;<\/a>. Delujeta na podro\u010djih obdelave naravnega jezika in strojnega u\u010denja. Njune aktivnosti vklju\u010dujejo razvoj spletnih korpusov (npr. projekt <a href=\"https:\/\/macocu.eu\/\" target=\"_blank\" rel=\"noopener\">MaCoCu<\/a> in spletni korpusi <a href=\"https:\/\/aclanthology.org\/2024.lrec-main.291\/\" target=\"_blank\" rel=\"noopener\">CLASSLA-web<\/a>), orodij za jezikoslovno ozna\u010devanje besedil v ju\u017enoslovanskih jezikih (<a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a>), jezikovnih modelov za tehnolo\u0161ko manj podprte jezike (npr. modeli <a href=\"https:\/\/huggingface.co\/classla\/bcms-bertic\" target=\"_blank\" rel=\"noopener\">BERTi\u0107<\/a> in <a href=\"https:\/\/huggingface.co\/classla\/xlm-r-bertic\" target=\"_blank\" rel=\"noopener\">XLM-R-BERTi\u0107<\/a>), govornih korpusov in modelov za razpoznavanje govora (npr. korpusi <a href=\"https:\/\/clarinsi.github.io\/parlaspeech\/\" target=\"_blank\" rel=\"noopener\">ParlaSpeech<\/a> in projekt <a href=\"https:\/\/mezzanine.um.si\/\" target=\"_blank\" rel=\"noopener\">MEZZANINE<\/a>). Poleg tega sta aktivna na podro\u010djih <a href=\"https:\/\/github.com\/clarinsi\/benchich\" target=\"_blank\" rel=\"noopener\">evalvacije jezikovnih tehnologij za ju\u017enoslovanske jezike<\/a>, uporabe metodologije obdelave naravnega jezika na nare\u010djih ju\u017enoslovanskih jezikov (npr. <a href=\"https:\/\/sites.google.com\/view\/vardial-2024\/shared-tasks\/dialect-copa\" target=\"_blank\" rel=\"noopener\">VarDial DIALECT-COPA<\/a>), na podro\u010dju odkrivanja sovra\u017enega govora (npr. projekt <a href=\"http:\/\/imsypp.ijs.si\/\" target=\"_blank\" rel=\"noopener\">IMSyPP<\/a>), <a href=\"https:\/\/www.clarin.si\/repository\/xmlui\/handle\/11356\/1681\" target=\"_blank\" rel=\"noopener\">kategorizacije tematike<\/a> in <a href=\"https:\/\/www.mdpi.com\/2504-4990\/5\/3\/59\" target=\"_blank\" rel=\"noopener\">avtomatske identifikacije \u017eanra besedil<\/a>. Skupaj vodita <a href=\"https:\/\/www.clarin.si\/info\/k-center\/\" target=\"_blank\" rel=\"noopener\">sredi\u0161\u010de znanja CLASSLA za ju\u017enoslovanske jezike<\/a>, ki nudi strokovno znanje s podro\u010dja jezikovnih virov in tehnologij za ju\u017enoslovanske jezike, in sodelujeta v upravnem odboru infrastrukture <a href=\"http:\/\/clarin.si\/\" target=\"_blank\" rel=\"noopener\">CLARIN.SI<\/a>.<\/p>\n<p data-start=\"1297\" data-end=\"2214\"><a href=\"http:\/\/www.lojze.si\/spela\/\" target=\"_blank\" rel=\"noopener\">Dr. \u0160pela Vintar<\/a> je raziskovalka na <a href=\"https:\/\/www.ijs.si\/ijsw\/Center%20za%20mre%C5%BEno%20infrastrukturo\" target=\"_blank\" rel=\"noopener\">Centru za mre\u017eno infrastrukturo (CMI) Instituta &#8220;Jo\u017eef Stefan&#8221;<\/a> in redna profesorica na <a href=\"https:\/\/prevajalstvo.ff.uni-lj.si\/\" target=\"_blank\" rel=\"noopener\">Oddelku za prevajalstvo Filozofske fakultete Univerze v Ljubljani<\/a>. Dejavna je na razli\u010dnih podro\u010djih digitalnega jezikoslovja in obdelave naravnega jezika, kot so lu\u0161\u010denje terminologije in odkrivanje znanja &#8211; vodila je projekt <a href=\"https:\/\/termframe.ff.uni-lj.si\/\" target=\"_blank\" rel=\"noopener\">TermFrame<\/a>, rezultat katerega je ve\u010djezi\u010dna baza znanja, in pri projektu <a href=\"https:\/\/nl.ijs.si\/janes\/\" target=\"_blank\" rel=\"noopener\">JANES<\/a> preu\u010devala terminologijo v nestandardni sloven\u0161\u010dini; strojno prevajanje (v sklopu projekta <a href=\"https:\/\/rsdo.slovenscina.eu\/en\" target=\"_blank\" rel=\"noopener\">Razvoj sloven\u0161\u010dine v digitalnem okolju<\/a>); znakovni jezik, v zvezi s katerim je vodila projekt <a href=\"http:\/\/lojze.lugos.si\/signor\/en\" target=\"_blank\" rel=\"noopener\">SIGNOR<\/a>; v zadnjem \u010dasu pa raziskuje tudi kognitivne pristope k semantiki in jezikovnemu modeliranju kot vodja <a href=\"http:\/\/hdl.handle.net\/11356\/1980\" target=\"_blank\" rel=\"noopener\">zbirke<\/a> asociacijskih besed <a href=\"https:\/\/smallworldofwords.org\/sl\/project\" target=\"_blank\" rel=\"noopener\">SWOW-SL<\/a> in se ukvarja z evalvacijo velikih jezikovnih modelov v okviru projekta <a href=\"https:\/\/www.cjvt.si\/llm4dh\/en\/\" target=\"_blank\" rel=\"noopener\">LLM4DH<\/a>, pri katerem preu\u010duje niansirano razumevanje jezika in pristranskosti modelov. Je ustanoviteljica in koordinatorka <a href=\"https:\/\/digiling.university\/digitalno-jezikoslovje\/\" target=\"_blank\" rel=\"noopener\">skupnega magistrskega \u0161tudija Digitalno jezikoslovje<\/a>, vzpostavljenega na podlagi nagrajenega projekta KA2-Erasmus+ <a href=\"https:\/\/learn.digiling.eu\/\" target=\"_blank\" rel=\"noopener\">DigiLing: Trans-European e-learning hub for Digital Linguistics<\/a>.<\/p>\n<div id=\"themify_builder_content-8223\" data-postid=\"8223\" class=\"themify_builder_content themify_builder_content-8223 themify_builder\">\n    <\/div>\n<!-- \/themify_builder_content -->\n","protected":false},"excerpt":{"rendered":"<p>Infrastruktura CLARIN.SI je \u010dlanica\u00a0 LLMs4SSH, sredi\u0161\u010da znanja CLARIN za velike jezikovne modele za dru\u017eboslovje in humanistiko. Sredi\u0161\u010de LLMs4SSH ponuja strokovno znanje o uporabi velikih jezikovnih modelov (VJM) za obdelavo jezikovnih podatkov in o prilagajanju teh modelov za potrebe raziskovalcev s podro\u010dij dru\u017eboslovja in humanistike. Na tej strani povzemamo klju\u010dne informacije o trenutnih aktivnostih, povezanih z [&hellip;]<\/p>\n","protected":false},"author":13,"featured_media":0,"parent":6585,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-8223","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"_links":{"self":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/8223","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/users\/13"}],"replies":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/comments?post=8223"}],"version-history":[{"count":20,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/8223\/revisions"}],"predecessor-version":[{"id":8339,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/8223\/revisions\/8339"}],"up":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/6585"}],"wp:attachment":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/media?parent=8223"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}