Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

LLMs4SSH: Središče znanja za velike jezikovne modele za družboslovje in humanistiko

Infrastruktura CLARIN.SI je članica središča LLMs4SSH, središča znanja CLARIN za velike jezikovne modele za družboslovje in humanistiko. Središče LLMs4SSH ponuja strokovno znanje o uporabi velikih jezikovnih modelov (VJM) za obdelavo jezikovnih podatkov in o prilagajanju teh modelov za potrebe raziskovalcev s področij družboslovja in humanistike.

Na tej strani povzemamo ključne informacije o trenutnih aktivnostih, povezanih z velikimi jezikovnimi modeli v Sloveniji.

Ključni projekti, povezani z velikimi jezikovnimi modeli

  • PoVeJMo (Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov): Pri tem nacionalnem projektu razvijajo prve velike jezikovne modele, posebej prilagojene slovenskemu jeziku. Nastali modeli so prosto dostopni kot modeli GaMS. V okviru projekta bodo na podlagi teh modelov razvili napredne tehnologije za področja medicine, humanistike, industrije in za razvoj programske opreme.
  • LLM4DH (Veliki jezikovni modeli za digitalno humanistiko): Ta nacionalni projekt se osredotoča na obsežno evalvacijo velikih jezikovnih modelov za slovenščino, njihovo uporabo pri raziskavah na humanističnih področjih (jezikoslovje in leksikografija, izobraževanje, novejša zgodovina, folkloristika in pravo) in na razvoj slikovno-jezikovnih modelov za slovenščino.
  • AI4DH (Center odličnosti za umetno inteligenco v digitalni humanistiki): Namen tega evropskega projekta je okrepiti vlogo Univerze v Ljubljani kot ene vodilnih evropskih ustanov na področju uporabe umetne inteligence (UI) v digitalni humanistiki. V sklopu projekta bodo vzpostavili center odličnosti, ki bo združeval vrhunske raziskave na področju UI s podporo raziskovalcem v digitalni humanistiki za delo z UI.
  • ALT-EDIC4EU (Zavezništvo za jezikovne tehnologije za Evropsko unijo): Ta evropski projekt bo omogočil Zavezništvu za jezikovne tehnologije (ALT-EDIC), da pospeši razvoj trpežne infrastrukture in vzpostavi evropski ekosistem jezikovnih tehnologij. V projekt so vključeni raziskovalne ustanove in industrijski partnerji s strateških področij, med drugim tudi Institut “Jožef Stefan” iz Slovenije.
  • LLMs4EU (Veliki jezikovni modeli za Evropsko unijo): Ta evropski projekt si prizadeva vzpostaviti infrastrukturo za enoten dostop do jezikovnih podatkov, ki bo predstavljala dodano vrednost za razvijalce VJM, in napredno platformo za pregledno evalvacijo VJM v evropskih jezikih. Poleg tega v sklopu projekta razvijajo jezikovne modele, prilagojene posameznim jezikom, sektorjem in primerom uporabe iz različnih področij (energetika, telekomunikacije, turizem, javne storitve in znanost). V projekt so vključene številne raziskovalne ustanove in podjetja, specializirana za upravljanje z jezikovnimi podatki, za velike jezikovne modele in za jezikovne tehnologije, pri čemer so med ključnimi partnerji tudi ustanove in podjetja iz Slovenije.

Ogrodja za evalvacijo VJM za slovenščino

Naslednji ogrodji za evalvacijo omogočata primerjavo velikih jezikovnih modelov na nalogah v slovenskem jeziku:

  • SloBENCH: Ta platforma omogoča evalvacijo tehnologij za obdelavo naravnega jezika na naslednjih nalogah v slovenskem jeziku: naravnojezikovno sklepanje, strojno prevajanje (med angleščino in slovenščino), razpoznavanje govora, razpoznava imenskih entitet in skladenjsko razčlenjevanje. Vključuje tudi slovenski različici zbirke podatkov Winograd Schema Challenge (WSC) in zbirk podatkov za evalvacijo SuperGLUE.
  • Slovenian LLM eval: Ta platforma združuje sklop zbirk podatkov za evalvacijo velikih jezikovnih modelov v slovenščini (ARC Challenge, ARC Easy, BoolQ, HellaSwag, NQ Open, OpenBookQA, PIQA, TriviaQA, Winogrande). Ogrodje temelji na delu Alekse Gordića, ki je strojno prevedel priljubljene angleške zbirke podatkov v slovenščino. Avtorji ogrodja so nato dodatno izboljšali slovenske prevode.

Ogrodja in zbirke podatkov za evalvacijo VJM v južnoslovanskih jezikih

CLARIN.SI prek središča znanja CLASSLA za južnoslovanske jezike  aktivno razvija jezikovne vire in tehnologije tudi za druge južnoslovanske jezike. V okviru teh aktivnosti je bilo razvitih več ogrodij in zbirk podatkov za evalvacijo jezikovnih tehnologij za številne jezike, kot so:

Središče znanja CLASSLA ponuja informacije tudi o drugih prosto dostopnih zbirkah podatkov, vključno s splošnimi besedilnimi zbirkami ter učnimi in testnimi zbirkami podatkov za različne naloge obdelave naravnega jezika. Najdete jih med pogostimi vprašanji z odgovori (FAQ) za slovenščino, hrvaščino, srbščino, bolgarščino in makedonščino. Pogosta vprašanja vključujejo tudi informacije o virih in tehnologijah za jezikoslovno označevanje besedil v južnoslovanskih jezikih.

Veliki jezikovni modeli in druge jezikovne tehnologije za slovenščino

Prosto dostopne velike jezikovne modele in jezikovne tehnologije za slovenščino najdete predvsem na naslednjih povezavah:

Informacije o odprto dostopnih velikih jezikovnih modelih, govornih tehnologijah in drugih tehnologijah za obdelavo naravnega jezika za slovenski jezik najdete v pregledu jezikovnih tehnologij za slovenščino, ki ga vzdržuje središče znanja CLASSLA. Pregled zajema jezikovne tehnologije, zbirke podatkov in znanstvene članke z naslednjih področij:

Kontakt in družabna omrežja

Če imate kakršna koli vprašanja v zvezi z velikimi jezikovnimi modeli, jezikovnimi tehnologijami ali jezikovnimi viri, jih lahko zastavite središču znanja CLASSLA, ki pokriva te teme za južnoslovanske jezike. Središče znanja je dosegljivo prek e-pošte: helpdesk.classla@clarin.si. CLASSLA ponuja tudi dodatna pojasnila glede dokumentacije na spletnih straneh središča in podporo pri uporabi, prilagajanju, razvoju ali objavi virov in tehnologij za južnoslovanske jezike.

Prijavite se na poštni seznam središča CLASSLA, da boste obveščeni o novih virih, tehnologijah, dogodkih in projektih za slovenščino in druge južnoslovanske jezike.

Dejavnosti središča znanja CLASSLA in infrastrukture CLARIN.SI, ki sta vključena v središče znanja LLMs4SSH, lahko spremljate tudi pred družabnih omrežij:

Člani CLARIN.SI v LLMs4SSH


Glavni člani CLARIN.SI, ki sodelujejo v središču znanja LLMs4SSH, so Simon Krek, Nikola Ljubešić in Taja Kuzman.

Dr. Simon Krek je raziskovalec na Odseku za umetno inteligenco na Institutu “Jožef Stefan” in vodja Centra za jezikovne vire in tehnologije (CJVT) Univerze v Ljubljani. Dejaven je predvsem na področjih leksikografije in leksikogramatike, korpusnega jezikoslovja, obdelave naravnega jezika, vzpostavljanju jezikovnotehnološke infrastrukture ter na področju računalniško podprtega učenja in poučevanja jezika. Dr. Krek je med drugim vodil ključna slovenska projekta za jezikovne tehnologije (Sporazumevanje v slovenskem jeziku in Razvoj slovenščine v digitalnem okolju). Sodeloval je v številnih evropskih projektih (META-NET, xLike idr.) in vodil projekt ELEXIS (Evropska leksikografska infrastruktura). Trenutno vodi projekt PoVeJMo za razvoj velikih jezikovnih modelov za slovenščino in sodeluje v ključnih projektih s področja jezikovnih tehnologij in velikih jezikovnih modelov, kot so MEZZANINE (razvoj govornih virov in tehnologij za slovenščino), LLM4DH, ALT-EDIC4EU in LLMs4EU. Poleg tega opravlja funkcijo namestnika nacionalnega koordinatorja infrastrukture CLARIN.SI.

Dr. Nikola Ljubešić in Taja Kuzman sta raziskovalca na Odseku za tehnologije znanja Instituta “Jožef Stefan”. Delujeta na področjih obdelave naravnega jezika in strojnega učenja. Njune aktivnosti vključujejo razvoj spletnih korpusov (npr. projekt MaCoCu in spletni korpusi CLASSLA-web), orodij za jezikoslovno označevanje besedil v južnoslovanskih jezikih (CLASSLA-Stanza), jezikovnih modelov za tehnološko manj podprte jezike (npr. modeli BERTić in XLM-R-BERTić), govornih korpusov in modelov za razpoznavanje govora (npr. korpusi ParlaSpeech in projekt MEZZANINE). Poleg tega sta aktivna na področjih evalvacije jezikovnih tehnologij za južnoslovanske jezike, uporabe metodologije obdelave naravnega jezika na narečjih južnoslovanskih jezikov (npr. VarDial DIALECT-COPA), odkrivanju sovražnega govora (npr. projekt IMSyPP), kategorizacije tematike in avtomatske identifikacije žanra besedil. Nikola Ljubešić in Taja Kuzman vodita središče znanja CLASSLA za južnoslovanske jezike, ki nudi strokovno znanje s področja jezikovnih virov in tehnologij za južnoslovanske jezike, in sodelujeta v upravnem odboru infrastrukture CLARIN.SI.