{"id":3836,"date":"2019-03-20T13:35:29","date_gmt":"2019-03-20T13:35:29","guid":{"rendered":"http:\/\/www.clarin.si\/info\/?page_id=3836"},"modified":"2024-12-19T14:12:34","modified_gmt":"2024-12-19T14:12:34","slug":"pogosta-vprasanja-za-slovenscino","status":"publish","type":"page","link":"https:\/\/www.clarin.si\/info\/k-center\/pogosta-vprasanja-za-slovenscino\/","title":{"rendered":"Pogosta vpra\u0161anja o jezikovnih virih in tehnologijah za sloven\u0161\u010dino"},"content":{"rendered":"<p>Ta pogosta vpra\u0161anja z odgovori (FAQ) so del dokumentacije sredi\u0161\u010da <a href=\"https:\/\/www.clarin.si\/info\/k-center\/\">CLASSLA<\/a>, ki je sredi\u0161\u010de znanja za ju\u017enoslovanske jezike v okviru evropske raziskovalne infrastrukture <a href=\"http:\/\/www.clarin.si\/info\/o-projektu\/\">CLARIN<\/a>. \u010ce opazite manjkajo\u010de ali napa\u010dne informacije, prosimo, da nas o tem obvestite v e-po\u0161tnem sporo\u010dilu z zadevo \u00bbFAQ_sloven\u0161\u010dina\u00ab na naslov <a href=\"mailto:helpdesk.classla@clarin.si?subject=FAQ_Slovene\">helpdesk.classla@clarin.si<\/a><\/p>\n<p>Vpra\u0161anja v tem razdelku so razdeljena v tri glavne sklope:<\/p>\n\n<h2 id=\"existing\">1. Spletni jezikovni viri za sloven\u0161\u010dino<\/h2>\n<h4 id=\"q11\">V1.1: Kje lahko najdem slovarje slovenskega jezika?<\/h4>\n<p>Spodaj so na\u0161teti glavni slovarski portali, ki jih ponujajo \u010dlani konzorcija CLARIN.SI oziroma katerih izdelavo je podprl CLARIN.SI:<\/p>\n<div id=\"tab-tab-2860-0-0-6-2860-0\" class=\"tab-content\">\n<ul>\n<li style=\"list-style-type: none;\">\n<ul>\n<li><a href=\"https:\/\/fran.si\" target=\"_blank\" rel=\"noopener\">FRAN<\/a> omogo\u010da enotno iskanje po vseh slovarjih slovenskega jezika (splo\u0161nem, etimolo\u0161kem, zgodovinskem, terminolo\u0161kem in nare\u010dnem), ki jih upravlja <a href=\"https:\/\/www.clarin.si\/info\/o-projektu\/partnerji\/#zrcsazu\">In\u0161titut za slovenski jezik Frana Ramov\u0161a ZRC SAZU<\/a>. Poleg tega In\u0161titut ponuja tudi \u0160olski slovar slovenskega jezika, ki je dostopen na portalu <a href=\"https:\/\/www.xn--franek-l2a.si\/\" target=\"_blank\" rel=\"noopener\">Fran\u010dek<\/a>.<\/li>\n<li><a href=\"https:\/\/viri.cjvt.si\/sopomenke\/slv\/\" target=\"_blank\" rel=\"noopener\">Slovar sopomenk<\/a>,\u00a0<a href=\"https:\/\/viri.cjvt.si\/kolokacije\/slv\/\" target=\"_blank\" rel=\"noopener\">kolokacijski slovar<\/a>, manj\u0161i slovar <a href=\"https:\/\/lexonomy.cjvt.si\/slovar-tviterscine\/\" target=\"_blank\" rel=\"noopener\">tviter\u0161\u010dine<\/a> in <a href=\"https:\/\/viri.cjvt.si\/slovensko-madzarski\/slv\/\" target=\"_blank\" rel=\"noopener\">slovensko-mad\u017earski slovar<\/a> so na voljo na portalu <a href=\"https:\/\/www.clarin.si\/info\/o-projektu\/partnerji\/#ul\">Centra za jezikovne vire in tehnologije Univerze v Ljubljani<\/a>.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<ul>\n<li><a href=\"https:\/\/www.kontekst.io\/\" target=\"_blank\" rel=\"noopener\">Kontekst.io<\/a> je leksikon semanti\u010dno povezanih besed za sloven\u0161\u010dino, hrva\u0161\u010dino in srb\u0161\u010dino, ki je bil narejen avtomatsko na osnovi vlo\u017eitev besed iz velikih korpusov.<\/li>\n<li><a title=\"http:\/\/www.termania.net\" href=\"https:\/\/www.termania.net\/\" target=\"_blank\" rel=\"noopener\">Termania<\/a> je prosto dostopni spletni slovarski portal za razli\u010dne jezike in podro\u010dja, ki ga ponuja <a href=\"https:\/\/www.clarin.si\/info\/o-projektu\/partnerji\/#amebis\">podjetje Amebis<\/a>.<\/li>\n<li><a title=\"http:\/\/www.slovenscina.eu\/sloleks\" href=\"https:\/\/viri.cjvt.si\/sloleks\/slv\/\" target=\"_blank\" rel=\"noopener\">Sloleks<\/a>,<span class=\"style\"> slovenski oblikoslovni leksikon, <a href=\"https:\/\/www.cjvt.si\/sssj\/\" target=\"_blank\" rel=\"noopener\">SSSJ<\/a>, testni spletni slovar slovenskega jezika, in <a href=\"http:\/\/ssj.slovenscina.eu\/spletni-slovar\/leksikalna-baza\" target=\"_blank\" rel=\"noopener\">LBS<\/a>, prototipna leksikalna baza za sloven\u0161\u010dino, so del rezultatov projekta <a href=\"http:\/\/projekt.slovenscina.eu\/\" target=\"_blank\" rel=\"noopener\">\u00bbSporazumevanje v slovenskem jeziku\u00ab<\/a>, katerega portal gostuje na stre\u017eniku infrastrukture CLARIN.SI.<\/span><span class=\"style\"><br \/>\n<\/span><\/li>\n<li><a class=\"style_3\" title=\"http:\/\/nl.ijs.si\/slownet\" href=\"https:\/\/nl.ijs.si\/slownet\" target=\"_blank\" rel=\"noopener\">sloWNet<\/a>, semanti\u010dni leksikon slovenskega jezika po vzoru leksikona WordNet, <a href=\"https:\/\/nl.ijs.si\/imp\/#lexicon\" target=\"_blank\" rel=\"noopener\">IMP<\/a>, glosar starej\u0161e sloven\u0161\u010dine, in <a href=\"https:\/\/nl.ijs.si\/jaslo\/index-sl.html\" target=\"_blank\" rel=\"noopener\">jaSlo<\/a>, japonsko-slovenski u\u010dni slovar, upravlja <a href=\"https:\/\/www.clarin.si\/info\/o-projektu\/partnerji\/#ijs\">Institut \u00bbJo\u017eef Stefan\u00ab<\/a>.<span class=\"style\"><br \/>\n<\/span><\/li>\n<li><a href=\"http:\/\/hdl.handle.net\/11356\/1888\" target=\"_blank\" rel=\"noopener\">WordNet OSWN<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1925\" target=\"_blank\" rel=\"noopener\">sloWNet-USAS<\/a>, raz\u0161irjena semanti\u010dna leksikona slovenskega jezika, ki vklju\u010dujeta tudi leksikon sloWNet, sta na voljo na <a href=\"https:\/\/www.clarin.si\/repository\/xmlui\/?locale-attribute=en\" target=\"_blank\" rel=\"noopener\">repozitoriju CLARIN.SI<\/a>.<\/li>\n<li><a class=\"style_3\" title=\"http:\/\/www.razvezanijezik.org\/\" href=\"https:\/\/www.razvezanijezik.org\/\" target=\"_blank\" rel=\"noopener\">Razvezani jezik<\/a>, slovar \u017eive sloven\u0161\u010dine, ponuja Dru\u0161tvo za doma\u010de raziskave.<\/li>\n<li><a href=\"https:\/\/www.clarin.si\/repository\/xmlui\/?locale-attribute=sl\" target=\"_blank\" rel=\"noopener\">Repozitorij CLARIN.SI<\/a>\u00a0omogo\u010da prenos tudi ve\u010d terminolo\u0161kih slovarjev, kot so <a href=\"http:\/\/hdl.handle.net\/11356\/1731\" target=\"_blank\" rel=\"noopener\">slovensko-angle\u0161ki slovar vzgoje in izobra\u017eevanja<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1727\" target=\"_blank\" rel=\"noopener\">terminolo\u0161ki slovar umetne inteligence<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1721\" target=\"_blank\" rel=\"noopener\">dav\u010dni terminolo\u0161ki slovar<\/a> in drugi.<\/li>\n<\/ul>\n<p>Slovarji drugih ponudnikov:<\/p>\n<ul>\n<li>Ve\u010djezi\u010dno terminolo\u0161ko zbirko <a class=\"style_3\" title=\"http:\/\/www.evroterm.gov.si\/\" href=\"http:\/\/www.evroterm.gov.si\/\" target=\"_blank\" rel=\"noopener\">Evroterm<\/a> in obse\u017een seznam <a title=\"http:\/\/evroterm.gov.si\/slovar\/\" href=\"https:\/\/evroterm.vlada.si\/slovarji\" target=\"_blank\" rel=\"noopener\">slovarjev, dostopnih prek spleta,<\/a> ponuja Sektor za prevajanje Generalnega sekretariata Vlade Republike Slovenije.<\/li>\n<li><a class=\"style_3\" title=\"http:\/\/www.islovar.org\/\" href=\"http:\/\/www.islovar.org\/\" target=\"_blank\" rel=\"noopener\">Islovar<\/a>\u00a0je terminolo\u0161ki slovar informatike, ki ga ureja Slovensko dru\u0161tvo Informatika.<\/li>\n<li><a class=\"style_3\" title=\"http:\/\/sl.wiktionary.org\/\" href=\"https:\/\/sl.wiktionary.org\/\" target=\"_blank\" rel=\"noopener\">Wikislovar<\/a> je slovenski del splo\u0161nega, ve\u010djezi\u010dnega, prostodostopnega in prostourejevalnega slovarja.<\/li>\n<\/ul>\n<\/div>\n<h4 id=\"q12\">V1.2:\u00a0Ali lahko korpuse sloven\u0161\u010dine analiziram v spletu?<\/h4>\n<p>CLARIN.SI omogo\u010da dostop do \u0161tirih konkordan\u010dnikov, ki uporabljajo isto zaledje in nabor korpusov, vendar imajo razli\u010den \u010delni del sistema:<\/p>\n<ul>\n<li><a href=\"https:\/\/www.clarin.si\/ske\/\" target=\"_blank\" rel=\"noopener noreferrer\">CLARIN.SI Crystal noSketch Engine<\/a> je odprtokodna razli\u010dica komercialnega konkordan\u010dnika <a href=\"https:\/\/www.sketchengine.co.uk\/\" target=\"_blank\" rel=\"noopener noreferrer\">Sketch Engine<\/a>. Navodila za uporabo so dostopna <a href=\"https:\/\/www.sketchengine.co.uk\/user-guide\/\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>. CLARIN.SI ponuja dve instalaciji Crystal noSketch Engine: <a href=\"https:\/\/www.clarin.si\/ske\/\" target=\"_blank\" rel=\"noopener\">odprto instalacijo<\/a> (dostop brez prijave, kar olaj\u0161a uporabo manj zahtevnim uporabnikom) in <a href=\"https:\/\/www.clarin.si\/skelog\" target=\"_blank\" rel=\"noopener\">razli\u010dico s prijavo<\/a>, ki omogo\u010da izdelavo podkorpusov in osebne nastavitve prikazov.<\/li>\n<li><a href=\"https:\/\/www.clarin.si\/kontext\/corpora\/corplist\" target=\"_blank\" rel=\"noopener\">KonText<\/a> je konkordan\u010dnik, za katerega je zna\u010dilen druga\u010den uporabni\u0161ki vmesnik. Osnovne funkcije so na voljo brez prijave, za uporabo naprednej\u0161ih mo\u017enosti pa je potrebna prijava prek ponudnika identitete v infrastrukturi AAI.<\/li>\n<li><a href=\"https:\/\/www.clarin.si\/noske\/\" target=\"_blank\" rel=\"noopener noreferrer\">CLARIN.SI Bonito noSketch Engine<\/a> je stara razli\u010dica programa noSketch Engine, ki ima bistveno druga\u010den izgled uporabni\u0161kega vmesnika kot Crystal. Stara razli\u010dica omogo\u010da nekatere funkcionalnosti, ki jih novi noSketch Engine ne, predvsem dostop do rezultatov poizvedb v formatu XML, kjer zado\u0161\u010da, da na konec URL-ja poizvedbe dodamo parameter &#8220;format=XML&#8221;.<\/li>\n<\/ul>\n<p>Navodila za iskanje po korpusih prek vmesnikov, podobnih konkordan\u010dniku Sketch Engine, najdete na <a href=\"https:\/\/www.sketchengine.eu\/documentation\/corpus-querying\/\" target=\"_blank\" rel=\"noopener\">tej povezavi<\/a>.<\/p>\n<p>Dobro je vedeti, da pla\u010dljivo orodje <a href=\"https:\/\/www.sketchengine.eu\" target=\"_blank\" rel=\"noopener\">Sketch Engine<\/a> prav tako omogo\u010da dostop do <a href=\"https:\/\/www.sketchengine.eu\/corpora-and-languages\/slovenian-text-corpora\/\" target=\"_blank\" rel=\"noopener\">\u0161tevilnih korpusov sloven\u0161\u010dine<\/a>, poleg tega pa ponuja tudi dodatne mo\u017enosti analiziranja korpusa, ki jih pri brezpla\u010dnem konkordan\u010dniku NoSketch Engine ne najdemo. Med drugim omogo\u010da analiziranje kolokacij (<a href=\"https:\/\/www.sketchengine.eu\/guide\/word-sketch-collocations-and-word-combinations\/\" target=\"_blank\" rel=\"noopener\">Besedne skice<\/a>), sopomenk in protipomenk (<a href=\"https:\/\/www.sketchengine.eu\/guide\/thesaurus-synonyms-antonyms-similar-words\/\" target=\"_blank\" rel=\"noopener\">Tezaver<\/a>), ustvarjanje frekven\u010dnih seznamov ve\u010dbesednih enot (<a href=\"https:\/\/www.sketchengine.eu\/guide\/n-grams-multiword-expressions\/\" target=\"_blank\" rel=\"noopener\">N-grami<\/a>) in lu\u0161\u010denje <a href=\"https:\/\/www.sketchengine.eu\/guide\/keywords-and-term-extraction\/\" target=\"_blank\" rel=\"noopener\">klju\u010dnih besed in terminov<\/a>. Uporabniki pa lahko ustvarijo tudi lastne korpuse.<\/p>\n<p>Nekateri korpusi sloven\u0161\u010dine, \u0161e posebej tisti, ki so bili zbrani v okviru projekta <a href=\"http:\/\/projekt.slovenscina.eu\/\" target=\"_blank\" rel=\"noopener\">\u00bbSporazumevanje v slovenskem jeziku\u00ab<\/a>, imajo svoje posebne spletne konkordan\u010dnike, prim. seznam korpusov pri vpra\u0161anju <a href=\"#v13\">V1.3<\/a>.<\/p>\n<h4>V1.3:\u00a0Katere korpuse sloven\u0161\u010dine lahko analiziram v spletu?<\/h4>\n<p><a href=\"https:\/\/viri.cjvt.si\/gigafida\/System\/About\" target=\"_blank\" rel=\"noopener\">Gigafida<\/a> je osrednji referen\u010dni korpus za sloven\u0161\u010dino (1 milijarda besed), po katerem lahko i\u0161\u010dete prek <a href=\"https:\/\/viri.cjvt.si\/gigafida\/\" target=\"_blank\" rel=\"noopener\">posebnega vmesnika<\/a> ali prek konkordan\u010dnikov\u00a0 <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=gfida20\" target=\"_blank\" rel=\"noopener\">Crystal noSkE<\/a>, <a href=\"https:\/\/www.clarin.si\/noske\/run.cgi\/corp_info?corpname=gfida20&amp;struct_attr_stats=1\" target=\"_blank\" rel=\"noopener\">Bonito noSkE<\/a> in <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida20\" target=\"_blank\" rel=\"noopener\">KonText<\/a>. Na voljo je tudi razli\u010dica korpusa, v kateri so odstranjeni vsi (skoraj) identi\u010dni odstavki, prim. <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=gfida20_dedup\" target=\"_blank\" rel=\"noopener\">noSkE<\/a> ali <a href=\"https:\/\/www.clarin.si\/kontext\/first_form?corpname=gfida20_dedup\" target=\"_blank\" rel=\"noopener\">KonText<\/a>. Uravnote\u017eeni podkorpus Gigafide se imenuje <a href=\"http:\/\/ssj.slovenscina.eu\/korpusi\/kres\" target=\"_blank\" rel=\"noopener\">KRES<\/a> (100 milijonov pojavnic), iskanje po njem pa je omogo\u010deno prek <a href=\"http:\/\/www.korpus-kres.net\/\" target=\"_blank\" rel=\"noopener\">posebnega vmesnika<\/a>.<\/p>\n<p>Celoten seznam korpusov, po katerih lahko i\u0161\u010dete s konkordan\u010dniki, ki jih ponuja CLARIN.SI, je na voljo v kazalu na spletnih mestih <a href=\"https:\/\/www.clarin.si\/ske\/#open\" target=\"_blank\" rel=\"noopener\">Crystal noSkE<\/a>, <a href=\"https:\/\/www.clarin.si\/noske\/index.html\" target=\"_blank\" rel=\"noopener\">Bonito noSkE<\/a> in <a href=\"https:\/\/www.clarin.si\/kontext\/corpora\/corplist\" target=\"_blank\" rel=\"noopener\">KonText<\/a>. Spodaj je na\u0161tetih nekaj najpomembnej\u0161ih, ki so opremljeni s povezavo do konkordan\u010dnika Crystal noSketch Engine:<\/p>\n<ul>\n<li><em><span style=\"text-decoration: underline;\">korpusa splo\u0161nega jezika<\/span><\/em> sta (poleg <a href=\"https:\/\/viri.cjvt.si\/gigafida\/\" target=\"_blank\" rel=\"noopener\">Gigafide<\/a>) tudi korpusa <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlaweb_sl\" target=\"_blank\" rel=\"noopener\">CLASSLA-web.sl<\/a> (2 milijardi pojavnic) in <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=slwac\" target=\"_blank\" rel=\"noopener\">slWaC<\/a> (900 milijonov pojavnic), obse\u017ena korpusa slovenskih spletnih besedil;<\/li>\n<li><span style=\"text-decoration: underline;\"><em>specializirani korpusi<\/em><\/span> vklju\u010dujejo korpus akademske sloven\u0161\u010dine <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=kas\" target=\"_blank\" rel=\"noopener\">KAS<\/a>, korpus znanstvenih objav s portala Open Science <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=oss10\" target=\"_blank\" rel=\"noopener\">OSS<\/a>, korpus znanstvenih besedil sodobne sloven\u0161\u010dine <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=kzb10\" target=\"_blank\" rel=\"noopener\">KZB<\/a>, korpus slovenskih uporabni\u0161kih besedil <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=janes\" target=\"_blank\" rel=\"noopener\">Janes<\/a>, spremljevalni korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=trendi\" target=\"_blank\" rel=\"noopener\">Trendi<\/a>, korpus govorjene sloven\u0161\u010dine <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=gos21\" target=\"_blank\" rel=\"noopener\">GOS<\/a>, korpusi parlamentarnih razprav <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=siparl40\" target=\"_blank\" rel=\"noopener\">siParl<\/a>, <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=parlamint41_si\" target=\"_blank\" rel=\"noopener\">ParlaMint-SI<\/a>, <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=yu1parl\" target=\"_blank\" rel=\"noopener\">yu1Parl<\/a> in korpus obravnav de\u017eelnega zbora kranjskega <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=kranjska\" target=\"_blank\" rel=\"noopener\">Kranjska<\/a>, korpus besedil iz Wikipedije <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=classlawiki_sl\" target=\"_blank\" rel=\"noopener\">CLASSLAWiki-sl<\/a>, korpus starej\u0161e sloven\u0161\u010dine <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=imp\" target=\"_blank\" rel=\"noopener\">IMP<\/a>, korpus slovenske periodike\u00a0(1771-1914) <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=speriodika\" target=\"_blank\" rel=\"noopener\">sPeriodika<\/a>, korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=pregovori\" target=\"_blank\" rel=\"noopener\">Pregovori<\/a>, korpus dalj\u0161e proze <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=kdsp\" target=\"_blank\" rel=\"noopener\">KDSP<\/a>, korpus mladinske knji\u017eevnosti <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=maks\" target=\"_blank\" rel=\"noopener\">MAKS<\/a>, korpus pisnih \u0161olskih izdelkov <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=solar30_orig\" target=\"_blank\" rel=\"noopener\">\u0160OLAR<\/a> in korpus sloven\u0161\u010dine kot tuji jezik <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=kost20_orig\" target=\"_blank\" rel=\"noopener\">KOST<\/a><em>;<\/em><\/li>\n<li><em><span style=\"text-decoration: underline;\">ro\u010dno ozna\u010deni korpusi<\/span><\/em> zajemajo u\u010dni korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=suk11\" target=\"_blank\" rel=\"noopener\">SUK<\/a>, korpus starej\u0161e sloven\u0161\u010dine <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=goo300k\" target=\"_blank\" rel=\"noopener\">goo300k<\/a> (vzor\u010den iz korpusa IMP), korpus s termini ozna\u010denih besedil <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=rsdo5\" target=\"_blank\" rel=\"noopener\">RSDO5<\/a> in korpusa slovenskih uporabni\u0161kih besedil <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=janes_norm30\" target=\"_blank\" rel=\"noopener\">Janes Norm<\/a> (vzor\u010den iz korpusa Janes), ki je ro\u010dno normaliziran, in <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=janes_tag\" target=\"_blank\" rel=\"noopener\">Janes Tag<\/a> (vzor\u010den iz Janes-norm), ki je ro\u010dno lematiziran ter ozna\u010den z oblikoskladenjskimi oznakami in imenskimi entitetami;<\/li>\n<li><span style=\"text-decoration: underline;\"><em>zdru\u017eeni korpus<\/em><\/span> <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=mfida10\" target=\"_blank\" rel=\"noopener\">metaFida<\/a>, ki zajema 6 milijard pojavnic, zdru\u017euje najpomembnej\u0161e javno dostopne slovenske korpuse in omogo\u010da enovito in pregledno iskanje po njih;<\/li>\n<li><span style=\"text-decoration: underline;\"><em>vzporedni korpusi<\/em><\/span> vklju\u010dujejo ve\u010djezi\u010dne evropske korpuse parlamentarnih razprav <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=parlamint41_xx\" target=\"_blank\" rel=\"noopener\">ParlaMint-XX<\/a>, poravnane s strojno prevedenimi angle\u0161kimi korpusi <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=parlamint41_xx_en\" target=\"_blank\" rel=\"noopener\">ParlaMint-XX-en<\/a>, ve\u010djezi\u010dni korpus prevodov Generalnega direktorata za prevajanje <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=dgtud_sl\" target=\"_blank\" rel=\"noopener\">EU DGT-UD: Slovenian<\/a>, slovensko-angle\u0161ki korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=trans5_sl\" target=\"_blank\" rel=\"noopener\">TRANS5<\/a>, italijansko-slovenski korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=ispac_sl\" target=\"_blank\" rel=\"noopener\">ISPAC<\/a>, francosko-slovenski korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=lemonde_sl\" target=\"_blank\" rel=\"noopener\">LeMonde<\/a> in japonsko-slovenski korpus <a href=\"https:\/\/www.clarin.si\/ske\/#dashboard?corpname=jaslo_sl\" target=\"_blank\" rel=\"noopener\">jaSlo<\/a>.<\/li>\n<\/ul>\n<p>Poleg tega ponuja <a href=\"https:\/\/www.sketchengine.eu\/corpora-and-languages\/slovenian-text-corpora\/\" target=\"_blank\" rel=\"noopener\">ve\u010d slovenskih korpusov<\/a> tudi pla\u010dljivi <a href=\"https:\/\/www.sketchengine.eu\" target=\"_blank\" rel=\"noopener\">Sketch Engine<\/a>, npr. korpus lektoriranih avtorskih besedil in prevodov Lektor, po katerem lahko i\u0161\u010dete tudi prek <a href=\"http:\/\/lektor.sketchengine.co.uk\/run.cgi\/first_form?corpname=fidaplus_lektor\" target=\"_blank\" rel=\"noopener\">posebnega vmesnika,<\/a> korpus <a href=\"https:\/\/www.sketchengine.eu\/eurlex-corpus\/\" target=\"_blank\" rel=\"noopener\">EUR-Lex Slovenian 2\/2016<\/a>, vzporedni korpus zapisnikov razprav Evropskega parlamenta <a href=\"https:\/\/www.sketchengine.eu\/europarl-parallel-corpus\/\" target=\"_blank\" rel=\"noopener\">EUROPARL7<\/a> in vzporedni korpus 40 jezikov <a href=\"https:\/\/www.sketchengine.eu\/opus-parallel-corpora\/\" target=\"_blank\" rel=\"noopener\">OPUS2<\/a>.<\/p>\n<h4>V1.4:\u00a0Katere ozna\u010devalne sheme so uporabljene v korpusih sloven\u0161\u010dine?<\/h4>\n<p>Za podrobne informacije se obrnite na <a href=\"https:\/\/wiki.cjvt.si\/shelves\/jezikoslovno-oznacevanje-korpusov\" target=\"_blank\" rel=\"noopener\">pregled jezikoslovnega ozna\u010devanja slovenskih korpusov<\/a> na <a href=\"https:\/\/wiki.cjvt.si\/\" target=\"_blank\" rel=\"noopener\">CJVT Wiki<\/a>. Korpusno ozna\u010devanje je predstavljeno po slede\u010dih ozna\u010devalnih nivojih: <a href=\"https:\/\/wiki.cjvt.si\/books\/01-tokenizacija\" target=\"_blank\" rel=\"noopener\">tokenizacija<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/02-segmentacija\" target=\"_blank\" rel=\"noopener\">stav\u010dna segmentacija<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/05-lematizacija\" target=\"_blank\" rel=\"noopener\">lematizacija<\/a>, oblikoskladnja <a href=\"https:\/\/wiki.cjvt.si\/books\/06-odvisnostna-skladnja-jos-syn\" target=\"_blank\" rel=\"noopener\">JOS<\/a>\/<a href=\"https:\/\/wiki.cjvt.si\/books\/04-oblikoskladnja-multext-east\" target=\"_blank\" rel=\"noopener\">MULTEXT-East v6<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/06-odvisnostna-skladnja-jos-syn\" target=\"_blank\" rel=\"noopener\">skladnja SSJ\/JOS<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/07-universal-dependencies\" target=\"_blank\" rel=\"noopener\">skladnja Universal Dependencies (UD)<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/10-udelezenske-vloge-srl\" target=\"_blank\" rel=\"noopener\">udele\u017eenske vloge (SRL)<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/08-imenske-entitete\" target=\"_blank\" rel=\"noopener\">imenske entitete (NER)<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/03-normalizacija\" target=\"_blank\" rel=\"noopener\">normalizacija<\/a>, <a href=\"https:\/\/wiki.cjvt.si\/books\/09-koreference\" target=\"_blank\" rel=\"noopener\">koreference<\/a> in <a href=\"https:\/\/wiki.cjvt.si\/books\/13-povezave\" target=\"_blank\" rel=\"noopener\">povezave<\/a>, predstavljena pa sta tudi sistema za ozna\u010devanje jezikovnih popravkov v korpusih <a href=\"https:\/\/wiki.cjvt.si\/books\/11-jezikovni-popravki-solar\" target=\"_blank\" rel=\"noopener\">\u0160olar (besedila u\u010dencev)<\/a> in <a href=\"https:\/\/wiki.cjvt.si\/books\/12-jezikovni-popravki-kost\" target=\"_blank\" rel=\"noopener\">KOST (besedila govorcev sloven\u0161\u010dine kot tujega jezika)<\/a>. Vsako ozna\u010devalno ravnino sestavljajo kratka predstavitev, predstavitev oznak oz. procesa, ozna\u010devalne smernice ter relevantne reference in povezave.<\/p>\n<p>Ve\u010dina zgoraj omenjenih korpusov je oblikoskladenjsko ozna\u010denih z naborom oznak <a href=\"https:\/\/wiki.cjvt.si\/books\/04-oblikoskladnja-multext-east\" target=\"_blank\" rel=\"noopener\">MULTEXT-East za slovenski jezik<\/a>. Na skladenjski ravni se, \u0161e posebej pri starej\u0161ih korpusih, uporablja <a href=\"https:\/\/wiki.cjvt.si\/books\/06-odvisnostna-skladnja-jos-syn\" target=\"_blank\" rel=\"noopener\">nabor oznak SSJ<\/a>, ki je bil razvit posebej za sloven\u0161\u010dino. Pri novej\u0161ih korpusih se vedno bolj uporabljajo smernice, oblikovane v okviru projekta <a href=\"https:\/\/universaldependencies.org\/u\/overview\/syntax.html\" target=\"_blank\" rel=\"noopener\">Univerzalne odvisnostne drevesnice<\/a> (UD). Imenske entitete so navadno ozna\u010dene v skladu s <a href=\"https:\/\/wiki.cjvt.si\/books\/08-imenske-entitete\" target=\"_blank\" rel=\"noopener\">smernicami za imenske entitete JANES<\/a>.<\/p>\n<h4 id=\"q15\">V1.5: Kje lahko prevzamem vire za sloven\u0161\u010dino?<\/h4>\n<p>Glavno mesto za arhiviranje in prevzemanje virov za sloven\u0161\u010dino je <a href=\"https:\/\/www.clarin.si\/repository\/xmlui\/?locale-attribute=sl\" target=\"_blank\" rel=\"noopener\">repozitorij CLARIN.SI<\/a>.<\/p>\n<p>Repozitorij poleg virov, omenjenih pri drugih vpra\u0161anjih, ponuja \u0161e:<\/p>\n<ul>\n<li><em>ro\u010dno ozna\u010dene korpuse in podatkovne zbirke,<\/em> kot so zbirka primerov rabe vejice <a href=\"http:\/\/hdl.handle.net\/11356\/1185\" target=\"_blank\" rel=\"noopener\">Vejica 1.3<\/a>, zbirka idiomatskih besednih zvez <a href=\"http:\/\/hdl.handle.net\/11356\/1335\" target=\"_blank\" rel=\"noopener\">SloIE<\/a>, korpusa metafor <a href=\"http:\/\/hdl.handle.net\/11356\/1293\" target=\"_blank\" rel=\"noopener\">KOMET<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1490\" target=\"_blank\" rel=\"noopener\">G-KOMET<\/a>, dvojezi\u010dna zbirka izlu\u0161\u010dene terminologije <a href=\"http:\/\/hdl.handle.net\/11356\/1199\" target=\"_blank\" rel=\"noopener\">KAS-biterm<\/a>, korpus novic <a href=\"http:\/\/hdl.handle.net\/11356\/1110\" target=\"_blank\" rel=\"noopener\">SentiNews<\/a> z ozna\u010denim sentimentom, ve\u010djezi\u010dna zbirka parlamentarnih razprav <a href=\"http:\/\/hdl.handle.net\/11356\/1868\" target=\"_blank\" rel=\"noopener\">ParlaSent<\/a> z ozna\u010denim sentimentom, angle\u0161ko-slovenska zbirka besedil, ozna\u010denih z \u017eanri <a href=\"http:\/\/hdl.handle.net\/11356\/1960\" target=\"_blank\" rel=\"noopener\">X-GENRE<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1651\" target=\"_blank\" rel=\"noopener\">testna mno\u017eica za zaznavanje semanti\u010dnih premikov<\/a>, korpus tvitov <a href=\"http:\/\/hdl.handle.net\/11356\/1154\" target=\"_blank\" rel=\"noopener\">Janes-Preklop<\/a> z ozna\u010denim kodnim preklapljanjem, zbirka dru\u017ebeno nesprejemljivega diskurza <a href=\"http:\/\/hdl.handle.net\/11356\/1462\" target=\"_blank\" rel=\"noopener\">FRENK<\/a>, korpus popravljenih strojnih prevodov <a href=\"http:\/\/hdl.handle.net\/11356\/1065\" target=\"_blank\" rel=\"noopener\">PErr<\/a>, zbirka za vrednotenje zdravorazumskega sklepanja jezikovnih modelov <a href=\"http:\/\/hdl.handle.net\/11356\/1766\" target=\"_blank\" rel=\"noopener\">DIALECT-COPA<\/a> v idrij\u0161\u010dini in zbirka besedil <a href=\"http:\/\/hdl.handle.net\/11356\/1902\" target=\"_blank\" rel=\"noopener\">\u0160olar-Eval<\/a> za vrednotenje slovenskih \u010drkovalnikov in slovni\u010dnih pregledovalnikov;<\/li>\n<li><em>druge vzporedne korpuse,<\/em> kot so\u00a0slovensko-angle\u0161ki vzporedni korpusi <a href=\"http:\/\/hdl.handle.net\/11356\/1813\" target=\"_blank\" rel=\"noopener\">MaCoCu-sl-en<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1061\" target=\"_blank\" rel=\"noopener\">slenWaC<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1457\" target=\"_blank\" rel=\"noopener\">RSDO4 1.0<\/a> ter slovensko-angle\u0161ki vzporedni korpus besedil z idiomatskimi zvezami\u00a0<a href=\"http:\/\/hdl.handle.net\/11356\/1714\" target=\"_blank\" rel=\"noopener\">ParaDiom<\/a>;<\/li>\n<li><em>druge korpuse in podatkovne zbirke<\/em>, kot so obse\u017een korpus spletnih besedil <a href=\"http:\/\/hdl.handle.net\/11356\/1795\" target=\"_blank\" rel=\"noopener\">MaCoCu-sl<\/a> (1,9 milijarde besed), ki je na voljo tudi v sklopu zbirke korpusov <a href=\"http:\/\/hdl.handle.net\/11356\/1969\" target=\"_blank\" rel=\"noopener\">MaCoCu-Genre<\/a>, ozna\u010dene z \u017eanri, jezikovno ozna\u010den korpus parlamentarnih razprav <a href=\"http:\/\/hdl.handle.net\/11356\/1911\" target=\"_blank\" rel=\"noopener\">ParlaMint.ana<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1054\" target=\"_blank\" rel=\"noopener\">korpus tvitov<\/a> z ozna\u010denim sentimentom,\u00a0<a href=\"http:\/\/hdl.handle.net\/11356\/1423\" target=\"_blank\" rel=\"noopener\">zbirka tvitov<\/a> z avtomatsko ozna\u010denim sovra\u017enim govorom, korpus \u0161al <a href=\"http:\/\/hdl.handle.net\/11356\/1945\" target=\"_blank\" rel=\"noopener\">\u0160ale24<\/a>, ve\u010djezi\u010dna zbirka novic <a href=\"http:\/\/hdl.handle.net\/11356\/1991\" target=\"_blank\" rel=\"noopener\">EMMediaTopic<\/a>, ozna\u010dena s tematskimi kategorijami po naboru kategorij IPTC, korpus u\u010dbenikov <a href=\"http:\/\/hdl.handle.net\/11356\/1693\" target=\"_blank\" rel=\"noopener\">ccU\u010dbeniki<\/a>, korpus literature iz maja 1968 <a href=\"http:\/\/hdl.handle.net\/11356\/1970\" target=\"_blank\" rel=\"noopener\">Maj68<\/a>, zbirka medicinskih besedil <a href=\"http:\/\/hdl.handle.net\/11356\/1983\" target=\"_blank\" rel=\"noopener\">PoVeJMo-VeMo-Med<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1694\" target=\"_blank\" rel=\"noopener\">zbirke za pomensko detekcijo sopomenk in protipomenk<\/a>, vzporedni korpus za pomensko razdvoumljanje <a href=\"http:\/\/hdl.handle.net\/11356\/1842\" target=\"_blank\" rel=\"noopener\">ELEXIS-WSD<\/a>, zbirka <a href=\"http:\/\/hdl.handle.net\/11356\/1988\" target=\"_blank\" rel=\"noopener\">KE-WSC Winograd Schema Challenge<\/a> za preu\u010devanje problemov razlaganja znanja in omogo\u010danje z znanjem podprtega strojnega u\u010denja, u\u010dna zbirka za avtomatsko poenostavljanje besedil <a href=\"http:\/\/hdl.handle.net\/11356\/1682\" target=\"_blank\" rel=\"noopener\">SloTS<\/a>, zbirka za sklepanje v naravnem jeziku <a href=\"http:\/\/hdl.handle.net\/11356\/1707\" target=\"_blank\" rel=\"noopener\">SI-NLI<\/a>, zbirka za ekstrakcijo relacij <a href=\"http:\/\/hdl.handle.net\/11356\/1730\" target=\"_blank\" rel=\"noopener\">SloREL<\/a>, u\u010dne mno\u017eice za dialoge in ukazne zahtevke <a href=\"http:\/\/hdl.handle.net\/11356\/1971\" target=\"_blank\" rel=\"noopener\">GaMS-Instruct-GEN<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1975\" target=\"_blank\" rel=\"noopener\">GaMS-Instruct-DH<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1982\" target=\"_blank\" rel=\"noopener\">GaMS-Instruct-MED<\/a>, govorna baza <a href=\"http:\/\/hdl.handle.net\/11356\/1772\" target=\"_blank\" rel=\"noopener\">ARTUR<\/a> za avtomatsko razpoznavanje govora in govorni korpus <a href=\"http:\/\/hdl.handle.net\/11356\/1977\" target=\"_blank\" rel=\"noopener\">Berta<\/a>;<\/li>\n<li><em>sezname besed in druge leksikalne vire<\/em>, kot so <a href=\"http:\/\/hdl.handle.net\/11356\/1780\" target=\"_blank\" rel=\"noopener\">leksikon terminolo\u0161kih ve\u010dbesednih enot<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1846\" target=\"_blank\" rel=\"noopener\">baza glagolov zahodnih ju\u017enoslovanskih jezikov WeSoSlaV<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1697\" target=\"_blank\" rel=\"noopener\">seznam jedrnega besedi\u0161\u010da za u\u010denje sloven\u0161\u010dine kot drugega in tujega jezika<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1980\" target=\"_blank\" rel=\"noopener\">baza asociacij SWOW-SL<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1048\" target=\"_blank\" rel=\"noopener\">leksikon emojijev<\/a> z avtomatsko ozna\u010denim sentimentom in leksikon \u010dustev <a href=\"http:\/\/hdl.handle.net\/11356\/1875\" target=\"_blank\" rel=\"noopener\">SloEmoLex<\/a>.<\/li>\n<\/ul>\n<hr class=\"shortcode hr blue\" style=\"width:100%;border-width:3px;\" \/>\n<h2 id=\"processing\">2. Orodja za ozna\u010devanje slovenskih besedil<\/h2>\n<h4 id=\"q21\">V2.1: Kako lahko izvedem osnovno jezikovno obdelavo slovenskih besedil?<\/h4>\n<p><a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">Cevovod CLASSLA-Stanza<\/a>, ki temelji na najnovej\u0161ih tehnologijah in metodah jezikovne obdelave, omogo\u010da obdelavo standardne in nestandardne (spletne) sloven\u0161\u010dine, in sicer tokenizacijo in \u010dlenitev na stavke, oblikoskladenjsko ozna\u010devanje, lematizacijo, odvisnostno raz\u010dlenjevanje ter razpoznavo imenskih entitet. Za obdelavo standardne sloven\u0161\u010dine se uporablja tokenizator <a href=\"https:\/\/github.com\/clarinsi\/Obeliks4J\" target=\"_blank\" rel=\"noopener\">Obeliks4J<\/a>, ki deluje na podlagi pravil, za druge primere pa tokenizator <a href=\"https:\/\/github.com\/clarinsi\/reldi-tokeniser\" target=\"_blank\" rel=\"noopener\">reldi-tokeniser<\/a>. V sklopu cevovoda CLASSLA-Stanza so tudi \u017ee pripravljeni modeli za lematizacijo <a href=\"http:\/\/hdl.handle.net\/11356\/1768\" target=\"_blank\" rel=\"noopener\">standardne<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1784\" target=\"_blank\" rel=\"noopener\">nestandardne<\/a> sloven\u0161\u010dine, za oblikoskladenjsko ozna\u010devanje <a href=\"http:\/\/hdl.handle.net\/11356\/1767\" target=\"_blank\" rel=\"noopener\">standardnega<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1786\" target=\"_blank\" rel=\"noopener\">nestandardnega<\/a> slovenskega jezika, ter za ozna\u010devanje udele\u017eenskih vlog za <a href=\"http:\/\/hdl.handle.net\/11356\/1770\" target=\"_blank\" rel=\"noopener\">standardno<\/a> sloven\u0161\u010dino. Cevovod lahko preizkusite na spletni strani <a href=\"https:\/\/clarin.si\/oznacevalnik\/eng\" target=\"_blank\" rel=\"noopener\">Ozna\u010devalnika CLASSLA<\/a>.<\/p>\n<p>Navodila za namestitev in uporabo cevovoda CLASSLA-Stanza najdete <a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.train.md\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>. Za sloven\u0161\u010dino je na voljo tudi nekaj dodatnih mo\u017enosti obdelave, podrobneje opisanih <a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.superuser.md\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>, in sicer uporaba <a href=\"http:\/\/eng.slovenscina.eu\/tehnologije\/razclenjevalnik\" target=\"_blank\" rel=\"noopener\">slovenskega nabora oznak SSJ<\/a>, oblikoslovnega leksikona in predhodno tokeniziranih podatkov.<\/p>\n<p>Poleg tega je tokenizacijo, oblikoskladenjsko ozna\u010devanje in lematizacijo besedil mogo\u010de izvesti tudi s storitvami CLARIN.SI <a href=\"https:\/\/clarin.si\/services\/web\/\" target=\"_blank\" rel=\"noopener\">ReLDIanno<\/a>. To je zastarelo orodje za jezikovno obdelavo, ki je sicer \u0161e vedno na voljo, vendar novim uporabnikom priporo\u010damo uporabo zgoraj omenjenega cevovoda CLASSLA-Stanza.<\/p>\n<h4 id=\"q22\">V2.2: Kako lahko svoja besedila pred obdelavo standardiziram?<\/h4>\n<p><a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">Zgoraj omenjeni cevovod CLASSLA-Stanza<\/a> vklju\u010duje tudi modele za obdelavo nestandardnega jezika, ki omogo\u010dajo jezikovno obdelavo nestandardnih besedil \u017ee pred prej potrebno standardizacijo.<\/p>\n<p>Trenutno je rediakritizator REDI edino spletno orodje, ki je za normalizacijo besedil na voljo v okviru storitev CLARIN.SI <a href=\"https:\/\/clarin.si\/services\/web\/\" target=\"_blank\" rel=\"noopener\">ReLDIanno<\/a>. Uporaba storitev je opisana <a href=\"https:\/\/www.clarin.si\/info\/k-center\/spletne-storitve\/\">tukaj<\/a>. <a href=\"https:\/\/github.com\/clarinsi\/redi\" target=\"_blank\" rel=\"noopener\">Rediakritizator REDI<\/a> lahko tudi namestite in ga uporabljate lokalno.<\/p>\n<p>Za normalizacijo na ravni besed, npr. v besedilih v starej\u0161i in spletni sloven\u0161\u010dini, lahko namestite <a href=\"https:\/\/github.com\/clarinsi\/csmtiser\" target=\"_blank\" rel=\"noopener\">normalizator besedil CSMTiser.<\/a><\/p>\n<h4 id=\"q23\">V2.3: Kako lahko v besedilu ozna\u010dim imenske entitete?<\/h4>\n<p>Razpoznavo imenskih entitet lahko izvedete prek cevovoda <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a>, ki ponuja \u017ee pripravljene modele za <a href=\"http:\/\/hdl.handle.net\/11356\/1321\" target=\"_blank\" rel=\"noopener\">standardno<\/a> in <a href=\"http:\/\/hdl.handle.net\/11356\/1339\" target=\"_blank\" rel=\"noopener\">nestandardno<\/a> sloven\u0161\u010dino. Poleg tega je v okviru storitev CLARIN.SI\u00a0<a href=\"https:\/\/www.clarin.si\/info\/k-center\/spletne-storitve\/\" target=\"_blank\" rel=\"noopener\">ReLDIanno<\/a>\u00a0na voljo tudi spletno orodje za razpoznavo imenskih entitet (NER). Prenesete pa si lahko tudi <a href=\"https:\/\/github.com\/clarinsi\/janes-ner\" target=\"_blank\" rel=\"noopener\">orodje <\/a><a href=\"https:\/\/github.com\/clarinsi\/janes-ner\" data-pjax=\"#js-repo-pjax-container\">janes-ner<\/a>.<\/p>\n<h4 id=\"q24\">V2.4: Kako lahko skladenjsko raz\u010dlenim svoja besedila?<\/h4>\n<p>Slovenska besedila lahko skladenjsko raz\u010dlenite na ve\u010d na\u010dinov:<\/p>\n<ul>\n<li>s cevovodom <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a> (shema <a href=\"https:\/\/universaldependencies.org\/u\/overview\/syntax.html\" target=\"_blank\" rel=\"noopener\">Univerzalne odvisnostne drevesnice<\/a>), ki vklju\u010duje tudi \u017ee pripravljena modela za skladenjsko raz\u010dlenjevanje po <a href=\"http:\/\/hdl.handle.net\/11356\/1769\" target=\"_blank\" rel=\"noopener\">shemi UD<\/a> in po slovenski shemi <a href=\"http:\/\/hdl.handle.net\/11356\/1764\" target=\"_blank\" rel=\"noopener\">JOS<\/a>,<\/li>\n<li>s storitvami CLARIN.SI <a href=\"https:\/\/www.clarin.si\/info\/k-center\/spletne-storitve\/\" rel=\"noopener\">ReLDIanno<\/a> (shema <a href=\"https:\/\/universaldependencies.org\/u\/overview\/syntax.html\" target=\"_blank\" rel=\"noopener\">Univerzalne odvisnostne drevesnice<\/a>),<\/li>\n<li>z <a href=\"https:\/\/ufal.mff.cuni.cz\/udpipe\" target=\"_blank\" rel=\"noopener\">orodjem UDPipe<\/a>, ki ima \u017ee pripravljene modele za veliko \u0161tevilo jezikov, vklju\u010dno s sloven\u0161\u010dino (shema <a href=\"https:\/\/universaldependencies.org\/u\/overview\/syntax.html\" target=\"_blank\" rel=\"noopener\">Univerzalne odvisnostne drevesnice<\/a>),<\/li>\n<li>z <a href=\"http:\/\/eng.slovenscina.eu\/tehnologije\/razclenjevalnik\" target=\"_blank\" rel=\"noopener\">Raz\u010dlenjevalnikom<\/a> (shema, razvita posebej za sloven\u0161\u010dino).<\/li>\n<\/ul>\n<hr class=\"shortcode hr blue\" style=\"width:100%;border-width:3px;\" \/>\n<h2 id=\"training\">3. Nabor podatkov za u\u010denje ozna\u010devalnikov za sloven\u0161\u010dino<\/h2>\n<h4 id=\"q31\">V3.1: Kje lahko najdem vektorske vlo\u017eitve besed ali vnaprej nau\u010dene jezikovne modele za sloven\u0161\u010dino?<\/h4>\n<ul>\n<li><a href=\"http:\/\/hdl.handle.net\/11356\/1791\" target=\"_blank\" rel=\"noopener\">CLARIN.SI-embed.sl<\/a> je zbirka vektorskih vlo\u017eitev besed, ki so bile nau\u010dene na najobse\u017enej\u0161i zbirki slovenskih besedilnih podatkov (Gigafida, slWaC, JANES, KAS, MaCoCu-sl, idr.).<\/li>\n<li>Zbirke nau\u010denih vektorskih vlo\u017eitev za sloven\u0161\u010dino so na voljo tudi v orodjih <a href=\"https:\/\/embeddings.sketchengine.eu\/static\/index.html\" target=\"_blank\" rel=\"noopener\">SketchEngine<\/a> in <a href=\"https:\/\/fasttext.cc\/docs\/en\/crawl-vectors.html\" target=\"_blank\" rel=\"noopener\">fastText<\/a>.<\/li>\n<li>\u010ce \u017eelite nau\u010diti svoje vektorske vlo\u017eitve, lahko uporabite <a href=\"https:\/\/hdl.handle.net\/11234\/1-1989\" target=\"_blank\" rel=\"noopener\">slovenski del podatkovne zbirke Commoncrawl<\/a>, ki je najve\u010dja prostodostopna zbirka slovenskih besedil.<\/li>\n<\/ul>\n<p>Poleg tega lahko uporabite tudi najsodobnej\u0161i slovenski vnaprej nau\u010deni jezikovni model BERT\/RoBERTa <a href=\"http:\/\/hdl.handle.net\/11356\/1397\" target=\"_blank\" rel=\"noopener\">SloBERTa<\/a>, ki predstavlja besede\/pojavnice kot kontekstualne besedne vlo\u017eitve. Model omogo\u010da izlu\u0161\u010ditev vektorskih vlo\u017eitev vseh pojavitev besed, kar lahko uporabite za u\u010denje modela v dolo\u010den namen. Skripti in programi za pripravo podatkov in u\u010denje modela so na voljo <a href=\"https:\/\/github.com\/clarinsi\/Slovene-BERT-Tool\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>.<\/p>\n<h4 id=\"q32\">V3.2: Kateri podatki so na voljo za u\u010denje normalizatorja besedil za sloven\u0161\u010dino?<\/h4>\n<p>Za u\u010denje normalizatorjev spletnih besedil v sloven\u0161\u010dini je na voljo nabor podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1733\" target=\"_blank\" rel=\"noopener\">Janes-norm<\/a>, za normalizacijo podatkov v starej\u0161i sloven\u0161\u010dini pa nabor podatkov <a href=\"https:\/\/hdl.handle.net\/11356\/1025\" target=\"_blank\" rel=\"noopener\">goo300k<\/a>.<\/p>\n<h4 id=\"q33\">V3.3: Kateri podatki so na voljo za u\u010denje oblikoskladenjskega ozna\u010devalnika za sloven\u0161\u010dino?<\/h4>\n<p>Referen\u010dni nabor podatkov, ki je na voljo za u\u010denje standardnega ozna\u010devalnika, je <a href=\"http:\/\/hdl.handle.net\/11356\/1959\" target=\"_blank\" rel=\"noopener\">SUK<\/a>. Uporabite lahko tudi nabor podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1213\" target=\"_blank\" rel=\"noopener\">jos1M<\/a>, ki predstavlja srebrni standard. Obstajata pa tudi u\u010dna nabora podatkov za spletno sloven\u0161\u010dino (<a href=\"http:\/\/hdl.handle.net\/11356\/1732\" target=\"_blank\" rel=\"noopener\">Janes-Tag<\/a>) in starej\u0161o sloven\u0161\u010dino (<a href=\"https:\/\/hdl.handle.net\/11356\/1025\" target=\"_blank\" rel=\"noopener\">goo300k<\/a>).<\/p>\n<p>Poleg tega lahko uporabite tudi orodja <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a> skupaj z zbirko vektorskih vlo\u017eitev besed <a href=\"http:\/\/hdl.handle.net\/11356\/1791\" target=\"_blank\" rel=\"noopener\">CLARIN.SI-embed.sl<\/a> in u\u010dnim naborom podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1959\" target=\"_blank\" rel=\"noopener\">SUK<\/a>, da nau\u010dite in evalvirate lasten oblikoskladenjski ozna\u010devalnik. Podrobna navodila najdete <a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.train.md#part-of-speech-tagging-1\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>.<\/p>\n<h4 id=\"q34\">V3.4: Kateri podatki so na voljo za u\u010denje lematizatorja za sloven\u0161\u010dino?<\/h4>\n<p>Za u\u010denje lematizatorjev lahko uporabite podatke za u\u010denje ozna\u010devalnika (<a href=\"http:\/\/hdl.handle.net\/11356\/1959\" target=\"_blank\" rel=\"noopener\">SUK<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1213\" target=\"_blank\" rel=\"noopener\">jos1M<\/a>, <a href=\"http:\/\/hdl.handle.net\/11356\/1238\" target=\"_blank\" rel=\"noopener\">Janes-Tag<\/a>, <a href=\"https:\/\/hdl.handle.net\/11356\/1025\" target=\"_blank\" rel=\"noopener\">goo300k<\/a>; podrobnosti najdete pri <a href=\"#q33\">vpra\u0161anju o u\u010denju oblikoskladenjskega ozna\u010devalnika<\/a>) in\/ali oblikoslovni leksikon <a href=\"http:\/\/hdl.handle.net\/11356\/1732\" target=\"_blank\" rel=\"noopener\">Sloleks<\/a>.<\/p>\n<p>Za u\u010denje lastnega lematizatorja standardne ali nestandardne sloven\u0161\u010dine lahko uporabite tudi orodja <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a>, ki pri lematizaciji uporabljajo zunanji leksikon (<a href=\"http:\/\/hdl.handle.net\/11356\/1732\" target=\"_blank\" rel=\"noopener\">Sloleks<\/a>). Navodila se nahajajo <a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.train.md#lemmatization\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>.<\/p>\n<h4 id=\"q35\">V3.5: Kateri podatki so na voljo za u\u010denje orodja za razpoznavo imenskih entitet za sloven\u0161\u010dino?<\/h4>\n<p>Najbolj\u0161i vir za u\u010denje orodja za razpoznavo imenskih entitet (NER) za standardni jezik je nabor podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1959\" target=\"_blank\" rel=\"noopener\">SUK<\/a>. Za u\u010denje orodij NER za spletna, nestandardna besedila je na voljo nabor podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1238\" target=\"_blank\" rel=\"noopener\">Janes-Tag<\/a>. \u010ce pa \u017eelite u\u010diti modele NER za besedila v starej\u0161i sloven\u0161\u010dini, je najbolje uporabiti nabor podatkov <a href=\"https:\/\/hdl.handle.net\/11356\/1025\" target=\"_blank\" rel=\"noopener\">goo300k<\/a>.<\/p>\n<p>Svoje orodje za razpoznavo imenskih entitet lahko u\u010dite tudi prek orodij <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a>. Navodila za u\u010denje najdete\u00a0<a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.train.md#ner-1\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>.<\/p>\n<h4 id=\"q36\">V3.6: Kateri podatki so na voljo za u\u010denje skladenjskega raz\u010dlenjevalnika za sloven\u0161\u010dino?<\/h4>\n<p>\u010ce \u017eelite za odvisnostno raz\u010dlenjevanje uporabiti shemo <a href=\"https:\/\/universaldependencies.org\/u\/overview\/syntax.html\" target=\"_blank\" rel=\"noopener\">Univerzalne odvisnostne drevesnice<\/a>, u\u010dne podatke dobite v <a href=\"https:\/\/github.com\/UniversalDependencies\/UD_Slovenian-SSJ\" target=\"_blank\" rel=\"noopener\">repozitoriju Univerzalne odvisnostne drevesnice<\/a>.<\/p>\n<p>Za u\u010denje raz\u010dlenjevalnikov po <a href=\"http:\/\/eng.slovenscina.eu\/tehnologije\/razclenjevalnik\" target=\"_blank\" rel=\"noopener\">shemi, razviti posebej za sloven\u0161\u010dino<\/a>, pa vam je na voljo nabor podatkov <a href=\"http:\/\/hdl.handle.net\/11356\/1959\" target=\"_blank\" rel=\"noopener\">SUK<\/a>.<\/p>\n<p>Za u\u010denje lastnega skladenjskega raz\u010dlenjevalnika lahko uporabite tudi orodja <a href=\"https:\/\/github.com\/clarinsi\/classla\" target=\"_blank\" rel=\"noopener\">CLASSLA-Stanza<\/a>. Podrobnej\u0161a navodila najdete <a href=\"https:\/\/github.com\/clarinsi\/classla\/blob\/main\/README.train.md#parsing-1\" target=\"_blank\" rel=\"noopener\">tukaj<\/a>.<\/p>\n\n<p>&nbsp;<\/p>\n<div id=\"themify_builder_content-3836\" data-postid=\"3836\" class=\"themify_builder_content themify_builder_content-3836 themify_builder\">\n    <\/div>\n<!-- \/themify_builder_content -->\n","protected":false},"excerpt":{"rendered":"<p>Ta pogosta vpra\u0161anja z odgovori (FAQ) so del dokumentacije sredi\u0161\u010da CLASSLA, ki je sredi\u0161\u010de znanja za ju\u017enoslovanske jezike v okviru evropske raziskovalne infrastrukture CLARIN. \u010ce opazite manjkajo\u010de ali napa\u010dne informacije, prosimo, da nas o tem obvestite v e-po\u0161tnem sporo\u010dilu z zadevo \u00bbFAQ_sloven\u0161\u010dina\u00ab na naslov helpdesk.classla@clarin.si Vpra\u0161anja v tem razdelku so razdeljena v tri glavne sklope: [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":0,"parent":3834,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-3836","page","type-page","status-publish","hentry","has-post-title","has-post-date","has-post-category","has-post-tag","has-post-comment","has-post-author",""],"_links":{"self":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3836","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/comments?post=3836"}],"version-history":[{"count":124,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3836\/revisions"}],"predecessor-version":[{"id":7830,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3836\/revisions\/7830"}],"up":[{"embeddable":true,"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/pages\/3834"}],"wp:attachment":[{"href":"https:\/\/www.clarin.si\/info\/wp-json\/wp\/v2\/media?parent=3836"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}