Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije

Orodja, servisi, viri

Obdelava besedil

  • črkovalnik in slovnični pregledovalnik slovenskih besedil Besana
  • spletni vmesnik za oblikoskladenjsko označevanje in lematizacijo besedil JOS
  • oblikoskladenjski označevalnik in lematizator za slovenski jezik Obeliks
  • identifikacija in povezovanje termov: Terminator
  • skladenjski razčlenjevalnik SSJ
  • določanje oblikoslovnih oznak in lem ZRC

Jezikovni korpusi

  • Referenčni korpus Gigafida, 1 milijarda besed
  • Uravnoteženi korpus Kres, 100 milijonov besed
  • Korpus pisnega jezika Nova beseda, 318 milijonov besed
  • Korpus starejše slovenščine IMP, 15 milijonov besed
  • Govorni korpus Gos, 1 milijon besed
  • Odprto dostopen korpus ccGigafida100 milijonov besed
  • Odprto dostopen korpus ccKres10 milijonov besed
  • Odprto dostopen učni korpus jos1M, 1 milijon besed
  • Odprto dostopen učni korpus ssj500k, 500.000 besed
  • Odprto dostopen učni korpus starejše slovenščine goo300k, 300,000 besed
  • Odprto dostopen skladenjsko označen korpus SDT, 30.000 besed
  • Šolar: korpus pisnih šolskih izdelkov, 1 milijon besed
  • Lektor: korpus lektoriranih avtorskih besedil in prevodov
  • Korpus DSI: korpus besedil s področja informatike in računalništva, 14 milijonov besed
  • KORP: korpus besedil odnosov z javnostmi, 1,8 milijona besed
  • Evrokorpus: dvo- in večjezični vzporedni korpusi besedil z različnih področij, v katerih je slovenščina vedno eden od jezikov, skupaj več kot 240 milijonov besed
  • MULTEXT-East: oblikoslovno označen večjezični korpus, večjezične oblikoslovne oznake in računalniški leksikon 
  • korpus SPOOK: večjezični primerljivi prevodoslovni korpus
  • SSJ: razvoj referenčnega korpusa in leksikalne baze slovenskega jezika s slovničnim analizatorjem ter razvoj pedagoških priročnikov za poučevanje slovenščine
  • IMP: jezikovni viri starejše slovenščine
  • JOS: jezikoslovno označevanje slovenskega jezika
  • SIGNOR: korpus slovenskega znakovnega jezika in pilotna slovnica
  • CLARIN: evropska raziskovalna infrastruktura za jezikovne vire
  • FLaReNet: evropska mreža za razvoj jezikovnih virov in jezikovnih tehnologij
  • META-SHARE: zbirka metapodatkov o jezikovnih virih, vključuje slovenščino
  • ELRA/ELDA: posredniška hiša za jezikovne vire, vključuje slovenščino
  • LDC: konzorcij za izmenjavo jezikovnih virov

Slovarji in leksikalni viri

  • Pregibnik: računalnik vam pregiba slovenske besede
  • Sloleks: leksikon besednih oblik za slovenščino
  • SFT: slovenščina za popotnike
  • Presis: strojni prevajalnik iz angleščine in nemščine v slovenščino in iz slovenščine v angleščino
  • Google translate: statistični strojni prevajalnik za številne jezike
  • bing Translator: statistični strojni prevajalnik za številne jezike
  • iTranslate: portal statističnih prevajalnikov za številne jezike