Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije

Spletni konkordančniki

Konkordančniki so računalniški programi, ki omogočajo iskanje in statistično obdelavo podatkov v velikih besedilnih zbirkah (korpusih). Zaradi uporabniškega vmesnika so primerni tudi za tiste z nič ali malo računalniškega znanja.

Konkordančnika CLARIN.SI

CLARIN.SI zagotavlja dva konkordančnika, s katerima je mogoče iskati po številnih korpusih. Oba omogočata iskanje po označenih korpusih in izpis in sortiranje konkordanc, izdelavo frekvenčnih leksikonov, izračun kolokoacije itd.

CLARIN.SI KonText

CLARIN.SI KonText  ponuja preiskovanje in analizo besedišča prek 40 korpusov različnih jezikov, večinoma slovenskih. Korpusi so prosto dostopni, vendar pa je za uporabo naprednih funkcij konkordančnika potrebna predhodna prijava prek sistema AAI. Prijava omogoča prilagoditev izgleda zaslona, tudi za posamezne korpuse, izdelavo lastnih podkorpusov, hranjenje poizvedb itd. Konkordačnik KonText je bil razvit za namene Češkega nacionalnega korpusa, CLARIN.SI pa uporablja vejo, ki so jo razvili v okviru češke infrastrukture CLARIN. Navodila za uporabo so dostopna tukaj.

noSketch Engine

CLARIN.SI noSketch Engine ponuja iste korpuse kot KonText CLARIN.SI, vendar prek drugega vmesnika. Prijava ni potrebna, niti ni mogoča. To ima tudi pomanjkljivosti, saj si npr. vsi uporabnki delijo nastavitve zaslona. Konkordančnik noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine; navodila za uporabo so dostopna tukaj.

Specializirani konkordančniki referenčnih korpusov

Nekateri korpusi v repozitoriju imajo poleg možnosti iskanja po zgornjih dveh konkordančnikih tudi svoje namenske konkordančnike.

Gigafida

Korpus Gigafida je referenčni korpus sodobne pisne standardne slovenščine, ki vsebuje besedila najrazličnejših zvrsti. Prva različica je bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku, posodobljena različica pa je bila pripravljena v okviru projekta nadgradnje korpusa in izdana 2019.

Kres

Korpus Kres je uravnoteženi podkorpus, vzorčen iz prve različice korpusa Gigafida, ki je bil ustvarjen v okviru projekta Sporazumevanje v slovenskem jeziku.

Gos

Korpus Gos je korpus govorjene slovenščine, ki je nastal v okviru projekta Sporazumevanje v slovenskem jeziku.

Drugi konkordančniki

Izven CLARIN.SI pa sta za slovenščino na voljo tudi naslednja dva korpusa:

Nova beseda

Nova beseda je korpus s 380 milioni besed Inštituta za slovenski jezik Frana Ramovša ZRC SAZU.

Evrokorpus

Evrokorpus pa je zbirka vzporednih dvojezičnih korpusov slovenskih prevodov zakonodaje EU in je povezan s terminološko bazo Evroterm.