Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Spletni konkordančniki

Konkordančniki so računalniški programi, ki omogočajo iskanje in statistično obdelavo podatkov v velikih besedilnih zbirkah (korpusih). Zaradi uporabniškega vmesnika so primerni tudi za tiste z nič ali malo računalniškega znanja.

 

Konkordančniki CLARIN.SI

CLARIN.SI vzdržuje tri konkordančnike, s katerimi je mogoče iskati po več kot 100 korpusih v 30 jezikih in z 20 milijard besed . Vsi trije ponujajo iste korpuse, omogočajo kompleksna iskanja po metapodatkih besedil in jezikoslovnih oznakah, izpis in sortiranje konkordanc, izdelavo frekvenčnih leksikonov, izračun kolokacij, shranjevanje rezultatov poizvedb itd. Konkordančniki KonText, ter dve različici noSketch Engine vsi uporabljajo enak zaledni program, razlikujejo pa se v uporabniških vmesnikih.

KonText

Konkordančnik CLARIN.SI KonText je bil razvit za namene Češkega nacionalnega korpusa in je odprto dostopen na platformi GitHub. Navodila za uporabo so dostopna tukaj. Vsi korpusi na KonTextu so prosto dostopni, vendar je za uporabo nfaprednih funkcij konkordančnika potrebna prijava prek sistema AAI. Prijava omogoča prilagoditev izgleda zaslona, tudi za posamezne korpuse, izdelavo lastnih podkorpusov, hranjenje poizvedb itd. Za razliko od noSketch Engine konkordančnik KonText omogoča tudi neposredno dostopnost govornih posnetkov za govorjene korpuse, vendar pa ne podpira izračuna ključnih besed korpusa.

CLARIN.SI se zahvaljuje sodelavcem Češkega nacionalnega korpusa, predvsem Tomášu Macháleku, za pomoč pri instalaciji KonTexta v okviru CLARIN.SI.

Novi noSketch Engine (Crystal)

Konkordančnik CLARIN.SI Crystal noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine, ki so ga izdelali pri podjetju Lexical Computing. Navodila za uporabo so dostopna tukaj. Prijava v noSketch Engine ni niti potrebna niti ni mogoča. To ima tudi pomanjkljivosti, saj si npr. vsi uporabniki delijo nastavitve zaslona.

CLARIN.SI se zahvaljuje sodelavcem podjetja Lexical Computing, predvsem Janu Bušti in Tomášu Svobodi, za pomoč pri instalaciji konkordančnika Sketch Engine Crystal v okviru CLARIN.SI.

Stari noSketch Engine (Bonito)

Konkordančnik CLARIN.SI Bonito noSketch Engine je stara različica programa noSketch Engine, ki ima bistveno drugačen izgled uporabniškega vmesnika kot Crystal. Lexical Computing ga ne vzdržuje več, niti nima več na voljo uporabniških dokumentacij. Pri CLARIN.SI bomo Bonito vzdrževali še naprej (da bodo na njem dostopni isti korpusi kot na ostalih dveh konkordančnikih), saj je dosti slovenskih uporabnikov navajenih delati s tem konkordančnikom, nekateri jezikovni viri se nanj sklicujejo, poleg tega pa omogoča nekatere funkcionalnosti, ki jih novi noSketch Engine ne, predvsem dostop to rezultatov poizvedb v formatu XML, kjer zadošča, da na konec URL-ja poizvedbe dodamo parameter “format=XML”.

CLARIN.SI se zahvaljuje direktorjem podjetja Lexical Computing, Milošu Jakubíčku in Pavlu Rychlýju, da sta omogočila odprt dostop do konkordančnika in predvsem zalednega program Manatee.

Konkordančniki za slovenske referenčne korpuse

Za nekatere slovenske referenčne korpuse lahko, poleg možnosti iskanja prek konkordančnikov CLARIN.SI, uporabimo tudi njihove namenske konkordančnike, dostopne na Centru za jezikovne vire in tehnologije Univerze v Ljubljani:

Gigafida

Korpus Gigafida je referenčni korpus sodobne pisne standardne slovenščine, ki vsebuje besedila najrazličnejših zvrsti. Prva različica je bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku, ki je potekal od 2007 do 2013, posodobljena različica pa je bila pripravljena v okviru projekta nadgradnje korpusa in izdana 2019.

Kres

Korpus Kres je uravnoteženi podkorpus, vzorčen iz prve različice korpusa Gigafida, ki je bil ustvarjen v okviru projekta Sporazumevanje v slovenskem jeziku.

Gos

Korpus Gos je korpus govorjene slovenščine, ki je nastal v okviru projekta Sporazumevanje v slovenskem jeziku.

Drugi slovenski konkordančniki

Izven CLARIN.SI so za slovenščino prek svojih konkordančnikov na voljo tudi naslednji korpusi:

Evrokorpus

Evrokorpus je zbirka vzporednih dvojezičnih korpusov slovenskih prevodov zakonodaje EU in je povezan s terminološko bazo Evroterm.

Korpus TURK

Turistični korpus TURK je večjezični korpus turističnih besedil v slovenskem, italijanskem in angleškem jeziku, ki je nastal v okviru Znanstveno raziskovalnega središča Univerze na Primorskem.

Nova beseda

Nova beseda je korpus s 380 milijoni besed Inštituta za slovenski jezik Frana Ramovša ZRC SAZU.