Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije
Common Language Resources and Technology Infrastructure, Slovenia

Spletni konkordančniki

Konkordančniki so računalniški programi, ki omogočajo iskanje, prikaz in statistično obdelavo podatkov v velikih besedilnih zbirkah (korpusih).

 

Konkordančniki CLARIN.SI

CLARIN.SI vzdržuje več konkordančnikov, s katerimi je mogoče iskati po več prek 100 korpusih v 30 jezikih, skupaj pa vsebujejo prek 20 milijard besed. Omogočajo kompleksna iskanja po metapodatkih besedil in po jezikoslovnih oznakah, izpis in sortiranje konkordanc, izdelavo frekvenčnih leksikonov, izračun kolokacij, shranjevanje rezultatov poizvedb itd. Konkordančnika noSketch Engine in KonText uporabljata enak zaledni program, razlikujeta pa se v uporabniških vmesnikih in načinu prijave.

noSketch Engine

noSketch Engine je odprtokodna različica komercialnega konkordančnika Sketch Engine podjetja Lexical Computing. Navodila za uporabo so dostopna na njihovih straneh.

CLARIN.SI ponuja dve instalaciji noSketch Engine:

  • https://www.clarin.si/ske – prijava ni potrebna niti mogoča, kar olajša uporabo manj zahtevnim uporabnikom
  • https://www.clarin.si/skelog – prijava je nujna, vendar se lahko vsak registrira sam; prijava omogoča izdelavo podkorpusov in osebne nastavitve prikazov.

CLARIN.SI se zahvaljuje sodelavcem podjetja Lexical Computing, predvsem Janu Bušti in Tomášu Svobodi, za pomoč pri instalaciji konkordančnika Sketch Engine Crystal v okviru CLARIN.SI.

KonText

Konkordančnik KonText je bil razvit za namene Češkega nacionalnega korpusa in je odprto dostopen na platformi GitHub. Navodila za uporabo so dostopna tukaj.

Vsi korpusi na KonTextu so prosto dostopni, vendar je za uporabo naprednih funkcij potrebna prijava prek sistema AAI. Podobno kot pri noSketch Engine omogoča prijava prilagoditev nastavitev zaslona, tudi za posamezne korpuse, izdelavo lastnih podkorpusov, hranjenje poizvedb itd. Za razliko od noSketch Engine konkordančnik KonText omogoča tudi neposredno povezavo do govornih posnetkov pri govorjenih korpusih, zato pa ne podpira izračuna ključnih besed korpusa.

CLARIN.SI se zahvaljuje sodelavcem Češkega nacionalnega korpusa, predvsem Tomášu Macháleku, za pomoč pri instalaciji KonTexta v okviru CLARIN.SI.

Stari noSketch Engine

Konkordančnik noSketch Engine “Bonito” je stara različica programa noSketch Engine, ki ima bistveno drugačen uporabniški vmesnik, kot pa je sedaj, in ima tudi starejšni zaledni programu. Lexical Computing ga ne vzdržuje več, niti nima več na voljo uporabniške dokumentacije.

Pri CLARIN.SI bo ta instalacija do nadalnjega še dostopna, saj se nanjo sklicujejo nekateri jezikovni viri (npr. Slovar tviterščine ali Besedišče IMP), poleg tega pa omogoča dostop to rezultatov poizvedb v formatu XML, kjer zadošča, da na konec URL-ja poizvedbe dodamo parameter “format=XML”.

CLARIN.SI se zahvaljuje direktorjem podjetja Lexical Computing, Milošu Jakubíčku in Pavlu Rychlýju, da sta omogočila odprt dostop do konkordančnika in predvsem zalednega program Manatee.

Drugi slovenski konkordančniki in korpusi

Za nekatere slovenske referenčne korpuse lahko, poleg možnosti iskanja prek konkordančnikov CLARIN.SI, uporabimo tudi njihove namenske konkordančnike, dostopne na Centru za jezikovne vire in tehnologije Univerze v Ljubljani:

  • Korpus Gigafida je referenčni korpus sodobne pisne standardne slovenščine, ki vsebuje besedila najrazličnejših zvrsti. Prva različica je bila razvita v okviru projekta Sporazumevanje v slovenskem jeziku, ki je potekal od 2007 do 2013, posodobljena različica pa je bila pripravljena v okviru projekta nadgradnje korpusa in izdana 2019.
  • Korpus Kres je uravnoteženi podkorpus, vzorčen iz prve različice korpusa Gigafida, ki je bil ustvarjen v okviru projekta Sporazumevanje v slovenskem jeziku.
  • Korpus Gos je korpus govorjene slovenščine, ki je nastal v okviru projekta Sporazumevanje v slovenskem jeziku.

Za slovenščino so prek svojih konkordančnikov na voljo tudi naslednji korpusi: