Pogosta vprašanja



Kaj je repozitorij CLARIN.SI?

Repozitorij CLARIN.SI je neke vrste knjižnica za jezikovne podatke in orodja. Zagotavlja ga CLARIN.SI (Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije).

V repozitoriju lahko:

  • poiščete podatke in orodja ter jih zlahka prenesete,
  • vnesete različne vrste podatkov in s tem zagotovite, da bodo varno shranjeni in da jih bo lahko vsakdo našel, uporabljal in ustrezno citiral (pripisane vam bodo vse zasluge).

Katere vrste podatkov lahko vnesem v repozitorij CLARIN.SI?

V repozitorij CLARIN.SI lahko vnesete katerekoli jezikoslovne ali jezikovnotehnološke podatke in orodja: korpuse, drevesnice, leksikone oz. slovarje, naučene jezikovne modele ter orodja za obdelavo naravnih jezikov. Za takojšnji dostop do omejenih virov podpiramo tudi elektronsko podpisovanje licenc.

Pred vnosom jezikovnih virov v repozitorij CLARIN.SI najprej pozorno preberite navodila Kako ustvariti vnos, kjer je razložen postopek vnosa in pravilno oblikovanje metapodatkov, medtem ko so struktura in formati podatkov, ki sprejemamo, pojasnjeni v dokumentu Navodila za vnos podatkov v repozitorij CLARIN.SI.

Ali moram za prenos datotek in/ali vnos podatkov ustvariti račun?

  • Brez prijave lahko prenesete podatke in orodja, za katere velja licenca, ki dovoljuje prosto distribucijo. Preberite pogoje licence pred prenosom podatkov. To velja za vse podatke z eno od licenc Creative Commons in za orodja z eno od odprtokodnih licenc.
  • Če želite prenesti podatke in orodja z licenco, ki jo je treba podpisati, se morate prijaviti. Ravno tako se morate prijaviti, če želite ustvariti vnos. Vendar pa novega računa (verjetno) ne potrebujete, če ste del akademske institucije.
  • Kliknite gumb "Prijava" v zgornjem desnem kotu in na seznamu poiščite svojo institucijo. Za prijavo lahko uporabite katerikoli račun pri ponudniku identitete, ki je član združenja EduGAIN.
  • Če nimate ustreznega akademskega računa, ga lahko pridobite na spletni strani infrastrukture CLARIN ERIC.

Ne morem se prijaviti.

Če imate pri prijavi težave, nam to sporočite prek možnosti Pomoč uporabnikom.

Občasno (običajno če ste prvi, ki se prijavljate prek vaše matične institucije) se vam lahko izpiše napaka "Avtentikacija je bila uspešna, vendar nam ponudnik identitete ni posredoval vašega e-poštnega naslova, eppn-ja in trajnega ID-ja". To pomeni, da nam institucija, prek katere se prijavljate, zaradi zaščite osebnih podatkov, ni posredovala dovolj vaših podatkov, ki so potrebni za uporabo naše storitve. Zadostuje nam vaš e-poštni naslov, saj ravnamo skladno s Kodeksom ravnanja za varstvo podatkov, kar pomaga prepričati institucije, da osebnih podatkov ne bomo zlorabili.

Če imate račun pri več ponudnikih identitet in se vsakič prijavite prek drugega ponudnika, se vam lahko izpiše napaka "Vaš e-naslov je že povezan z drugim uporabnikom". Priporočamo, da ob vsaki prijavi uporabite istega ponudnika identitete. Če to ni mogoče, nam sporočite in zamenjali bomo vašega privzetega ponudnika.

Zakaj naj vnesem podatke v repozitorij CLARIN.SI?

Spodaj je nekaj razlogov, zakaj je vnos v repozitorij CLARIN.SI dobra izbira.

  • Uporaba repozitorija CLARIN.SI je varna in brezplačna.
  • Spoštujemo izbrano licenco. Spodbujamo odprte podatke in verjamemo, da to koristi ne le uporabnikom, ampak tudi tistim, ki so podatke priskrbeli. Kljub temu pa sprejemamo tudi podatke z omejenim dostopom, in če želite, lahko od uporabnikov zahtevamo, da pred prenosom vaših podatkov podpišejo licenco.
  • V repozitoriju so podatki dobro vidni in pripisane so vam vse zasluge za vaše delo, kar se odraža tudi v drugih storitvah, npr. Google, VLO, DataCite, OLAC, Data Citation Index, arXive.
  • Citiranje podatkov je enostavno. Referenco v formatu BibTex, RIS ali v katerem drugem priljubljenem formatu za citiranje je mogoče dobiti že z enim klikom. Vse reference so opremljene s trajnimi povezavami, vzpostavljenimi prek trajnih identifikatorjev (kot trajne identifikatorje uporabljamo t. i. handle). Ti trajni identifikatorji vas bodo vedno preusmerili na podatke.
  • Za določene vrste podatkov, kot so besedilni korpusi ali drevesnice, nudimo tudi dodatne storitve, na primer iskanje prek konkordančnikov.

Zakaj naj vnesem orodja v repozitorij CLARIN.SI?

  • Glejte "Zakaj naj vnesem podatke v repozitorij CLARIN.SI" Enako namreč velja za programska orodja.
  • V vnosu CLARIN.SI je enostavno dodati povezavo na javno dostopnih sistemov za nadzor različic (GitHub, GitLab, SVN). Hkrati lahko dodate tudi povezavo do projektne ali demo strani. Orodja so tako dostopna na več medsebojno povezanih lokacijah, s čimer jih je enostavneje najti, so pa tudi varneje shranjena.

Ali obstaja iskalnik, ki išče po vseh repozitorijih evropske infrastrukture CLARIN?

Za iskanje po vseh repozitorijih CLARIN lahko uporabite storitev CLARIN VLO (CLARIN Virtual language observatory). CLARIN VLO omogoča iskanje jezikovnih virov, storitev in orodij, ki so hranjena v repozitorijih mreže CLARIN in v nekaterih drugih repozitorijih. Vendar pa ne pozabite, da je CLARIN VLO metaiskalnik, ki običajno zagotavlja manj informacij o določenem viru kot repozitorij, v katerem je vir hranjen, zato priporočamo, da si ogledate informacije o viru tudi na spletni strani repozitorija, ki je navedena v storitvi VLO. Viri, storitve in orodja hranijo centri CLARIN in drugi ponudniki podatkov, kar pomeni, da ne morete iskati po virih ali uporabljati storitev in orodij neposredno iz storitve CLARIN VLO.

Obstajajo tudi drugi metaiskalniki, kot sta OpenAIRE, ki je vseevropska informacijska platforma in mreža repozitorijev z odprtim dostopom, in re3data, ki je globalni register repozitorijev raziskovalnih podatkov. Glavna razlika med omenjenimi metaiskalniki je v njihovem obsegu, pri čemer je CLARIN VLO specializiran za jezikovne vire, storitve in orodja, medtem ko OpenAIRE in re3data pokrivata vse akademske discipline.

Ali lahko podatke ali orodja vnesem v repozitorij CLARIN.SI, če jih že hranim na platformi GitHub?

Da, repozitorij CLARIN.SI nima omejitev glede vnosa podatkov, ki so že hranjeni na drugih platformah. Vendar priporočamo, da izrecno navedete kodo potrditve (commit hash) vnosa, na katerega se nanašajo podatki v repozitoriju. Pri tem vnosu, na primer, je URL vnosa na platformi GitHub naveden v vrstici "URL projekta", lahko pa navedete kodo potrditve vnosa tudi v opisu vira.

Zakaj naj podatke raje vnesem v repozitorij CLARIN kot v repozitorij ELRA?

Tako CLARIN kot ELRA zagotavljata repozitorij za jezikovne vire, vendar CLARIN omogoča skupno rabo hranjenih virov brezplačno in običajno po pogojih licenc CC, medtem ko ELRA v večini primerov uporablja komercialni model omogočanja dostopa do virov in temu primerne licence. Poleg tega se CLARIN osredotoča predvsem na potrebe skupnosti s področja humanistike in družboslovja, združenje ELRA pa podpira predvsem jezikovni inženiring, kar pa ne pomeni, da CLARIN ne zagotavlja številnih virov tudi v ta namen.

Čemu služi trajni identifikator (handle)?

Gre za poseben trajni URL, ki zagotavlja trajno povezavo, ki vedno preusmerja na podatke, tudi če se v prihodnosti spremeni spletno mesto, kjer so podatki hranjeni. Pri citiranju je zato treba kot naslov URL vedno navajati trajni identifikator.

Kako poteka vnašanje/arhiviranje podatkov?

Po vnosu jezikovnega vira ali orodja v repozitorij se podatki pregledajo, da se zagotovita kakovost in doslednost. Pri izpolnjevanju zahtev za trajnostno hranjenje virov val lahko tudi pomagamo. Kot je razloženo v dokumentu Kako ustvariti vnos, morajo biti podatki opremljeni z metapodatki v standardnih formatih, ki so sprejeti/dovoljeni v posameznih skupnostih, in trajnimi identifikatorji. Avtorji vnosa morajo urediti vprašanja glede pravic intelektualne lastnine, dodeliti podatkom licenco in določiti, kako se podatke lahko uporablja. Od avtorja vnosa zahtevamo tudi, da elektronsko podpiše Sporazum o vnosu v repozitorij, s katerim izjavi, da je imetnik vseh pravic v zvezi s podatki in da ima pravico do podeljevanja pravic, navedenih v tem sporazumu. Takoj, ko ustvarite nov vnos, mu je tudi dodeljen trajni identifikator (PID), ki zagotavlja zanesljivo referenco na vnos, vendar pa PID postane javno dosegljiv šele po pregledu in objavi vnosa.

Kaj naj storim, če želim/moram posodobiti arhivirane podatke?

Vsaka sprememba vira ali metapodatkov mora biti shranjena kot nova različica z novim trajnim identifikatorjem. V primeru minimalnih sprememb (na primer tipkarskih ali drugih očitnih napak) trajni identifikator vnosa in želene spremembe sporočite prek možnosti Pomoč uporabnikom. Glede na želene spremembe urednik nato odloči, ali je potrebna nova različica ali zgolj popravek obstoječe.

Kako ustvarim novo različico vira?

Po objavi vnosa v repozitoriju ne dovoljujemo sprememb podatkov (razen manjših popravkov, npr. za odpravo očitnih napak). Če ustvarite novo različico vira, je za to različico potrebno ustvariti nov vnos, vendar tega vnosa ne ustvarjate od začetka, temveč sledite navodilom v .

Kaj naj storim, če želim odstraniti vnose? Ali lahko podatke izbrišem?

Podatke lahko izbrišete. V tem primeru sporočite trajni identifikator vnosa in razlog za izbris prek možnosti Pomoč uporabnikom. Kljub izbrisu pa moramo ohraniti sled, da so podatki bili vneseni v repozitorij (ker jim je bil dodeljen trajni identifikator), zato bodo ohranjeni le metapodatki z oznako, da so bili dejanski podatki odstranjeni.

Ne želim/morem omogočiti javne uporabe podatkov oziroma želim/smem omogočiti javno uporabo šele po določenem datumu. Ali podatke vseeno lahko vnesem v repozitorij CLARIN.SI?

V skladu s prostim dostopom, ki ga zagovarjajo raziskovalne infrastrukture in razvoj na splošno, avtorje vnosov odločno spodbujamo k čim večji odprtosti. Kljub temu bomo v določenih primerih vaše podatke arhivirali, tudi če ne bodo javno dostopni. Prosimo, da nam pred potrditvijo oddaje vnosa pišete prek možnosti Pomoč uporabnikom.

Kako naj citiram vnos?

Preberite našo politiko citiranja.

Kako varni so moji podatki, če so shranjeni v repozitoriju CLARIN.SI?

Precej varni, zelo verjetno pa veliko bolj varni kot v vašem računalniku. Povprečni uporabnik računalnika namreč v nasprotju z infrastrukturo CLARIN.SI nima vzpostavljenega natančnega načrta za varnost in hrambo niti potrebnih sredstev za njuno uresničevanje. Vnos podatkov v repozitorij CLARIN.SI tako prinaša dve glavni prednosti: precej manj se lahko obremenjujete z morebitnim nedovoljenim dostopom do vaših podatkov in ni vam treba skrbeti za varnostne kopije. Končna različica vaših podatkov (tj. tista, ki ste jo vnesli v repozitorij) vam je vedno na voljo.

Več si lahko prebereta v našem Pravilniku o hranjenju podatkov.

Katero licenco naj izberem za podatke/orodja?

Podpiramo uporabo brezplačnih licenc. Reprezentativen izbor brezplačnih licenc in licenc Creative Commons (ki so primernejše za podatke) je na voljo med postopkom vnašanja v repozitorij. Pri izbiri ustrezne licence lahko uporabite izbirnik licenc OPEN License Selector.
Če ustrezne licence ne najdete, stopite v stik z nami.

Kje lahko najdem več informacij o podprtih licencah?

Seznam trenutno podprtih licenc najdete tukaj. Če potrebujete drugačno licenco, stopite v stik z nami. Licence lahko vključujejo različne zahteve, kot so na primer omejitev na prijavljene uporabnike, posredovanje dodatnih podrobnosti (namen) itd.

Zakaj CLARIN.SI pri avtorstvu daje prednost posameznikom pred institucijami?

Ključna prednost ni lažji stik, ampak citiranje, zasluge in zaupanje. Zato imamo ločena metapodatkovna polja za avtorje in kontaktne osebe. Stik za pomoč uporabnikom je zaželen, nepriznavanje avtorjev znanstvenih del pa nikakor ne. Podpiramo neposredno citiranje podatkov (https://www.force11.org/datacitation). Zato podatkom dodelimo trajne identifikatorje in pripravljamo formatirane reference itd. CLARIN.SI torej pri avtorstvu daje prednost posameznikom pred institucijami zato, da dejanskim avtorjem zagotovi citiranje in da drugim raziskovalcem omogoči informacijo o tem, na čigavo delo se zanašajo.

Kako lahko učinkoviteje iščem po repozitoriju?

V repozitoriju CLARIN.SI je v nasprotju z drugimi iskalniki privzeti operator OR (ali) – za ilustracijo glejte spodnje primere. Če z rezultati svojih iskanj niste zadovoljni, lahko poskusite naprednejše iskanje, ki ne vsebuje zgolj golega besedila. Iščete lahko zgolj po določenih poljih, uporabite negacijo ali dodate utež (poudarek) določenim delom poizvedbe. Repozitorij CLARIN.SI uporablja iskalnik SOLR, tako, da uporabljajte sintakso SOLR poizvedbe, če ste z njo seznanjeni, če pa ne, si lahko več preberete v dokumentaciji.

Primeri:

Slovenian lexicon proti Slovenian AND lexicon
Privzeti operator je OR (ali). Prvi primer iskalnega izraza torej vrne vse zadetke za besedo "Slovenian" ali "lexicon" v vseh besedilnih poljih z metapodatki.
dc.title:C?C && -dc.title:training
Ta iskalni izraz vrne vse zadetke, ki v naslovu vsebujejo "C?C", pri čemer "?" nadomešča katerikoli znak (npr. CMC), vendar obenem v naslovu ne vsebujejo besede "training".
dc.title:"CMC training corpus"
Če želite najti večbesedne izraze ali točno določeno zaporedje besed, uporabite dvojne narekovaje (").
author:(Erjavec AND -Ljubešić) AND language:(slovenian AND english)
S tem iskalnim izrazom določite želenega avtorja virov, ki jih iščete, in izločite avtorja, katerega zadetkov ne želite med rezultati. Obenem določite, da vas zanimajo zgolj viri, ki so tako v slovenščini kot v angleščini.