Navodila za vnos podatkov v repozitorij CLARIN.SI

Repozitorij CLARIN.SI ne sprejema vnosov brez datotek (brez bitnih tokov, ki so dodani vnosu). V tem dokumentu so zbrani napotki glede ustrezne strukture deponiranih jezikovnih virov, primernih formatov podatkov in zahtevanih formatov označenih besedilnih datotek.

Osnovne lastnosti datotek

Poimenovanje datotek in imenikov

Imena datotek in imenikov (map) lahko vsebujejo samo znake ASCII, in sicer črke, številke, vezaj (»-«) in piko (».«). Naslednji znaki niso dovoljeni: presledek, podčrtaj, oklepaj, narekovaj, znak za dolar, poševnica, dvopičje in druga ločila (razen vezaja in pike), naglašene črke in drugi znaki, ki niso del nabora ASCII. Uporaba kombinacije malih in velikih črk je dovoljena. Primeri ustreznih poimenovanj so »semcro.v1.zip«, »ParlaMint-HR-S08.xml«, »SuperGLUE-statistics.tsv«.

Pripone datotek

Repozitorij zahteva uporabo standardnih oziroma splošno priznanih pripon datotek, kot so ».txt«, ».xml«, ».jpg«. Če želite v poimenovanje vključiti informacije o tem, da je besedilo zapisano v standardnem kodiranju ali da arhivska datoteka vsebuje določen tip datotek, lahko uporabite dvojno pripono kot v primerih »semcro.tei.xml« ali »semcro.TEI.zip«.

Zaželene pripone različnih formatov so navedene pri opisih posameznih vrst datotek.

Stiskanje datotek

Jezikovni viri, ki so deponirani v repozitorij, so pogosto veliki in/ali zajemajo več datotek. V tem primeru naj bo vir stisnjen in dodan vnosu v obliki ene datoteke. Stisniti je treba celoten imenik in stisnjena datoteka naj se imenuje enako kot vsebovani imenik. Na primer, stisnjena datoteka »semcro.zip« se mora odpreti v imenik »semcro/«, v katerem so zbrane datoteke in/ali podimeniki. Priporočeno je, da imenik vsebuje tudi datoteko README, v kateri sta zapisana ime vira in njegov stalni identifikator. Tako preprečimo, da bi se izgubili podatki o izvoru virov, objavljenih pod licencami Creative Commons. Poleg tega je priporočeno tudi, da stisnjena datoteka ne vsebuje skritih datotek (kot so na primer datoteke, ki jih ustvari operacijski sistem MAC).

Zaželen format stisnjenih datotek na repozitoriju CLARIN.SI je ZIP (.zip), sprejemamo pa tudi druge oblike stiskanja vsebnikov, kot so stisnjeni format TAR (.tgz) ali format GNU ZIP (.gz) za stiskanje ene datoteke.

Vnosi z več bitnimi tokovi

Vnos lahko poleg izvornih podatkov vključuje tudi podatke v izvedenih formatih, spremno dokumentacijo ali podatke, ločene na več datotek. Pri velikih vnosih je namreč smiselno razdeliti podatke, saj posamezna datoteka ne sme biti večja od (približno) 5 GB.

V tem primeru so lahko podatki, ki se jih doda vnosu, razdeljeni na več (po možnosti stisnjenih) datotek. Sledite zgledu naslednjih vnosov iz repozitorija CLARIN.SI, pri katerih so podatki razdeljeni na več bitnih tokov iz različnih razlogov:

Nadzorovane vrednosti

Kode za jezike

Če se podatki (ali poimenovanje datotek) nanašajo na določen jezik, je treba namesto imen jezikov uporabiti kode zanje. Najustreznejše so dvočrkovne kode po ISO 639-1, če za določen jezik ne obstajajo, pa se naj uporabi tročrkovne kode po ISO 639-2, znane tudi kot kode T, ali po ISO 639-3, ki zajema še več kod kot ISO 639-2. Čeprav se vsi trije standardi osredotočajo na sodobne standardne jezike, ISO 639-2 in ISO 639-3 pokrivata tudi starejše različice nekaterih jezikov.

Če jezikovni vir vsebuje narečja ali starejše različice jezika, ki jih standardi ISO ne pokrivajo, se naj uporabi standard BCP 47 (Oznake za identificiranje jezikov – Tags for for Identifying Languages). Po BCP (Best Current Practice) je treba uporabiti primerno oznako iz registra IANA za variantne podoznake. Če register ne vsebuje ustrezne oznake jezikovne različice, sledite pravilom za ustvarjanje neregistrirane oznake, in sicer oznaka naj se začne z oznako za jezik (npr. »sl« za slovenščino), ki ji dodajte niz »-x-« (za »neregistrirano«) in poljubno pripono v naboru ASCII (npr. »prekmurje« za prekmurščino), in tako dobite oznako »sl-x-prekmurje«.

Več informacij o tem, kako izbrati ustrezno kodo za jezik (ali jezikovno različico), najdete v dokumentu konzorcija W3C »Izbiranje kod za jezik«.

Datum in čas

Vsi zapisi datuma in časa v kontekstu, namenjenem za strojno obdelavo, morajo slediti standardu ISO 8601, torej se datume zapiše kot »2020-12-28«, čas kot »23:21:21« in kombinacijo obeh kot »2020-12-28T23:21:12«. Če je časovni pas pomemben podatek, se ga lahko določi s pripono »Z«, ki se nanaša na koordinirani univerzalni čas (UTC, večinoma je enak greenwiškemu srednjemu času – GMT), in s časovnim zamikom od univerzalnega časa, na primer 23:21:12Z+01:00 za Slovenijo in večino drugih držav iz EU.

Ustrezni binarni formati

Repozitorij CLARIN.SI sprejema podatke v standardnih in/ali splošno znanih odprtih formatih (dodatne informacije najdete v dokumentu CLARIN ERIC »Standardi za jezikovne vire in tehnologije«). Pri večini vnosov v repozitorij gre za (večinoma) označene ali drugače strukturirane besedilne podatke. Ker zanje velja več zahtev kot za druge datoteke, jih podrobneje obravnavamo v nadaljevanju. Spodaj pa so našteti drugi (binarni) formati, ki jih repozitorij CLARIN.SI sprejema:

  • Stiskanje in paketiranje virov: GNU ZIP (.gz), ZIP (.zip), TAR (.tar), stisnjeni format TAR (.tgz).
  • Datoteke dokumentov: dokumenti, pripravljeni na tisk, so lahko deponirani v formatu PDF (.pdf), vendar v tem formatu sprejemamo samo spremno dokumentacijo (objavljeni članki ali poročila o naboru podatkov, navodila za označevanje itn.), glavnega nabora podatkov pa ne. Izjema so faksimili, ki so lahko deponirani v obliki zapisa slike ali v formatu PDF.
  • Jezikovni modeli: če orodja za označevanje ali druga odprtokodna orodja za analizo jezika ustvarjajo samo binarne jezikovne modele ali jih uporabljajo, jih repozitorij sprejema, vendar pa so bolj zaželene različice modelov v besedilnem formatu.
  • Zvočne datoteke: Wave (.wav), FLAC (.flac), AIFF (.aiff), avdio format MPEG 4 (.m4a), MP3 (.mp3), RAW (.raw). Pri tem je treba poudariti, da je pri zvočnih datotekah zaželeno brezizgubno stiskanje oziroma odpoved stiskanju podatkov.
  • Slikovne datoteke: TIFF (.tiff), GIF (.gif), JPEG (.jpg), PNG (.png), SVG (.svg). Pri tem je treba poudariti, da je pri slikovnih datotekah zaželeno brezizgubno stiskanje oziroma odpoved stiskanju podatkov.
  • Videodatoteke: video format MPEG (.mpg, .mpeg, .mp4), AVI (.avi), Motion JPEG 2000 (.m2j).

Repozitorij CLARIN.SI praviloma ne sprejema formatov urejevalnikov besedil ali programov za preglednice, kot so datoteke v formatih programov Microsoft Word ali Excel, prav tako pa ne sprejema formatov binarnih programov. Po posvetu s Službo za pomoč uporabnikom pred samim vnosom so lahko takšni podatki izjemoma vseeno sprejeti. Če je deponiranje datotek formatov programov Word ali Excel dovoljeno, morajo biti zapisane v jeziku XML (torej morajo imeti pripono .docx ali .xlsx). Primerljivi formati ODF-programa OpenOffice, ki temeljijo na jeziku XML, so v tem primeru seveda prav tako sprejemljivi.

Zapis besedilnih datotek

Ker večina vnosov v repozitorij vsebuje predvsem besedilne datoteke (vključno s številskimi podatki, izvornimi programskimi datotekami, datotekami v formatu XML itn.), sledijo podrobnejša navodila za ustrezno kodiranje besedilnih datotek.

Kodiranje znakov

Repozitorij CLARIN.SI sprejema samo datoteke v obliki Unicode. Datotek, kodiranih z 8-bitnim zapisom znakov, kot so zapis ISO 8859 ali kodne tabele operacijskega sistema Windows, ne sprejemamo. Datoteka v obliki Unicode naj bo kodirana z naborom znakov UTF-8. Izjeme so besedilne datoteke v nelatiničnih pisavah, kot je japonščina, pri katerih je dovoljen nabor znakov UTF-16.

Programi

Repozitorij sprejema izvorno kodo, tj. programe v splošno znanih programskih jezikih, kot so Python (.py), Perl (.pl), R (.r), C (.c), XSLT (.xsl) itn. Sprejemamo tudi podatke, pripravljene za te programske jezike.

Standardni formati, ki temeljijo na besedilu

Repozitorij sprejema tudi formate, ki temeljijo na besedilu in ki jih podpirajo različni organi za standarde, tako da je dokumentacija zanje prosto dostopna na spletu. Najboljši primeri takšnih formatov so JSON (.json) in RDF/Turtle (.ttl) ter XML, ki ga podrobneje obravnavamo v nadaljevanju.

Datoteke z golim besedilom

Nestrukturirane datoteke naj bodo v formatu datoteke z golim besedilom (.txt). Trivialno formatiranje, kot je označevanje novega odstavka s prelomom vrstice ali zapisovanje komentarjev avtorja transkripcije v oglate oklepaje, je dovoljeno, če je uporabljena praksa opisana v datoteki README.

Tabelarični podatki

Podatke v preglednici ali zbirki podatkov in podobnih oblikah sprejemamo v najpogostejših formatih, kot so datoteke z vrednostmi, ločenimi s tabulatorji (.txt/.tsv/.tab), in datoteke z vrednostmi, ločenimi z vejico (.txt/.csv). Tabelarični podatki morajo vsebovati vrstico z glavo, priložiti pa jim je treba tudi datoteko README, v kateri je razloženo, kaj pomenijo posamezni stolpci.

Označene korpuse lahko deponirate v formatu CoNLL-U (.conll ali .conllu), ki se uporablja pri projektu Univerzalne odvisnostne drevesnice. Poleg tega sprejemamo tudi tako imenovane vertikalne datoteke (.vert/.vrt), ki vsebujejo tabelarične podatke in oznake, podobne zapisu XML, in ki se jih uporablja za konkordančnike, ki temeljijo na standardnem jeziku CQP, kot so Corpus Query Workbench, (no)Sketch Engine in KonText. Vertikalnim datotekam naj bo priložena njihova registrska datoteka. Številni korpusi v repozitoriju CLARIN.SI so na voljo v zapisu TEI in kot vertikalne datoteke ter povezani s konkordančnikoma (no)Sketch Engine in KonText, ki sta del infrastrukture CLARIN.SI.

Dokumenti HTML

Format HTML (.html/.htm) ni sprejemljiv, če gre za glavne podatke, dovoljen pa je za spremno dokumentacijo, ki na primer predstavlja strukturiranost podatkov ali njihovo jezikoslovno označenost. V tem primeru morajo dokumenti ustrezati eni od različic HTML (najbolje različici XHTML) in morajo biti samozadostni, kar pomeni, da je zaželeno, da so prekrivni slogi (CSS), če se jih uporablja, vdelani v datoteko/datoteke HTML ali pa morajo biti vsaj shranjeni skupaj z njimi.

Dokumenti XML

Daleč najpogostejši format vnosov je XML (.xml), ki omogoča kompleksno in hierarhično strukturiranost besedilnih podatkov. Repozitorij CLARIN.SI sprejema vse ustrezne dokumente XML, ki izpolnjujejo naslednje pogoje:

  • shema, s katero se potrdi ustreznost dokumenta, je splošno znana in skupaj z dokumentacijo javno dostopna na stabilnem mestu, na primer RDF/XML (.rdf) ali ELAN (.eaf);
  • shema je skupaj z dokumentacijo priložena vnosu v repozitorij.

Sprejemamo sheme v jezikih za definiranje sheme DTD (.dtd), RelaxNG (.rng/.rnc) in W3C XML Shema (.xsd), pa tudi v jeziku Schematron (.xml).

Dokumenti TEI

Najbolj zaželen zapis XML-vnosov v repozitoriju CLARIN.SI je zapis TEI (.tei/.xml). Gre za zapis, ki sledi Smernicam konzorcija Text Encoding Initiative, namenjenim zapisovanju strukturiranih jezikovnih virov, kot so jezikovni korpusi, strojno berljivi slovarji, znanstvenokritične izdaje itn.

Če je mogoče, naj bo deponirana vrsta jezikovnega vira zapisana s standardno ali uveljavljeno prilagoditvijo sheme TEI, kot so ISO 24624:2016 za transkripcijo govora, TEI Lex-0 za slovarje ali Parla-CLARIN za zapisovanje korpusov parlamentarnih razprav, namesto s splošno shemo ali s shemo, specifično za jezikovni vir.

Če so deponirani dokumenti zapisani v samo standardnih modulih zapisa TEI in še posebej če se da potrditi ustreznost zapisa po shemi TEI za CLARIN.SI, datotekam v formatu XML TEI ni treba priložiti dodatnih datotek. Datotekam, katerih zapis vključuje razširitve zapisa TEI, pa je treba priložiti TEI ODD in generirane sheme XML (predvsem RelaxNG .rng in .rnc) ter dokumentacijo vsaj v zapisu HTML.

Nabori oznak za jezikoslovno označevanje

Večina jezikovnih korpusov je označenih z jezikoslovnimi kategorijami na različnih ravneh. Te kategorije morajo biti dokumentirane, bodisi na stabilnih zunanjih URL-jih ali tako, da so podatki vključeni v vnos, bodisi v spremnih datotekah ali neposredno v korpusih, kar še posebej velja za korpuse v zapisu TEI.

Pogoste specifikacije za označevanje na repozitoriju CLARIN.SI so: