Show simple item record

 
dc.contributor.author Podpečan, Vid
dc.contributor.author Pollak, Senja
dc.contributor.author Fišer, Darja
dc.contributor.author Vintar, Špela
dc.contributor.author Tran, Thi Hong Hanh
dc.date.accessioned 2023-05-19T13:18:13Z
dc.date.available 2023-05-19T13:18:13Z
dc.date.issued 2023-05-19
dc.identifier.uri http://hdl.handle.net/11356/1840
dc.description The Slovenian definition extraction training dataset DF_NDF_wiki_slo contains 38613 sentences extracted from the Slovenian Wikipedia. The first sentence of a term's description on Wikipedia is considered a definition, and all other sentences are considered non-definitions. The corpus consists of the following files each containing one definition / non-definition sentence per line: 1. Definitions: df_ndf_wiki_slo_Y.txt with 3251 definition sentences. 2. Non-definitions: df_ndf_wiki_slo_N.txt with 14678 non-definition sentences which do not contain the term at the beginning of the sentence. 3. Non-definitions: df_ndf_wiki_slo_N1.txt with 20684 non-definition sentences which may also contain the term at the beginning of the sentence. The dataset is described in more detail in Fišer et al. 2010. If you use this resource, please cite: Fišer, D., Pollak, S., Vintar, Š. (2010). Learning to Mine Definitions from Slovene Structured and Unstructured Knowledge-Rich Resources. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). https://aclanthology.org/L10-1089/ Reference to training Transformer-based definition extraction models using this dataset: Tran, T.H.H., Podpečan, V., Jemec Tomazin, M., Pollak, Senja (2023). Definition Extraction for Slovene: Patterns, Transformer Classifiers and ChatGPT. Proceedings of the ELEX 2023: Electronic lexicography in the 21st century. Invisible lexicography: everywhere lexical data is used without users realizing they make use of a “dictionary”. Related resources: Jemec Tomazin, M. et al. (2023). Slovenian Definition Extraction evaluation datasets RSDO-def 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1841
dc.language.iso slv
dc.publisher Jožef Stefan Institute
dc.publisher Faculty of Arts, University of Ljubljana
dc.relation.isreferencedby https://aclanthology.org/L10-1089/
dc.rights Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
dc.rights.uri https://creativecommons.org/licenses/by-sa/4.0/
dc.rights.label PUB
dc.subject definitions
dc.subject Wikipedia
dc.subject definition extraction
dc.title Slovenian Definition Extraction training dataset DF_NDF_wiki_slo 1.0
dc.type corpus
metashare.ResourceInfo#ContentInfo.mediaType text
has.files yes
branding CLARIN.SI data & tools
contact.person Vid Podpečan vid.podpecan@ijs.si Jožef Stefan Institute
sponsor Ministry of Culture C3340-20-278001 Development of Slovene in a Digital Environment Other
size.info 38613 sentences
files.count 3
files.size 5432240


 Files in this item

 Download all files in item (5.18 MB)
This item is
Publicly Available
and licensed under:
Creative Commons - Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)
Distributed under Creative Commons Attribution Required Share Alike
Icon
Name
df_ndf_wiki_slo_Y.txt
Size
396.41 KB
Format
Text file
Description
definition sentences
MD5
f074b5164363b2e5fd7507e4077f163d
 Download file  Preview
 File Preview  
Naravno število  je katerokoli število iz neskončne množice pozitivnih celih števil { 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 , ...}. 
  Wikipedija  ( angleško Wikipedia ) je prosta spletna enciklopedija , ki nastaja s sodelovanjem stotisočev prostovoljcev z vsega sveta . 
  Amper  ( oznaka A ) je osnovna enota SI električnega toka , določena tako , da en meter dolga odseka dveh neskončno dolgih paralelnih vodnikov z zanemarljivo majhnim krožnim premerom , med katerima je razdalja enega metra in po vsakem od katerih teče istosmerni tok jakosti enega ampera , delujeta drug na drugega s silo 2 · 10  sup > -7  / sup > newtonov . 
  Arhit  ( starogrško : Arhitas ) , starogrški filozof , matematik , astronom , državnik , strateg in vojskovodja , * 428 pr . 
  Esperanto  je mednarodni umetni pomožni sporazumevalni jezik . 
  TeX  ( IPA : , včasih s posnemanje logotipa zapisano T  sub >  big > E  / big >  / sub > X , grški koren  math > \ tau \ epsilon \ chi  / math > ) je programsko okolje . . .
                                            
Icon
Name
df_ndf_wiki_slo_N1.txt
Size
2.74 MB
Format
Text file
Description
non-definition sentences
MD5
c9bc08f52d8ee058a5a00c5bca4c001e
 Download file  Preview
 File Preview  
Z naravnimi števili štejemo ali pa razvrščamo .
Označujemo jih z N ali z \ N. Na nekaterih področjih matematike ( teorija množic , matematična logika in računalništvo ) včasih privzamemo , da je tudi 0 naravno število .
Takšni množici rečemo » množica naravnih števil z nič « in jo označimo z \ N _ { 0 } .
Kadar je množica naravnih števil definirana na ta način , označujejo množico naravnih števil brez 0 tudi \ N ^ { } .
Čeprav tudi majhen otrok razume kaj mislimo z naravnimi števili , njihova določitev ni enostavna .
Peanovi aksiomi opišejo množico naravnih števil , ki jo običajno označimo z N ali z \ N. Obstaja naravno število 0.
Vsakemu naravnemu številu n sledi naravno število n + 1 ( ali kot tudi označimo naslednik števila n je n ' ).
Ne obstaja naravno število , kateremu sledi število 0 ( ni naravnega števila - 1' ) .
Različnima naravnima številoma sledita različni naravni števili : če je n1 ≠ n2 , potem n1 + 1 ≠ n2 + 1 ( ali n ' 1 ≠ n ' 2 ) .
Če neka lastnost P velja za število 0 . . .
                                            
Icon
Name
df_ndf_wiki_slo_N.txt
Size
2.06 MB
Format
Text file
Description
non-definition sentences which may also contain a term in the beginning of the sentence
MD5
cf3888fef62cb91727ebd0e92be380ba
 Download file  Preview
 File Preview  
Z naravnimi števili štejemo ali pa razvrščamo .
Označujemo jih z N ali z \ N. Na nekaterih področjih matematike ( teorija množic , matematična logika in računalništvo ) včasih privzamemo , da je tudi 0 naravno število .
Takšni množici rečemo » množica naravnih števil z nič « in jo označimo z \ N _ { 0 } .
Kadar je množica naravnih števil definirana na ta način , označujejo množico naravnih števil brez 0 tudi \ N ^ { } .
Čeprav tudi majhen otrok razume kaj mislimo z naravnimi števili , njihova določitev ni enostavna .
Peanovi aksiomi opišejo množico naravnih števil , ki jo običajno označimo z N ali z \ N. Obstaja naravno število 0.
Vsakemu naravnemu številu n sledi naravno število n + 1 ( ali kot tudi označimo naslednik števila n je n ' ).
Ne obstaja naravno število , kateremu sledi število 0 ( ni naravnega števila - 1' ) .
Različnima naravnima številoma sledita različni naravni števili : če je n1 ≠ n2 , potem n1 + 1 ≠ n2 + 1 ( ali n ' 1 ≠ n ' 2 ) .
Če neka lastnost P velja za število 0 . . .
                                            

Show simple item record