• Repozitorij
  • O repozitoriju
  • Kontakt
  • CLARIN
  •  Prijava
  • English Slovenščina
  • Repozitorij CLARIN.SI
  • Prikaz vnosa
  •  
  • CLARIN logo
  •   Brskanje  
    •    Celoten repozitorij  
      •   Datum izdaje
      •   Avtor
      •   Naslov
      •   Ključne besede
      •   Izdajatelj
      •   Jezik
      •   Vrsta
      •   Oznaka pravic
  •   Moj račun  
    •    Prijava
  •   Statistika  
    •    Statistika PiwikBETA
  •   Splošne informacije  
    •    O vnosu v repozitorij
    •    Citiranje
    •    Življenjski ciklus vnosa
    •    Pogosta vprašanja
    •    O repozitoriju
    •    Pomoč uporabnikom
 
 

Monitor corpus of Slovene Trendi 2022-05

 
CLARIN.SI data & tools
  Avtorji
Kosem, Iztok ; et al.prikaži vse Kosem, Iztok ; Čibej, Jaka ; Dobrovoljc, Kaja ; Erjavec, Tomaž ; Ljubešić, Nikola ; Ponikvar, Primož ; Šinkec, Mihael ; Krek, Simon
  Identifikator vnosa
http://hdl.handle.net/11356/1590
 URL projekta
https://sled.ijs.si/
 Datum objave
2022-06-23
 Vrsta
corpus, text
 Velikost
565308991 tokens, 473161579 words, 25186942 sentences, 1436548 articles
 Jezik(i)
Slovenian
 Opis
The Trendi corpus is a monitor corpus of Slovene. It contains news from 107 different media websites, published by 48 different publishers. Trendi 2022-05 covers the period from January 2019 to May 2022, complementing the Gigafida 2.0 reference corpus of written Slovene. All the contents of the Trendi corpus are at the moment obtained using the Jožef Stefan Institute Newsfeed service (http://newsfeed.ijs.si/). The texts have been annotated using the classla-stanza pipeline (https://github.com/clarinsi/classla), including syntactic parsing according to the Universal Dependencies (https://universaldependencies.org/sl/) and Named Entities (https://nl.ijs.si/janes/wp-content/uploads/2017/09/SlovenianNER-eng-v1.1.pdf). At the moment, the corpus is not available as a dataset due to copyright restrictions, we hope to make at least some of it available in the near future. The corpus is accessible through CLARIN.SI concordancers.
 Izdajatelj
Jožef Stefan Institute
 Zahvala
Ministry of Culture of the Republic of Slovenia JR-infrastruktura-SJ-2021-2022 "SLED - Monitor corpus of Slovene and related resources"
 Ključne besede
monitor corpus news corpus universal dependencies temporal trends
 Zbirke
CLARIN.SI data & tools
 
Ta vnos je bil nadomeščen z novejšim.
http://hdl.handle.net/11356/1681
Prikaži polni zapis vnosa
 
 

Partnerji

  • Alpineon, d.o.o.
  • Amebis, d.o.o.
  • Inštitut za novejšo zgodovino
  • Institut "Jožef Stefan"
  • Narodna in univerzitetna knjižnica Slovenije
  • Slovensko društvo za jezikovne tehnologije

Partnerji

  • Univerza v Ljubljani
  • Univerza v Mariboru
  • Univerza v Novi Gorici
  • Univerza na Primorskem
  • ZRC SAZU
  • ZRS Koper

Repozitorij

  • Domača stran
  • Kontakt
  • Življenski ciklus vnosa
  • Pogosta vprašanja
  • O repozitoriju in pravilih uporabe

Repozitorij uporablja programsko opremo, ki je bila razvita za LINDAT/CLARIAH-CZ jezikoslovni repozitorij in je dostopna na GitHubu.

CLARIN.SI podpira Ministrstvo za izobraževanje, znanost in šport
v okviru programa "Raziskovalne infrastrukture".