Viri in orodja
Korpus sPeriodika
Korpus, nastal v okviru naše programske skupine, vključuje besedila slovenskih periodičnih publikacij od leta 1771 do 1914. Nastala je z obdelavo besedil, pridobljenih s spletnega servisa dLib Narodne in univerzitetne knjižnice Slovenije. Pridobljena besedila na portalu so bila pripravljena z optično prepoznavo (OCR) predhodnih pdf-datotek in v obliki tekstovnih datotek. Pri pripravi korpusa so bila besedila dodatno očiščena in obdelana, nato pa lematizirana in oblikoslovno označena, dodana pa je bilo tudi prepoznava imenskih entitet. Korpus, ki je na voljo v repozitoriju CLARIN.SI s konkordančnikom noSketch Engine, vključuje 910.064.957 pojavnic in 708.306.576 besed iz 216 različnih periodičnih publikacij.