MATAS corpus (version 3.0) RENGĖJAI Erika Rimkutė, Agnė Bielinskienė, Loic Boizou, Virginijus Dadurkevičius, Jolanta Kovalevskaitė, Andrius Utka APRAŠYMAS Atnaujintas, rankiniu būdu patikrintas, morfologiškai anotuotas tekstynas MATAS KALBA Lietuvių ANKSTESNĖS VERSIJOS 1. MATAS v0.2 (http://hdl.handle.net/20.500.11821/9) 2. MATAS v1.0 (http://hdl.handle.net/20.500.11821/33) FORMATAI, STANDARTAI 1. CoNLL-U (https://universaldependencies.org/format.html); 2. JABLONSKIS tagset v2 (https://sitti.vdu.lt/jablonskis-en/); 3. MULTEXT-East tagset (http://nl.ijs.si/ME/V4/msd/html/index.html) 4. UTF-8 APIMTIS Tokenai (įsk. skyrybos ženklus): 2,137,287 Žodžiai: 1,694,819 Sakiniai: 144,047 Dokumentai: 1,234 ŽANRAI Žanrai Failai Tokenai % dokumentai (dok) 74 289697 13.6 grožinė lit. (gro) 33 428929 20.1 mokslinė lit. (mok) 75 517092 24.2 publicistika (pub) 1047 757201 35.4 stenogramos (ste) 5 144368 6.8 POS COUNTS daiktavardžiai (N) 637306 veiksmažodžiai (V) 338659 būdvardžiai (A) 122411 įvardžiai (P) 147579 skaitvardžiai (M) 62425 prieveiksmiai (R) 105235 prielinksniai (S) 77431 jungtukai (C) 129492 dalelytės (Q) 36523 jaustukai (I) 3015 ištiktukai (O) 209 trumpiniai (Y) 28023 kiti (X) 6511 skyrybos ženklai (T) 442468 LEIDĖJAS Skaitmeninių išteklių ir tarpdisciplininių tyrimų institutas (SITTI), Vytauto Didžiojo universitetas