Dabartinės lietuvių kalbos tekstyno žodžių formų dažniniai sąrašai Worlists of Wordforms of the Contemporary Corpus of Lithuanian language Tekstyno struktūra/Corpus Structure Patekstynis/Subcorpus Words,m Proportion Grožinė lit./Fiction 15.54 12.6% Negrožinė lit./Non-fiction 19.99 16.2% Administracinė lit./ Documents 11.19 9.1% Periodika/Periodicals 76.24 61.8% Sakytinė kalba/Speech Corpus 0.49 0.4% --- Visas/Total 123.45 100% Tinklalapiai/Website: tekstynas.vdu.lt corpus.vdu.lt Data/Date: 2016.10.17 2022.11.15* * upgraded method of handling punctuation and format Metodas/Method: Linux shell scripting 1. step >sed -e 's/<[^>]*>//g' *.txt | tr q'[:punct:]' ' ' | tr -s ' ' | tr ' ' '\n' | tr '[:upper:]' '[:lower:]' | grep -v '[^a-z]' | grep -v "^\s*$" | sort | uniq -c | sort -rn > freq-visas.txt 2. step converted into tabbed text format Kaip cituoti/Reference Rimkutė E., Kovalevskaitė J., Melninkaitė V., Utka A., Vitkutė-Adžgauskienė D. 2010: Corpus of Contemporary Lithuanian Language – the Standardised Way. Proceedings of the Fourth International Conference Human Language Technologies – The Baltic Perspective, 154–160. Licencija/Licence: CLARIN-LT PUB