Програмні засоби формування та обробки бази даних словосполучень української мови.

Т. Рябоконь; А. Петрашенко

doi:10.36910/6775-2524-0560-2021-44-22

Т. Рябоконь Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
А. Петрашенко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського» https://orcid.org/0000-0003-0239-1706

DOI: https://doi.org/10.36910/6775-2524-0560-2021-44-22

Ключові слова: статистичні методи знаходження словосполучень, база даних словосполучень, колокація, текстовий корпус.

Анотація

Дана стаття присвячена опису створення бази даних словосполучень та виявленню найбільш ефективних методів знаходження словосполучень у тексті. Проведено аналіз існуючих досліджень статистичних методів виділення колокацій з текстових даних та запропоновано критерій для порівняння їх ефективності в роботі з текстами саме українською мовою. Також описано архітектуру автоматизованої генерації бази даних словосполучень та можливі способи її прискорення. Проведено експеримент та визначено найбільш ефективний метод знаходження словосполучень для обраного корпусу текстів українською мовою.

Посилання

Snedecor, George Waddel, and William G. Cochran. 1989. Statistical methods. Ames: Iowa State University Press. 8th edition. 53 c.

Church K. and Hanks P., 1990. Word Association Norms, Mutual Information, and Lexicography. Computational Linguistics.

Sinclair, John ted. 1995. ColIins COBUILD English dictionary. London: Harper Collins. New edition, completely revised.

Manning C. and Schütze H., 1999. Foundations of Statistical Natural Language Processing. Cambridge: MIT Press.

Smadja F., 1993. Retrieving Collocations from text: Xtract, Computational Linguistics, 19: 143-177.

Dunning T., 1993. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics.

Fontenelle, Thierry, Walter Briils, Luc Thomas, Tom Vanallemeersch, and Jacques Jansen. 1994. DECIDE, MLAP-Project 93-19, deliverable D-la: survey of collocation extraction tools. Technical report, University of Liege, Liege, Belgium.

Hawthorne, Mark. 1994. The computer in literary analysis: Using TACT with students. Computers and the Humanities.

Church, Kenneth W., and Robert L. Mercer. 1993. Introduction to the special issue on computational linguistics using large corpora. Computational Linguistics. 20 c.

Apache Spark - Unified Analytics Engine for Big Data. URL: https://spark.apache.org/ (дата звернення 06.09.2021)

Free and Open Search: The Creators of Elasticsearch, ELK & Kibana | Elastic. URL: https://www.elastic.co/ (дата звернення 06.09.2021)

UA-GEC: перший анотований GEC-корпус української мови вже у вільному доступі! URL: https://ua-gec-dataset.grammarly.ai/ (дата звернення 05.09.2021)

Natural Language Toolkit — NLTK 3.6.2 documentation. URL: https://www.nltk.org/ (дата звернення 05.09.2021)

Морфологический анализатор pymorphy2 — Морфологический анализатор pymorphy2. URL: https://pymorphy2.readthedocs.io/en/stable/ (дата звернення 05.09.2021)

S. Evert, B. Krenn, Using small random samples for the manual evaluation of statistical evaluation measures. Computer speech and language, 19: pp. 450–466; 2005.