Інтерпретований аналіз сентименту для української мови, що базується на правилах.

А. А. Ломовацький; Т. М. Басюк

doi:10.36910/6775-2524-0560-2025-60-21

А. А. Ломовацький https://orcid.org/0009-0004-5170-3272
Т. М. Басюк https://orcid.org/0000-0003-0813-0785

DOI: https://doi.org/10.36910/6775-2524-0560-2025-60-21

Ключові слова: класифікація сентиментів, виявлення емоцій, алгоритм на основі правил, українська NLP, EmoLex, Vader

Анотація

Обробка природної мови (NLP) значною мірою покладається на аналіз емоційного забарвлення, що дає змогу автоматично оцінювати емоційний тон тексту різними мовами. Однак при використанні з такими мовами, як українська, що мають складну морфологію та синтаксис, відомі інструменти, такі як VADER, часто дають збій. Щоб подолати недоліки загальних моделей, орієнтованих на англійську мову, у цьому дослідженні запропоновано вдосконалений алгоритм аналізу емоційного забарвлення на основі правил, розроблений спеціально для контенту українською мовою. Для покращення виявлення емоційного забарвлення алгоритм використовує розширений лексикон, що включає модифікатори інтенсивності, оцінки полярності, відповідності емоційним знакам та словник емоцій EMOLEX. Для кращого відображення контекстуальних нюансів також використовуються складні техніки, такі як синтаксичний аналіз за залежністю та оцінка з урахуванням позиції. Ці вдосконалення необхідні для правильного розшифрування характерних мовних структур української мови, які часто створюють труднощі для традиційних систем аналізу емоцій. Алгоритм було оцінено за допомогою наборів даних українською мовою та порівняно з VADER. Згідно з результатами, спеціальна модель працює значно краще за VADER, особливо коли йдеться про виявлення сильно позитивних або негативних емоцій. Ці результати підкреслюють цінність мовних інструментів для неангломовного контенту, оскільки вони забезпечують більшу точність і контекстну обізнаність. Хоча результати є обнадійливими, необхідна подальша робота. З метою створення гібридної системи, здатної обробляти все більш складні та неоднозначні вирази з ще вищою точністю, у майбутніх дослідженнях можна розглянути можливість інтеграції технологій штучного інтелекту, таких як машинне навчання та глибоке навчання

Посилання

1. E. Riloff, J. Wiebe, Learning Extraction Patterns for Subjective Expressions, Матеріали конференції 2003 року з Empirical Methods in Natural Language, 2003, pp. 105-112.
2. M. Hu, B. Liu, Mining and Summarizing Customer Reviews, Матеріали конференції з 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2004, pp. 168-177.
3. S. M. Kim, E. Hovy, Determining the Sentiment of Opinions, Матеріали конференції з 20th International Conference on Computational Linguistics, 2004, pp. 1367-1373.
4. B. Pang, L. Lee, S. Vaithyanathan, Thumbs Up? Sentiment Classification Using Machine Learning Techniques, Матеріали конференції з ACL-02 Conference on Empirical Methods in Natural Language Processing, 2002, pp. 79-86.
5. Basyuk T., Vasyliuk A. Approach to a subject area ontology visualization system creating // CEUR Workshop Proceedings. – 2021. – Vol. 2870: Матеріали конференції з the 5th International conference on computational linguistics and intelligent systems (COLINS 2021), Lviv, Ukraine, April 22–23, 2021. Том I: основна конференція. – Р. 528–540.