Порівняльне дослідження методів попередньої обробки тексту в Orange Data Mining та KNIME

І.М.  Коваль; О.М. Суринович

doi:10.36910/6775-2524-0560-2024-56-24

І.М. Коваль https://orcid.org/0009-0001-2083-1747
О.М. Суринович https://orcid.org/0000-0002-9300-0039

DOI: https://doi.org/10.36910/6775-2524-0560-2024-56-24

Ключові слова: Text Preprocess, Clustering, Orange Data Mining, Data mining, Knime Analytics, Word Cloud, попередня обробка тексту, Text to Vector

Анотація

У роботі досліджується порівняння результатів попередньої обробки текстових даних у програмних системах Knime Analytics та Orange Data Mining. Представлено детальний опис методології дослідження, включаючи інструменти попередньої обробки текстових даних, налаштування та створення моделей відповідно до можливостей кожної з програм. Отримані результати аналізуються з використанням інструментів візуалізації, при цьому використовуються різні формати представлення результату. Переваги та недоліки кожного інструменту виявляються у рекомендаціях щодо застосування тієї чи іншої програмної системи у різних умовах. Результати попередньої обробки текстових даних в обох програмних системах показали, що дані були очищені від шуму, небажаних слів та синтаксичних елементів, що дозволило виділити ключові теми і тенденції із тестового матеріалу.

Посилання

1. Manning C. D., Raghavan P., & Schütze H. Introduction to Information Retrieval, 2022.
2. Charu C. Aggarwal, ChengXiang Zhai. Mining Text Data, 2012.
3. Orange Data Mining.
4. KNIME Analytics Platform.
5. Text Preprocessing Orange Blog.