Підхід до використання фільтра блума для багатокласової класифікації текстових даних в режимі реального часу.

В. Яременко; Д. Будьонний

doi:10.36910/6775-2524-0560-2019-36-24

В. Яременко Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»
Д. Будьонний Національний технічний університет України «Київський політехнічний інститут імені Ігоря Сікорського»

DOI: https://doi.org/10.36910/6775-2524-0560-2019-36-24

Ключові слова: аналіз потокових даних, фільтр Блума, аналіз текстових даних , класифікація текстів.

Анотація

У даній роботі розглянуто фільтр Блума, який вирішує задачу фільтрації потоків, та було запропоновано новий підхід використання цього фільтру для класифікації текстових даних. В якості вхідних даних було обрано текстові дані, які надходять у реальному часі. Розглянуто модель з точки зору точності класифікації, швидкості навчання моделі, кількості використаної пам’яті та швидкістю видачі результату класифікації. Представлено метод донавчання моделі та критерій відбору слів для покращення навчання моделі. Показано процес навчання моделі для багатокласової класифікації. Виявлені проблеми даного підходу та запропоновані проблеми їх вирішення.

Посилання

Role of Bloom Filter in Big Data Research: A Survey / Ripon Patgiri, Sabuzima Nayak, Samir Kumar Borgohain, -International Journal of Advanced Computer Science and Applications. – 2018.

Space/time trade-offs in hash coding with allowable errors / Б. Х. Блум, - Comm. of the ACM, 1970, - vol. 13, no. 7, pp. 422–426

Optimizing Bloom Filter: Challenges, Solutions, and Comparisons / Lailong Luo, Deke Guo, Richard T.B. Ma, Ori Rottenstreich, and Xueshan Luo. – 2018.

A Survey of Text Classification Algorithms / Charu C. Aggarwal, ChengXiang Zhai. – 2012.

The impact of preprocessing on text classification / A. K. Uysal, S. Gunal. – 2014.

Text Preprocessing For Unsupervised Learning: Why It Matters, When It Misleads, And What To Do About It / Matthew J. Denny, Arthur Spirling. – 2018.