Метод побудови засобів розпізнавання ключових слів у малоресурсних компʼютерних системах

А. В.  Дідус; І. А.  Терейковський

doi:10.36910/6775-2524-0560-2025-61-10

А. В. Дідус https://orcid.org/0009-0004-2235-6742
І. А. Терейковський https://orcid.org/0000-0003-4621-9668

DOI: https://doi.org/10.36910/6775-2524-0560-2025-61-10

Ключові слова: розпізнавання ключових слів, системи з обмеженими ресурсами, метод побудови, акустичний фінгерпринтинг, зважування ознак, відстань Левенштейна

Анотація

Розпізнавання ключових слів у малоресурсних автономних системах, таких як наземні дрони, стикається з фундаментальним компромісом між точністю та обчислювальною ефективністю. У статті представлено метод побудови засобів розпізнавання, що вирішує цю проблему шляхом оптимізації класичних підходів, а не застосування ресурсоємних нейронних мереж. В основі методу лежить принцип пріоритезації інформативності ознак, реалізований через механізм зваженого акустичного фінгерпринтингу: мел-кепстральні коефіцієнти (MFCC) зважуються, агрегуються та перетворюються на компактні рядкові «відбитки», які потім порівнюються за допомогою відстані Левенштейна. Експериментальна валідація методу на прикладі системи розпізнавання 100 команд для дрона продемонструвала високу ефективність: досягнуто F1-міру 0.92 в ідеальних умовах та 0.78 при співвідношенні сигнал/шум 5 дБ. Порівняльний аналіз показав, що розроблений підхід значно перевершує базові класичні аналоги та є ефективною автономною альтернативою хмарним сервісам. Таким чином, запропонований метод дозволяє створювати високоточні та обчислювально легкі системи розпізнавання ключових слів, повністю адаптовані для роботи на периферійних пристроях без доступу до мережі

Посилання

1. Chen, G., Parada, C. and Heigold, G. (2014). Small-footprint keyword spotting using deep neural networks. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, pp. 4087-4091.
2. Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2), pp. 257-286.
3. Seo, D., Oh, H.-S. and Jung, Y. (2021). Wav2KWS: Transfer Learning From Speech Representations for Keyword Spotting. IEEE Access, 9, pp. 80682-80691.
4. Dua, S. et al. (2022). Developing a Speech Recognition System for Recognizing Tonal Speech Signals Using a Convolutional Neural Network. Applied Sciences, 12(12), 6223.
5. Alharbi, S. et al. (2021). Automatic Speech Recognition: Systematic Literature Review. IEEE Access, 9, pp. 131858-131876.