Глибинне навчання для аудіо-додатків

A. Логвін

doi:10.36910/6775-2524-0560-2021-42-11

A. Логвін Харківський національний університет радіоелектроніки https://orcid.org/0000-0002-5913-9395

DOI: https://doi.org/10.36910/6775-2524-0560-2021-42-11

Ключові слова: машинне навчання, глибоке навчання, нейронна мережа, аудіо-сигнал, аудіо-додаток, розпізнавання, акорд, музика

Анотація

Розкрито принципи застосування глибокого навчання для нейронних мереж щодо розпізнавання аудіо-сигналів. Відокремлено області подання звуку. Підкреслено, що дослідження буде обмежено аудіо-сигналами. Описано принципи розбиття сигналу на складові елементи та їх вилучення із аудіо запису. Наведено схему формування розподілу аудіо-сигналу та запропоновано загальний підхід до задачі розпізнавання аудіо-сигналів. Він умовно поділений на три окремі етапи: обробка аудіо-запису та його перетворення у частотно-часову область, побудова спектрограми та її перетворення на формат з подальшим виведенням послідовності ознак у вигляді векторів. Визначений коефіцієнт накладання та середньозважений коефіцієнт перекриття (частковий збіг). Сформовано низку значень на основі проведеного експерименту, які показали, що на характеристики / параметри аудіо-додатків, сформовані за допомогою нейронної мережі з глибоким навчанням, має вплив метод підготовки даних, додавання шарів та формування спектру одиниць, що покращує результат за рахунок помноженого часу навчання, те саме стосується і періодичних з'єднань.

Посилання

Alías, F., Socoró, J. C., & Sevillano, X. (2016). A review of physical and perceptual feature extraction techniques for speech, music and environmental sounds. Applied Sciences, 6(5), 143, 1–44.

Xu, Y., Huang, Q., Wang, W., Foster, P., Sigtia, S., Jackson, P. J., & Plumbley, M. D. (2017). Unsupervised feature learning based on deep models for environmental audio tagging. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(6), 1230-1241.

Camastra, F., & Vinciarelli, A. (2015). Machine learning for audio, image and video analysis: theory and applications. Springer.

Sturm, B. L. (2012, October). A survey of evaluation in music genre recognition. In International Workshop on Adaptive Multimeia Retrieval (pp. 29-66). Springer, Cham.

Sturm, B. L. (2012, October). A survey of evaluation in music genre recognition. In International Workshop on Adaptive Multimedia Retrieval (pp. 29-66). Springer, Cham.

Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., & Schmidhuber, J. (2011, June). Flexible, high performance convolutional neural networks for image classification. In Twenty-second international joint conference on artificial intelligence.

Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., & Schmidhuber, J. (2011, June). Flexible, high performance convolutional neural networks for image classification. In Twenty-second international joint conference on artificial intelligence.

Gemmeke, J. F., Ellis, D. P., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., ... & Ritter, M. (2017, March). Audio set: An ontology and human-labeled dataset for audio events. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 776-780). IEEE.

Xu, Y., Kong, Q., Huang, Q., Wang, W., & Plumbley, M. D. (2017, May). Convolutional gated recurrent neural network incorporating spatial features for audio tagging. In 2017 International Joint Conference on Neural Networks (IJCNN) (pp. 3461-3466). IEEE.

Stastny, J., Skorpil, V., & Fejfar, J. (2013, July). Audio data classification by means of new algorithms. In 2013 36th International Conference on Telecommunications and Signal Processing (TSP) (pp. 507-511). IEEE.

Wichern, G., Yamada, M., Thornburg, H., Sugiyama, M., & Spanias, A. (2010, March). Automatic audio tagging using covariate shift adaptation. In 2010 IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 253-256). IEEE.

Zaccone, G., Karim, M. R., & Menshawy, A. (2017). Deep learning with TensorFlow. Packt Publishing Ltd.

Purwins, H., Li, B., Virtanen, T., Schlüter, J., Chang, S. Y., & Sainath, T. (2019). Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing, 13(2), 206-219. https://doi.org/10.1109/JSTSP.2019.2908700

Music Genre Classification With