Глибинне навчання для аудіо-додатків
Анотація
Розкрито принципи застосування глибокого навчання для нейронних мереж щодо розпізнавання аудіо-сигналів. Відокремлено області подання звуку. Підкреслено, що дослідження буде обмежено аудіо-сигналами. Описано принципи розбиття сигналу на складові елементи та їх вилучення із аудіо запису. Наведено схему формування розподілу аудіо-сигналу та запропоновано загальний підхід до задачі розпізнавання аудіо-сигналів. Він умовно поділений на три окремі етапи: обробка аудіо-запису та його перетворення у частотно-часову область, побудова спектрограми та її перетворення на формат з подальшим виведенням послідовності ознак у вигляді векторів. Визначений коефіцієнт накладання та середньозважений коефіцієнт перекриття (частковий збіг). Сформовано низку значень на основі проведеного експерименту, які показали, що на характеристики / параметри аудіо-додатків, сформовані за допомогою нейронної мережі з глибоким навчанням, має вплив метод підготовки даних, додавання шарів та формування спектру одиниць, що покращує результат за рахунок помноженого часу навчання, те саме стосується і періодичних з'єднань.
Посилання
Xu, Y., Huang, Q., Wang, W., Foster, P., Sigtia, S., Jackson, P. J., & Plumbley, M. D. (2017). Unsupervised feature learning based on deep models for environmental audio tagging. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(6), 1230-1241.
Camastra, F., & Vinciarelli, A. (2015). Machine learning for audio, image and video analysis: theory and applications. Springer.
Sturm, B. L. (2012, October). A survey of evaluation in music genre recognition. In International Workshop on Adaptive Multimeia Retrieval (pp. 29-66). Springer, Cham.
Sturm, B. L. (2012, October). A survey of evaluation in music genre recognition. In International Workshop on Adaptive Multimedia Retrieval (pp. 29-66). Springer, Cham.
Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., & Schmidhuber, J. (2011, June). Flexible, high performance convolutional neural networks for image classification. In Twenty-second international joint conference on artificial intelligence.
Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., & Schmidhuber, J. (2011, June). Flexible, high performance convolutional neural networks for image classification. In Twenty-second international joint conference on artificial intelligence.
Gemmeke, J. F., Ellis, D. P., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., ... & Ritter, M. (2017, March). Audio set: An ontology and human-labeled dataset for audio events. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 776-780). IEEE.
Xu, Y., Kong, Q., Huang, Q., Wang, W., & Plumbley, M. D. (2017, May). Convolutional gated recurrent neural network incorporating spatial features for audio tagging. In 2017 International Joint Conference on Neural Networks (IJCNN) (pp. 3461-3466). IEEE.
Stastny, J., Skorpil, V., & Fejfar, J. (2013, July). Audio data classification by means of new algorithms. In 2013 36th International Conference on Telecommunications and Signal Processing (TSP) (pp. 507-511). IEEE.
Wichern, G., Yamada, M., Thornburg, H., Sugiyama, M., & Spanias, A. (2010, March). Automatic audio tagging using covariate shift adaptation. In 2010 IEEE International Conference on Acoustics, Speech and Signal Processing (pp. 253-256). IEEE.
Zaccone, G., Karim, M. R., & Menshawy, A. (2017). Deep learning with TensorFlow. Packt Publishing Ltd.
Purwins, H., Li, B., Virtanen, T., Schlüter, J., Chang, S. Y., & Sainath, T. (2019). Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing, 13(2), 206-219. https://doi.org/10.1109/JSTSP.2019.2908700
Music Genre Classification With


