Порівняння методів оптимізації для навчання нейронних мереж

  • М. Поліщук Луцький національний технічний університет
  • С. Гринюк Луцький національний технічний університет
  • С. Дацюк Луцький національний технічний університет
Ключові слова: методи оптимізації, нейронні мережі, метод градієнтного спуску, стохастичний градієнт, tensorflow, машинне навчання, згорткові нейронні мережі

Анотація

Сучасні методи навчання нейронних мереж, полягають в знаходженні мінімуму деякої неперервної функції помилки. За останні роки були запропоновані різні алгоритми оптимізації, які використовують різні підходи для оновлення параметрів ваг моделі. Дана стаття описує найбільш поширені методи оптимізації, що застосовуються в задачах навчання нейронних мереж, також наведений порівняльний аналіз цих методів на прикладі навчання простої згорткової нейромережі на наборі даних MNIST. В процесі аналізу були розглянуті різні реалізації методу градієнтного спуску, імпульсні методи, адаптивні методи, узагальнені проблеми їх використання, а також виявлені основні переваги кожного з методів

Посилання

Kelley, Henry J. (1960). Gradient theory of optimal flight paths. Ars Journal 30(10): 947–954. doi:10.2514/8.5282. (англ.)

Arthur E. Bryson [en] (1961, April). A gradient method for optimizing multi-stage allocation processes. In Proceedings of the Harvard Univ. Symposium on digital computers and their applications. (англ.)

Dreyfus, Stuart (1962). The numerical solution of variational problems. Journal of Mathematical Analysis and Applications 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5. (англ.)

Dreyfus, Stuart (1973). The computational solution of optimal control problems with time lag. IEEE Transactions on Automatic Control 18 (4): 383–385. doi:10.1109/tac.1973.1100330. (англ.)

Schmidhuber, Jürgen (2015). Deep Learning. Scholarpedia 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.(англ.)

Ruder, S. An overview of gradient descent optimization algorithms / S. Ruder // Cornell University Library. – 2016. – URL: https://arxiv. org/abs/1609.04747

Jordan, J. Intro to optimization in deep learning: Gradient Descent/ J. Jordan // Paperspace. Series: Optimization. – 2018. – URL: https://blog.paperspace.com/intro-to-optimization-in-deep-learning-gradient-descent/

Seppo Linnainmaa[en] (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), Univ. Helsinki, 6-7. (англ.)

Anish Singh Walia Types of Optimization Algorithms used in Neural Networks and Ways to Optimize Gradient Descent – URL: https://towardsdatascience.com/types-of-optimization-algorithms-used-in-neural-networks-and-ways-to-optimize-gradient-95ae5d39529f

Fletcher, R. Practical methods of optimization / R. Fletcher. – Wiley, 2000. – 450 p.¬
Опубліковано
2020-02-19
Як цитувати
Поліщук, М., Гринюк, С., & Дацюк, С. (2020). Порівняння методів оптимізації для навчання нейронних мереж. КОМП’ЮТЕРНО-ІНТЕГРОВАНІ ТЕХНОЛОГІЇ: ОСВІТА, НАУКА, ВИРОБНИЦТВО, (35), 177-183. вилучено із https://cit.lntu.edu.ua/index.php/cit/article/view/71
Розділ
Інформатика та обчислювальна техніка