Щодо застосування глибокого навчання з підкріпленням у сучасних системах.
Анотація
У статті розкрито принципи застосування глибокого навчання з підкріпленням у сучасних системах. Підкреслено, що у функції навчання з підкріпленням входить адаптація немарківської моделі прийняття рішень до ситуації, що склалася за рахунок аналізу передісторії процесу прийняття рішень, внаслідок чого підвищується якість прийнятих рішень. Описано принцип реалізації навчання з підкрі.пленням та схематично розкрито схему взаємодії агента з навколишнім середовищем. Для детального опису запропоновано використання 2D-задачі балансування полюсів, яку покладено в основу математичного аспекту. Наголошено, що у сучасних системах найбільш часто використовується дві схеми навчання з підкріпленням це метод часових різниць та метод Монте-Карло. Здійснено математичне обґрунтування кожного методу окремо та запропоновано архітектуру глибокої Q-мережі. Описано модельні та безмодельні методи, підкреслено, що модельні методи засновані на моделях навчання з підкріпленням, що змушують агента намагатися зрозуміти світ і створити модель для його подання. Безмодельні методи намагаються захопити дві функції, функцію переходу від станів і функцію винагороди, з цієї моделі агент має посилання і може планувати відповідно. Проте, зазначається, що немає необхідності вивчати модель, і агент може замість цього вивчати політику безпосередньо, використовуючи такі алгоритми, як Q-навчання або градієнт політики. Глибока Q-мережа, використовує згорткову нейронну мережу для прямої інтерпретації графічного представлення вхідного стану з навколишнім середовищем. Обґрунтовано, що глибоку Q-мережу можна розглядати як параметризовану мережу політики, яка постійно навчається для наближення оптимальної політики, а, математично, глибока Q-мережа використовує рівняння Беллмана для мінімізації функції втрат, що є ефективним для зниження часу. Однак використання нейронної мережі для наближення функції значення виявилося нестабільним і може призвести до розбіжностей через зміщення, що походить від корелятивних вибірок
Посилання
J. Dornheim, N. Link, and P. Gumbsch, “Model-Free Adaptive Optimal Control of Sequential Manufacturing Processes Using Reinforcement Learning,” arXiv.org, 2019. [Electronic resource]. Available: https://arxiv.org/abs/1809.06646v1. Accessed: August, 6, 2021.
Kayakökü, Hakan & Guzel, Mehmet & Bostanci, Gazi Erkan & Medeni, Ihsan & Mishra, Deepti. (2021). A Novel Behavioral Strategy for RoboCode Platform Based on Deep Q-Learning. Complexity. 2021. 1-14. 10.1155/2021/9963018. Accessed: August, 6, 2021.
Bi, L., Kim, J., Ahn, E., Kumar, A., Fulham, M., Feng, D. (2017). Dermoscopic Image Segmentation via Multistage Fully Convolutional Networks. IEEE Transactions on Biomedical Engineering, 64 (9), 2065–2074. doi: https://doi.org/10.1109/tbme.2017.2712771 Accessed: August, 6, 2021.
Vesal, S., Malakarjun Patil, S., Ravikumar, N., Maier, A. K. (2018). A Multi-task Framework for Skin Lesion Detection and Segmentation. OR 2.0 Context-Aware Operating Theaters, Computer Assisted Robotic Endoscopy, Clinical Image-Based Procedures, and Skin Image Analysis, 285–293. doi: https://doi.org/10.1007/978-3-030-01201-4_31 Accessed: August, 6, 2021.
Garau-Luis, Juan & Crawley, Edward & Cameron, Bruce. (2021). Evaluating the progress of Deep Reinforcement Learning in the real world: aligning domain-agnostic and domain-specific research. Accessed: August, 6, 2021.
Frikha, Mohamed & Gammar, Sonia & Lahmadi, Abdelkader & Andrey, Laurent. (2021). Reinforcement and deep reinforcement learning for wireless Internet of Things: A survey. Computer Communications. 178. 98-113. 10.1016/j.comcom.2021.07.014. Accessed: August, 6, 2021.
W. Haskell, and W. Huang, "Stochastic Approximation for Risk-Aware Markov Decision Processes", Arxiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1805.04238.pdf. Accessed: August, 6, 2021.
M. Rahman and H. Rashid, “Implementation of Q Learning and Deep Q Network for Controlling a Self-Balancing Robot Model,” ArXiv.org, 2018. [Electronic resource]. Available: https://arxiv.org/pdf/1807.08272.pdf . Accessed: August, 6, 2021.


