Gradio для швидкого прототипування мультимодальних AI-систем на прикладі задачі розпізнавання інформації з упаковок лікарських засобів

Ключові слова: мультимодальні мовні моделі, MLLM, Gradio, швидке прототипування, розпізнавання лікарських засобів, мультимодальні системи, AI-системи, обробка зображень, хмарні сервіси, накопичення датасетів

Анотація

У статті досліджено підхід до організації середовища швидкого прототипування мультимодальних систем розпізнавання лікарських засобів на основі хмарних MLLM-сервісів та бібліотеки Gradio. Розглянуто проблему складності створення експериментальних AI-систем, пов’язану з реалізацією frontend- та backend-компонентів, інтеграцією API та організацією тестування моделей. Запропоновано дослідницьке середовище, у якому Gradio використовується як проміжний шар взаємодії між користувачем і мультимодальною мовною моделлю. Розроблене середовище забезпечує швидке створення MVP-прототипів для розпізнавання інформації з фотографій упаковок лікарських засобів, підтримує обробку мультимодальних даних та дозволяє виконувати інтерактивне тестування різних конфігурацій моделей без модифікації архітектури системи. Окрему увагу приділено автоматичному накопиченню експериментальних даних у процесі взаємодії користувача із системою, що дозволяє поєднати rapid prototyping та формування експериментального датасету в межах єдиного дослідницького середовища. Основними результатами роботи є lightweight-архітектура мультимодального AI-середовища, інтеграція Gradio з хмарними MLLM-сервісами та підтримка інтерактивного тестування моделей і prompt-запитів. Отримані результати підтверджують доцільність використання Gradio для rapid prototyping мультимодальних AI-систем у задачах розпізнавання інформації з упаковок лікарських засобів.

Посилання

1. Liu, Y., Wang, C., Yin, Y. et al. (2024) Multimodal Large Language Models: A Survey. arXiv preprint arXiv:2306.13549. DOI: https://doi.org/10.48550/arXiv.2306.13549.
2. Billka AI (2026). URL: https://billka.sytoss.com/en/.
3. Smith, R. (2007) An Overview of the Tesseract OCR Engine. Proceedings of the Ninth International Conference on Document Analysis and Recognition (ICDAR 2007), vol. 2, pp. 629–633. DOI: https://doi.org/10.1109/ICDAR.2007.4376991.
4. OpenAI (2024) GPT-4V(ision) System Card. URL: https://openai.com/research/gpt-4v-system-card.
5. Abid, A., Abdalla, A., Abid, A. et al. (2019) Gradio: Hassle-Free Sharing and Testing of ML Models in the Wild. arXiv preprint arXiv:1906.02569. DOI: https://doi.org/10.48550/arXiv.1906.02569.
Опубліковано
2026-05-29
Як цитувати
Дацок, Є., & Яковлева , О. (2026). Gradio для швидкого прототипування мультимодальних AI-систем на прикладі задачі розпізнавання інформації з упаковок лікарських засобів. КОМП’ЮТЕРНО-ІНТЕГРОВАНІ ТЕХНОЛОГІЇ: ОСВІТА, НАУКА, ВИРОБНИЦТВО, (63), 76-83. https://doi.org/10.36910/6775-2524-0560-2026-63-08
Розділ
Інформатика та обчислювальна техніка