Research on the technology of image generation based on text description using the Stable Diffusion model

П. А. Пех; О. Д. Фролов

doi:10.36910/6775-2524-0560-2025-61-08

П. А. Пех https://orcid.org/0000-0002-6327-3319
О. Д. Фролов

DOI: https://doi.org/10.36910/6775-2524-0560-2025-61-08

Ключові слова: Stable Diffusion, Clip Text Encoder, U-Net & Scheduler, AutoEncoder & Decoder, Tocen Embedding

Анотація

У статті розглядаються результати дослідження технології генерації зображень на основі текстового опису із використанням дифузійної моделі Stable Diffusion. Було детально розглянуто принципи роботи механізму прямої та зворотної дифузії, який полягає у поступовому додаванні та видаленні шуму із зображень. Реалізацію здійснено з використанням мови програмування Python та бібліотек PyTorch і Hugging Face diffusers, що дозволило ефективно виконати генерацію зображень із заданих текстових запитів. Розроблено програмний модуль, який демонструє роботу архітектури Stable Diffusion. Модуль реалізує повний цикл генерації – від введення текстового запиту користувачем до отримання готового зображення. Для побудови системи використано компоненти U–Net, Variational Autoencoder (VAE) та текстовий енкодер CLIP. Створений модуль дозволяє задавати параметри генерації (кількість кроків дифузії, рівень впливу тексту, роздільну здатність тощо) і візуалізує отримані результати. Досліджено алгоритми прямої та зворотної дифузії, що лежать в основі роботи моделі. На основі експериментів виявлено, що зменшення кількості кроків дифузії зберігає якість зображення за умови правильного підбору коефіцієнтів шуму та параметра guidance scale. Також підтверджено, що використання латентного простору дозволяє суттєво зменшити обчислювальні витрати без втрати фотореалістичності результату

Посилання

1. Ho J., Jain A., Abbeel P. Denoising Diffusion Probabilistic Models. In: Advances in Neural Information Processing Systems. 34th Conference (NeurIPS 2020), Vancouver, Canada. 2020.
2. Dehouche N. What’s in a text–to–image prompt? The potential of Stable Diffusion. Patterns. 2023. Vol. 4, No. 5. DOI/Publisher. [Electronic resource]
3. Podell D., English Z., Lacey K. et al. SDXL: Improving Latent Diffusion Models for High–Resolution Image Synthesis. arXiv preprint. 2023. [Electronic resource]
4. An Introduction to Diffusion Models and Stable Diffusion.” Marvik AI Blog. 2023, Nov 28. [Electronic resource]
5. «Рисунок 1.1 – Схематичне зображення процесу прямої та зворотної дифузії у DDPM». ResearchGate. [Electronic image resource]

Дослідження технології генерації зображень за текстовим описои засобами дифузійної моделі Stable Diffusion

Анотація

Посилання