Порівняльна оцінка стратегій навчання моделей трансформерів у публічних хмарних платформах

Т. О. Левицька; О. С. Копійка; Д. Д. Грищак

doi:10.36910/6775-2524-0560-2025-61-17

Т. О. Левицька https://orcid.org/0000-0003-3359-1313
О. С. Копійка https://orcid.org/0009-0004-4117-4899
Д. Д. Грищак https://orcid.org/0000-0001-8956-8468

DOI: https://doi.org/10.36910/6775-2524-0560-2025-61-17

Ключові слова: LLM, Трансформер, хмарні обчислення, навчання моделей, тонке налаштування, PEFT, LoRA, TPU

Анотація

У статті представлено всебічну порівняльну оцінку сучасних стратегій навчання моделей на основі архітектури Трансформер, зокрема Великих Мовних Моделей, на провідних публічних хмарних платформах: Amazon Web Services, Google Cloud Platform та Microsoft Azure. Дослідження систематизує та аналізує ключові технічні, економічні, екологічні та пов'язані з масштабованістю виклики, що постають перед розробниками та дослідниками. Розглянуто основні архітектури LLM, такі як BERT, GPT, LLaMA та Falcon, і детально проаналізовано методології навчання: повне попереднє навчання, тонке налаштування та параметро-ефективні методи, включно з LoRA та QLoRA. У роботі наведено порівняльний аналіз специфічних для хмарних провайдерів обчислювальних ресурсів (GPU A100/H100, TPU, AWS Trainium), інструментів MLOps, мережевих рішень та моделей ціноутворення. На основі синтезу емпіричних даних та бенчмарків сформульовано науково обґрунтовані рекомендації щодо вибору оптимальних стратегій навчання та хмарних конфігурацій залежно від сценаріїв використання та ресурсних обмежень. Робота спрямована на надання практичних знань для фахівців та визначення напрямків для майбутніх досліджень у сфері оптимізації навчання LLM

Посилання

1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (Vol. 30, pp. 5998–6008).
2. Amazon Web Services. (2022, March 15). Amazon FSx for Lustre: Best practices guide. Retrieved from
3. Brown, T. B. et al. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165.
4. Databricks. (2023, June 30). Benchmarking large language models on NVIDIA H100 GPUs with CoreWeave (Part 1). Databricks Engineering Blog.
5. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv Preprint, arXiv:1810.04805