Методи розпізнавання та обробки зображень за допомогою зорового трансформера

Б.М. Недашківський

doi:10.36910/6775-2524-0560-2024-54-17

Б.М. Недашківський https://orcid.org/0000-0002-9886-2674

DOI: https://doi.org/10.36910/6775-2524-0560-2024-54-17

Ключові слова: зоровий трансформер, багатошарові зображення, моделювання, згорткові нейронні мережі, просторові відносини, механізми

Анотація

У цій роботі основна увага зосереджена на використанні можливостей Зорового Трансформера (ViT) як основи для досліджень розпізнавання та обробки зображень. Використання даної архітектури мотивується її вмінням моделювати довгострокові залежності, таким чином долаючи обмеження, пов’язані зі згортковими нейронними мережами (CNN), які обмежені локальними рецептивними полями. Не зважаючи на ефективність зорового трансформера у зборі глобальної інформації, його виняткова залежність від таких даних є неоптимальною для сценаріїв із зображеннями з кількома мітками. Ці зображення за своєю суттю містять різноманітні об’єкти, що охоплюють різні категорії, масштаби та просторові відносини. У світлі цього дослідження визнається неефективність покладатися виключно на глобальну інформацію для ефективної обробки таких комплексних візуальних даних. Дослідження спрямоване на усунення цього обмеження шляхом дослідження стратегії, яка доповнює модель ViT додатковим механізмом, здатним включати контекстну інформацію, що стосується зображень із кількома мітками, завдяки інтеграції декількох многовидів та їх злиттю у єдиний многовид. Мета полягає в тому, щоб підвищити здатність моделі розрізняти та розпізнавати об’єкти, що характеризуються різноманітними атрибутами, розмірами та просторовим розташуванням. З’ясовуючи необхідність нюансованого підходу до вирішення проблем, пов’язаних із зображеннями з кількома мітками, це дослідження є спробою зробити внесок у поточний дискурс щодо вдосконалення методологій розпізнавання та обробки зображень. Дослідження стратегій доповнення ViT контекстно-залежними механізмами підкреслює прагнення до вдосконалення можливостей моделей на основі зору для більш надійних і універсальних застосувань у сфері комп’ютерного зору

Посилання

1. Ju R. Lin T., Chiang J., Jian J., Lin Y., Huang L. Aggregated Pyramid Vision Transformer: Split-transform-merge Strategy for Image Recognition without Convolutions. 2022.
2. Hu Y., Jin X., Zhang Y., Hong H., Zhang J., Yan F., He Y., Xue H.. Diverse Instance Discovery: Vision-Transformer for Instance-Aware Multi-Label Image Recognition. 2022.
3. Zhang Z., Lei Z., Omura M., Hasegawa H., Gao S.. Dendritic Learning-Incorporated Vision Transformer for Image Recognition. IEEE/CAA Journal of Automatica Sinica. 2024. №11. P. 539-541.
4. Yamabe T., Saitoh T. Vision Transformer-Based Bark Image Recognition for Tree Identification. 2023.
5. Meng L., Li H., Chen B., Lan S., Wu Z., Jiang Y., Lim S. AdaViT: Adaptive Vision Transformers for Efficient Image Recognition. 2021.