Гібридна модель авторської атрибуції англомовних текстів
Анотація
Атрибуція авторства є критично важливим завданням у галузях комп’ютерної лінгвістики, цифрової криміналістики та інформаційної безпеки, особливо в умовах стрімкого зростання обсягів цифрових текстових даних. Традиційні стилометричні підходи ґрунтуються на використанні вручну сконструйованих лінгвістичних ознак, зокрема показників лексичного багатства, синтаксичних структур та статистики пунктуації. Незважаючи на інтерпретованість і обчислювальну ефективність, такі методи часто не здатні відобразити глибші семантичні й контекстуальні властивості текстів. Трансформерні моделі, зокрема BERT та RoBERTa, продемонстрували значний прогрес у задачах обробки природної мови завдяки здатності моделювати контекстні залежності. Проте, попри високу якість семантичних представлень, отримані вбудовування не завжди є достатньо дискримінативними для задач тонкої атрибуції авторства, особливо в умовах обмежених навчальних даних або міждоменного застосування. У цій статті представлено гібридну модель атрибуції авторства англомовних текстів, що інтегрує контекстні векторні представлення RoBERTa, класичні стилометричні ознаки та механізм контрольованого контрастного навчання в єдиній архітектурі. Розроблена архітектура формує уніфіковані авторські представлення в латентному просторі ознак, у якому контрастне навчання забезпечує компактність представлень текстів одного автора та роздільність представлень різних авторів. Стилометричні ознаки доповнюють трансформерні вбудовування, фіксуючи структурні та стилістичні характеристики текстів, що підвищує стійкість та інтерпретованість моделі. Об’єднання гетерогенних ознак реалізовано за допомогою проєкційної мережі, яка відображає комбіноване представлення в дискримінативний латентний простір. Експериментальну перевірку проведено на синтетичних еталонних наборах даних, що моделюють множинність авторів і жанрову варіативність. Створена гібридна модель суттєво перевершила базові моделі, засновані виключно на стилометрії або донавчанні трансформерів. Гібридна модель досягла точності 0,91 та макроусередненого показника F1-міри 0,90, демонструючи покращену стійкість в умовах обмежених навчальних вибірок. Отримані результати підтверджують, що використання контрастного навчання істотно покращує роздільність класів авторів у просторі векторних представлень. Розроблена модель може бути застосована в системах виявлення плагіату, судово-лінгвістичному аналізі та цифровій верифікації авторства в інформаційних системах
Посилання
Mosteller, F., & Wallace, D. L. (1964). Inference and Disputed Authorship: The Federalist Papers. Addison-Wesley.
Stamatatos, E. (2009). A Survey of Modern Authorship Attribution Methods. Journal of the American Society for Information Science and Technology, 60(3), 538–556.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL).
Liu, Y., Ott, M., Goyal, N., et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. arXiv preprint arXiv:1907.11692.
Baldwin, T., Lui, M., & Cohn, T. (2018). Challenges in Authorship Attribution in the Digital Age. Journal of Artificial Intelligence Research, 62, 217–252.


