ПРОГРАММНАЯ СИСТЕМА ДЛЯ МУЛЬТИМОДАЛЬНОГО АНАЛИЗА ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА НА ОСНОВЕ АНСАМБЛЕВЫХ МЕТОДОВ КЛАССИФИКАЦИИ

Дмитрий Владимирович Фазульянов; Анна Ивановна Гусева

doi:10.6060//ivecofin.2026671.774

Дмитрий Владимирович Фазульянов Национальный исследовательский ядерный университет "МИФИ" https://orcid.org/0009-0004-0548-2982
Анна Ивановна Гусева Национальный исследовательский ядерный университет "МИФИ" https://orcid.org/0000-0002-7236-1257

DOI: https://doi.org/10.6060//ivecofin.2026671.774

Ключевые слова: сентимент-анализ, анализ эмоциональных состояний, Stacking, Adaboost, CatBost, программная система, инженерное решение, ансамблевые методы классификации

Аннотация

Данная статья посвящена разработке и исследованию программной системы для комплексного распознавания эмоциональных состояний человека на основе анализа видео, аудио и текстовых данных. Предложена архитектура, ориентированная на работу в условиях реального времени и использующая ансамблевые методы классификации для повышения надежности итоговых прогнозов. Архитектура системы построена на распределенном трехуровневом принципе, включающий клиентское приложение, высокопроизводительный API на базе FastAPI и изолированную сеть вычислительных узлов под управлением Celery и Redis. Методология исследования опирается на параллельное извлечение признаков: визуальных – через сверточную нейронную сеть ResNet-50, акустических характеристик с помощью энкодера LSTM и MFCC и семантических векторов с помощью Multilingual BERT. Ключевым элементом решения является стратегия слияния данных (Late Fusion) на основе ансамбля моделей, таких как: Stacking, Voting, Adaboost и CatBoost. Также внимание уделено механизму временной синхронизации на основе временных меток модели Faster-Whisper, что позволяет сопоставлять видеокадры, фрагменты речи и текстовую расшифровку, и минимизировать ошибки из-за задержек в обработке разных модальностей. В экспериментальной части проведено сравнение разработанного программного решения с классическими нейросетевыми архитектурами мультимодального сентимент-анализа Tensor Fusion Network (TFN) и Multi-attention Recurrent Network (MARN). Результаты апробации на реальных данных показывают, что предложенный подход на основе градиентного бустинга превосходит указанные аналоги по точности и устойчивости к внешним шумам. Реализованный подход обладает широким спектром применения, например, для мониторинга эмоционального климата в распределенных командах, что помогает своевременно выявлять риски выгорания и предупреждать конфликты. Также предложенная программная система позволяет автоматизировать аудит качества клиентского сервиса и оценку вовлеченности учащихся в рамках образовательных платформ.

Биографии авторов

Дмитрий Владимирович Фазульянов, Национальный исследовательский ядерный университет "МИФИ"

ассистент кафедры экономики и менеджмента в промышленности

Анна Ивановна Гусева, Национальный исследовательский ядерный университет "МИФИ"

Кафедра экономики и менеджмента в промышленности, доктор технических наук, профессор

Литература

Orlov A.A, Mironov M.I, Abramova E.S. Review and analysis of approaches and practical applications of human emotion recognition. Bulletin of the South Ural State University. Ser. Computer Technologies, Automatic Control, Radio Electronics. 2023 N 23(4). Р. 5–15. DOI: 10.14529/ctcr230401. (in Russian).

Kutuzova A.S., Chernov N.A., Kotenev T.E. Using artificial intelligence methods in the development of an algorithm for assessing driver fatigue. Ivecofin. 2025. N 04(66). Р. 88-95. DOI: 10.6060/ivecofin.2025664.748. (in Russian).

Cassee N., Agaronian A., Constantinou E., Novielli N., Serebrenik A. Transformers and meta-tokenization in sentiment analysis for software engineering. Empirical Software Engineering. 2024. Vol. 29. N 77. DOI: 10.1007/s10664-024-10468-2.

Zagidullina M.V. The current state of multimodal analysis: on the question of the prospects of the method. Research Result. Social Studies and Humanities. 2023. N 9(1). Р. 84–99. DOI: 10.18413/2408-932X-2023-9-1-0-7. (in Russian).

Poria S., Cambria E., Bajpai R., Hussain A. A review of affective computing: From unimodal analysis to multimodal fusion. Information Fusion. 2017. Vol. 37. P. 98–125. DOI: 10.1016/j.inffus.2017.02.003.

Poria S., Cambria E., Bajpai R., Hussain A. A review of affective computing: From unimodal analysis to multimodal fusion. Information Fusion. 2017. Vol. 37. P. 98–125. DOI: 10.1109/TPAMI.2018.2798607.

Dorokhin M.A, Chernyshev S.A. Neural network-based pronunciation diagnostics for English. Web service development. Software Products and Systems. 2025. Vol. 38. N 4. Р. 724–732. DOI: 10.15827/0236-235X.152.724-732. (in Russian).

Antipova S.A. The access control system development based on face recognition. Software & Systems. 2021. Vol. 34. N 2. Р. 245–256. DOI: 10.15827/0236-235X.134.245-256. (in Russian).

He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. P. 770–778. DOI: 10.1109/CVPR.2016.90.

Greff K., Srivastava R.K., Koutník J., Steunebrink B.R., Schmidhuber J. LSTM: A Search Space Odyssey. IEEE Transactions on Neural Networks and Learning Systems. 2017. Vol. 28. N 10. P. 2222–2232. DOI: 10.1109/TNNLS.2016.2582924.

Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision. Proceedings of the 40th International Conference on Machine Learning. 2023. Vol. 202. P. 28448–28481. DOI: 10.48550/arXiv.2212.04356.

Devlin J., Chang M., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. 2019. P. 4171–4186. DOI: 10.18553/v1/N19-1423.

Pedregosa F, Varoquaux G, Gramfort A, Michel V, Thiri-on B, Grisel O, Blondel M, Prettenhofer P, Weiss R, Dubourg V. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research. 2011. Vol. 12. P. 2825–2830. DOI: 10.48550/arXiv.1201.0490.

Ganaie M.A., Hu M., Malik A.K., Tanveer M., Suganthan P.N. Ensemble deep learning: A review. Engineering Applications of Artificial Intelligence. 2022. Vol. 115. P. 105151. DOI: 10.1016/j.engappai.2022.105151.

Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems. 2018. Vol. 31. DOI: 10.48550/arXiv.1706.09516.

Fazulianov D.V, Guseva A.I. Development of a multimodal method of sentiment analysis to support decision-making in organizations. Modern High Technologies. Regional application. 2024. N (5-2). Р. 313–320. DOI: 10.17513/snt.40045. (in Russian).

Livingstone S.R., Russo F.A. The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS). PLoS ONE. 2018. Vol. 13. N 5. DOI: 10.1371/journal.pone.0196391.

Martin O., Kotsia I., Macq B., Pitas I. The eNTERFACE'05 Audio-Visual Emotion Database. IEEE International Conference on Multimedia and Expo (ICME). 2006. P. 8–8. DOI: 10.1109/ICDEW.2006.145.

Cao H., Cooper D.G., Keutmann M.K., Gur R.C., Nenkova A., Verma R. CREMA-D: Crowd-sourced Emotional Multimodal Actors Dataset. IEEE Transactions on Affective Computing. 2014. Vol. 5. N 4. P. 377–390. DOI: 10.1109/TAFFC.2014.2336244.

Zadeh A., Chen M., Poria S., Cambria E., Morency L.P. Tensor Fusion Network for Multimodal Sentiment Analysis. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2017. P. 1103–1114. DOI: 10.18553/v1/D17-1115.

Zadeh A., Liang P.P., Poria S., Vij P., Cambria E., Morency L.P. Multi-attention Recurrent Network for Human Communication Comprehension. Proceedings of the AAAI Conference on Artificial Intelligence. 2018. Vol. 32. N 1. P. 5642–5649. DOI: 10.1609/aaai.v32i1.12011.

Zimnurov M.F. Developing an interface based on employee workload metrics. Ivecofin. 2024. N 4 (62). Р. 82–87. DOI: 10.6060/ivecofin.2024624.705. (in Russian).