СТРАТЕГИИ ФОРМИРОВАНИЯ ОБУЧАЮЩИХ ВЫБОРОК ДЛЯ  ТРАНСФОРМЕРНОЙ МОДЕЛИ ИЗВЛЕЧЕНИЯ РЕЛЯЦИОННЫХ ТРОЕК RESC

Андрей Владимирович Кузьменко; Василий Сергеевич Киреев

doi:10.6060//ivecofin.2026671.770

Андрей Владимирович Кузьменко Национальный исследовательский ядерный университет «МИФИ» https://orcid/org/0009-0007-5900-6676
Василий Сергеевич Киреев Национальный исследовательский ядерный университет «МИФИ» https://orcid/org/0000-0001-6315-163X

DOI: https://doi.org/10.6060//ivecofin.2026671.770

Ключевые слова: Реляционная тройка, нейронная сеть, обработка естественного языка, трансформеры, графы знаний

Аннотация

Настоящая статья посвящена исследованию методологии построения графов знаний (ГЗ), которые являются одним из ключевых инструментов структурированного представления семантической информации в таких прикладных областях, как рекомендательные системы, информационный поиск и вопросно-ответные системы. Фундаментальной задачей в процессе автоматизированной генерации ГЗ является извлечение реляционных троек (субъект-отношение-объект), представляющих собой формализованное описание взаимосвязей между выделенными сущностями.

Целью данной работы является комплексный анализ влияния объема и формата обучающих данных на производительность модели RESC, предложенной ранее авторами для решения указанной задачи. Основное внимание уделяется оценке эффективности подхода, основанного на использовании частично размеченных данных для обучения, что позволяет сократить зависимость от трудоемкого процесса полной аннотации.

Экспериментальная часть исследования выполнена на общедоступном корпусе NYT-11, широко применяемом для валидации методов извлечения отношений. В ходе работы были выявлены и проанализированы ключевые факторы, детерминирующие итоговое качество извлечения, такие как степень полноты разметки и стратегия формирования обучающих выборок. На основе проведенного анализа предложены и эмпирически обоснованы практические рекомендации по оптимизации процесса подготовки данных для обучения моделей извлечения реляционных троек, позволяющие достигать высокой точности при сокращении требований к объему полностью размеченных примеров.

Литература

Zhang J.C. et al. A review of recommender systems based on knowledge graph embedding. Expert Systems with Appli-cations. 2024. N 250. P. 123876. DOI: 10.1016/j.eswa.2024.123876.

Ji S., Pan S., Cambria E., Marttinen P., Yu P.S. A Survey on Knowledge Graphs: Representation, Acquisition, and Ap-plications. IEEE Transactions on Neural Networks and Learning Systems. 2022. N 33(2). P. 494-514. DOI: 10.1109/TNNLS.2021.3070843.

Zimnurov M.F., Astrakhantseva I.A. Usage of large language models for building multi-vectored and multi-linked data model of work process. Modern high technologies. Regional application. 2025. N 1(81). P. 76-83. DOI 10.6060/snt.20258101.0009. (in Russian).

Dai Y., Wang S., Xiong N., Guo W. A Survey on Knowledge Graph Embedding: Approaches, Applications and Benchmarks. Electronics. 2020. N 9(5). P. 750. DOI: 10.3390/electronics9050750.

Gerasimov A.S., Bobkov. S.P. Development of a self-learning system for natural language processing with dynamic knowledge reorganization. Ivecofin. 2025. N 3(65). P. 77-84. DOI: 10.6060/ivecofin.2025653.734. (in Russian).

Kuzmenko A.V., Kireev V.S. Classification of methods for extracting relational triples from natural language texts. Materials of the XXV International Scientific and Technical Conference "Neuroinformatics-2023". Moscow: NRNU MEPhI. 2023. P. 302-311. (in Russian).

Zenelnko D., Aone C., Richardella A. et al. Kernel methods for relation extraction. Journal of Machine Learning Research. 2003. N. 3. P. 1083-1106. DOI: 10.5555/944919.944964.

Chan S.Y., Roth D. Exploiting syntactico-semantic structures for relation extraction. Materials of the 49th Annu. Meet. Assoc. Comput. Linguistics: Human Lang. Technol. 2011. P. 551-560.

Zhong Z., Chen D.A. A frustratingly easy approach for entity and relation extraction. Materials of the Conf. North Amer. Chapter Assoc. Comput. Linguistics: Human Lang. Technol. 2021. P. 50-61.

Zhang M., Zhang Y., Fu G. End-to-End Neural Relation Extraction with Global Optimization. Materials of the Conf. Empirical Methods in Natural Lang. Process. 2017. P. 1730-1740.

Gupta P., Schütze H., Andrassy B. Table Filling Multi-Task Recurrent Neural Network for Joint Entity and Relation Extraction. Materials of the COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. 2016. P. 2537-2547.

Wei Z., Su J., Wang Y., et al. A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. Materials of the 58th Annu. Meet. Assoc. Comput. Linguistics. 2020. P. 1476-1488.

Zheng S., Wang F, Bao H. et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. Materials of the 55th Annual Meeting of the Association for Computational Linguistics. 2017. N. 1. P. 1227-1236.

Dai D., Xiao X., Lyu Y. et al. Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling. Materials of the AAAI Conference on Artificial Intelligence. 2019. P. 6300-6308.

Sui D., Chen Y., Liu K., et al. Joint entity and relation extraction with set prediction networks. IEEE Trans. Neural Networks Learn. Syst. 2024. P. 12784-12795. DOI: 10.1109/TNNLS.2023.3264735.

Zeng X., Zeng D., He S. et al. Extracting relational facts by an end-to-end neural model with copy mechanism. Materials of the 56th Annu. Meet. Assoc. Comput. Linguistics. 2018. N 1. P. 506-514.

Zeng D., Zhang H., Liu Q. CopyMTL: Copy Mechanism for Joint Extraction of Entities and Relations with Multi-Task Learning. Materials of the AAAI Conference on Artificial Intelligence. 2020. N 34(05). P. 9507-9514.

Yuan C., Xie Q., Ananiadou S. Zero-shot Temporal Rela-tion Extraction with ChatGPT. Materials of the 22nd Work-shop Biomedical Natural Language Processing and BioNLP Shared Tasks. 2023. P. 92-102.

Hu Y., Ameer I., Zou X. Zero-shot Clinical Entity Recognition using ChatGPT. https://www.researchgate.net/publication/369623655_Zero-shot_Clinical_Entity_Recognition_using_ChatGPT.

Delvin J., Chang M.W., Lee K., Toutanova K. BERT: pre-training of deep bidirectional transformer for language understanding. Materials of the Conf. North Amer. Chapter Assoc. Comput. Linguistics: Human Lang. Technol. 2019. P. 4171-4186.

Kuzmenko A.V., Kireev V.S. An ablative study of the relational triple extraction model RESC. Modern science. 2025. N 2(2). P. 108-116. DOI: 10.37882/2223-2966.2025.02-2.22. (in Russian).

Loshchilov I., Hutter F. Decoupled weight decay regulariza-tion. https://openreview.net/pdf?id=Bkg6RiCqY7.

Riedal S., Yao L., McCallum A. Modeling relations and their mentions without labeled text. Mach. Learn. Knowl. Discov. Databases. 2010. P. 148-163.

Kun X., Liwei W., Mo Y. et al. Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network. Materials of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. P. 3156–3161.