РОЗРОБКА ПРОЕКТУ ІНТЕЛЕКТУАЛЬНОЇ ГІБРИДНОЇ СИСТЕМИ З АДАПТИВНОГО АСИСТУВАННЯ ОНЛАЙН-ЗУСТРІЧЕЙ НА БАЗІ NLP МОДЕЛЕЙ ОБРОБКИ ВЕЛИКИХ ДАНИХ
DOI:
https://doi.org/10.36074/grail-of-science.20.02.2026.116Keywords:
адаптивний асистент зустрічей, розпізнавання мовлення, обробка природної мови, витягування пунктів дій, проактивні інтервенції, обробка в реальному часі.Summary
Розроблено архітектуру та реалізовано адаптивний асистент онлайн-зустрічей, здатний здійснювати автоматичне розпізнавання мовлення, семантичний аналіз діалогів та генерацію проактивних підказок у режимі реального часу. Система побудована на мікросервісній архітектурі з потоковою обробкою аудіоданих та забезпечує наскрізну латентність від мовлення до відображення транскрипту не більше двох секунд. Модуль розпізнавання мовлення реалізовано на базі Faster-Whisper з INT8-квантуванням через CTranslate2 та детекцією голосової активності Silero VAD, на чистому аудіо. NLP-конвеєр на основі fine-tuned DistilBERT виконує автоматичне витягування пунктів дій, питань та рішень з транскриптів зустрічей. Модуль проактивних інтервенцій інтегрує евристичні правила з великими мовними моделями через Ollama/OpenAI API для генерації контекстуальних підказок учасникам під час обговорення. Проведено експериментальну валідацію на записах корпусу AMI та імітованих Zoom-сесіях. Порівняльний аналіз із комерційними аналогами Otter.ai та Fireflies.ai підтвердив унікальність рішення за критеріями підтримки проактивної фасилітації, локального розгортання та повноцінної роботи з українською мовою.
Downloads
Downloads
License
Copyright (c) 2026 Денис Лисий, Микола Рудніченко, Наталя Шибаєва, Ігор Петров, Денис Шведов, Тетяна Отрадська
References
Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., ... & Zhu, Z. (2016). Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. Proceedings of the 33rd International Conference on Machine Learning, 48, 173–182.
Baevski, A., Zhou, H., Mohamed, A., & Auli, M. (2020). wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations. arXiv preprint. https://arxiv.org/abs/2006.11477
Bailenson, J. N. (2021). Nonverbal Overload: A Theoretical Argument for the Causes of Zoom Fatigue. Technology, Mind, and Behavior, 2(1). https://doi.org/10.1037/tmb0000030 DOI: https://doi.org/10.1037/tmb0000030
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 33, 1877–1901.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Proceedings of NAACL-HLT, 4171–4186. DOI: https://doi.org/10.18653/v1/N19-1423
Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006). Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. Proceedings of the 23rd International Conference on Machine Learning, 369–376. DOI: https://doi.org/10.1145/1143844.1143891
Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 328–339. DOI: https://doi.org/10.18653/v1/P18-1031
Jurafsky, D., & Martin, J. H. (2023). Speech and Language Processing (3rd ed., draft). https://web.stanford.edu/~jurafsky/slp3/
McCowan, I., Carletta, J., Kraaij, W., Ashby, S., Bourban, S., Flynn, M., ... & Wellner, P. (2005). The AMI Meeting Corpus. Proceedings of the 5th International Conference on Methods and Techniques in Behavioral Research, 137–140.
Panayotov, V., Chen, G., Povey, D., & Khudanpur, S. (2015). Librispeech: An ASR Corpus Based on Public Domain Audio Books. Proceedings of ICASSP, 5206–5210. DOI: https://doi.org/10.1109/ICASSP.2015.7178964
Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... & Chintala, S. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library. Advances in Neural Information Processing Systems, 32, 8024–8035.
Radford, A., Kim, J. W., Xu, T., Brockman, G., McLeavey, C., & Sutskever, I. (2022). Robust Speech Recognition via Large-Scale Weak Supervision. arXiv preprint. https://arxiv.org/abs/2212.04356
Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2019). DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv preprint. https://arxiv.org/abs/1910.01108
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30, 5998–6008.
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., ... & Rush, A. M. (2020). Transformers: State-of-the-Art Natural Language Processing. Proceedings of EMNLP System Demonstrations, 38–45. DOI: https://doi.org/10.18653/v1/2020.emnlp-demos.6
Young, T., Hazarika, D., Poria, S., & Cambria, E. (2018). Recent Trends in Deep Learning Based Natural Language Processing. IEEE Computational Intelligence Magazine, DOI: https://doi.org/10.1109/MCI.2018.2840738
(3), 55–75.
Downloads
How to Cite
Issue
Section
Categories