ПРОБЛЕМА ОБ’ЄКТИВНОЇ ОЦІНКИ ЯКОСТІ АУДІОСИГНАЛІВ У СИСТЕМАХ ОБРОБКИ МОВЛЕННЯ
DOI:
https://doi.org/10.36074/grail-of-science.17.04.2026.068Keywords:
якість звучання, MSE, SNR, PESQ, STOI, шумоподавлення, мовні сигнали, оцінка якостіSummary
У роботі розглянуто проблему об’єктивної оцінки якості аудіосигналів у системах обробки мовлення. Проаналізовано ефективність класичних (MSE, SNR) та перцептивних (PESQ, STOI) метрик при очищенні мовлення від різних типів шуму, зокрема вуличного, транспортного та побутового. Показано, що жодна з існуючих метрик не забезпечує універсальної оцінки якості. Запропоновано комбіновану метрику, що об’єднує покращення SNR, PESQ та STOI.
Downloads
Downloads
References
Ahmed, A., & Imtiaz, M. H. (2026). Quantifying the relationship between speech quality metrics and biometric speaker recognition performance under acoustic degradation. Signals, 7(1), 7. https://doi.org/10.3390/signals7010007 DOI: https://doi.org/10.3390/signals7010007
Chen, J., Wang, Y., & Wang, D. (2021). A feature study for classification-based speech separation at low signal-to-noise ratios. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, 261–275.
Fu, S.-W., Wang, T.-W., Tsao, Y., Lu, X., & Kawai, H. (2018). End-to-end waveform utterance enhancement using fully convolutional neural networks. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 26(9), 1570–1584. https://doi.org/10.48550/arXiv.1709.03658 DOI: https://doi.org/10.1109/TASLP.2018.2821903
Fu, S.-W., Yu, C., Hsieh, T.-A., Plantinga, P., Ravanelli, M., Lu, X., & Tsao, Y. (2021). MetricGAN+: An improved version of MetricGAN for speech enhancement. In Proceedings of Interspeech 2021 (pp. 201–205). Interspeech 2021. https://doi.org/10.21437/Interspeech.2021-599 DOI: https://doi.org/10.21437/Interspeech.2021-599
Germain, F. G., Chen, Q., & Koltun, V. (2019). Speech denoising with deep feature losses. Interspeech 2019. https://doi.org/10.48550/arXiv.1806.10522 DOI: https://doi.org/10.21437/Interspeech.2019-1924
Kahle, J., Sach, M., Fluyt, K., & Tirry, W. (2023). Evaluation metrics for generative speech enhancement methods: Issues and perspectives. ITG Conference on Speech Communication. https://doi.org/10.30420/456164052
Pan, C., Chen, J., & Benesty, J. (2024). On intrusive speech quality measures and a global SNR-based metric. Speech Communication, 158, 103044. https://doi.org/10.1016/j.specom.2024.103044 DOI: https://doi.org/10.1016/j.specom.2024.103044
Reddy, C. K. A., Gopal, V., Cutler, R., Beyrami, E., Cheng, R., Dubey, H., Matusevych, S., Aichner, R., Aazami, A., Braun, S., Rana, P., Srinivasan, S., & Gehrke, J. (2020). The INTERSPEECH 2020 deep noise suppression challenge: Datasets, subjective speech quality and testing framework. In Proceedings of Interspeech 2020 (pp. 2492–2496). Interspeech 2020. https://doi.org/10.48550/arXiv.2005.13981 DOI: https://doi.org/10.21437/Interspeech.2020-3038
Sowmya, C. S., Das, N., Sharma, D., Mondal, S., & Soni, I. (2025). Deep Learning-Based Speech Enhancement for Robust Speech Recognition in Noisy Environments. 2025 International Conference on Automation and Computation.
Thieling, L., Nippert, L., & Jax, P. (2023). Using Perceptual Evaluation of Speech Quality (PESQ) loss for DNN-based speech enhancement. ITG Speech Communication Conference. https://doi.org/10.30420/456164011
Zheng, C., Zhang, H., Liu, W., Luo, X., Li, A., Li, X., & Moore, B. C. J. (2023). Sixty years of frequency-domain monaural speech enhancement. Trends in Hearing, 27. https://doi.org/10.1177/23312165231209913 DOI: https://doi.org/10.1177/23312165231209913