Preview

Вопросы радиоэлектроники

Расширенный поиск

РАСПОЗНАВАНИЕ РЕЧИ НА ОСНОВЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ

https://doi.org/10.21778/2218-5453-2019-4-47-52

Полный текст:

Аннотация

Рассматривается задача распознавания речи человека в виде записанных на диктофон сигналов произнесенных цифр от 1 до 10. Использован метод распознавания спектрограммы звукового сигнала с помощью сверточных нейронных сетей. Реализованы алгоритмы для предварительной обработки входных данных – изображений спектрограмм, а также алгоритмы для обучения сети и распознавания произнесенных слов. Оценено качество распознавания для разного количества сверточных слоев. Исходя из этого, выбрано их число, предложена структура нейронной сети. Произведено сравнение качества распознавания в случаях, когда входными данными для сети являются спектрограмма звукового сигнала или выделенные из нее первые две форманты. Тестирование алгоритма распознавания произведено на примерах мужского и женского голосов с разной длительностью произношения.

Об авторах

Р. Ю. Белоруцкий
Новосибирский государственный технический университет
Россия
к.т.н., доцент, кафедра радиоприемных и радиопередающих устройств


С. В. Житник
Новосибирский государственный технический университет
Россия
магистрант, кафедра радиоприемных и радиопередающих устройств


Список литературы

1. Tebelskis J. Speech recognition using neural networks. Pittsburgh: Carnegie Mellon University, 1995. 180 p.

2. Juang B.H. Automatic speech recognition. Atlanta: Georgia Institute of Technology, 2000. P. 1–24.

3. Hazrati O., Ghaffarzadegan S., Hansen J.H.L. Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brisbane, 2015. P. 5093–5097.

4. Suh Y., et al. Development of distant multi channel speech and noise databases for speech recognition by in door conversational robots. 20th Conference of the Oriental Chapter of the International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment (O COCOSDA). Seoul, 2017. P. 1–4.

5. Meltzner G.S., Heaton J.T., Deng Y., et al. Silent speech recognition as an alternative communication device for persons with laryngectomy. IEEE/ACM Transactions on Audio, Speech, and Language Processing. Vol. 25. № 12. P. 2386–2398.

6. Dominguez Morales J. P., et al. Deep spiking neural network model for time variant signals classification: a real time speech recognition approach. 2018 International Joint Conference on Neural Networks (IJCNN). Rio de Janeiro, 2018. P. 1–8.

7. Chollet F. Deep lerning with Python. Shelter Island: Manning Publication, 2018. 384 p.

8. Stanford Vision Lab. ImageNet Large Scale Visual Recognition Challenge (ILSVRC) [Электронный ресурс]. URL: http:// image net.org/challenges/LSVRC (дата обращения: 13.12.2018).

9. Guo T., Dong J., Li H., Gao Y. Simple convolutional neural network on image classification. IEEE 2nd International Conference on Big Data Analysis (ICBDA). Beijing, 2017. P. 721–724.

10. Albawi S., Mohammed T.A., Al Zawi S. Understanding of a convolutional neural network. International Conference on Engineering and Technology (ICET). Antalya, 2017. P. 1–6.

11. Pieraccini R. The voice in the machine. Building computers that understand speech. Cambridge, Massachusetts: MIT Press, 2012. 360 p.


Для цитирования:


Белоруцкий Р.Ю., Житник С.В. РАСПОЗНАВАНИЕ РЕЧИ НА ОСНОВЕ СВЕРТОЧНЫХ НЕЙРОННЫХ СЕТЕЙ. Вопросы радиоэлектроники. 2019;(4):47-52. https://doi.org/10.21778/2218-5453-2019-4-47-52

For citation:


Belorutsky R.Yu., Zhitnik S.V. SPEECH RECOGNITION BASED ON CONVOLUTION NEURAL NETWORKS. Issues of radio electronics. 2019;(4):47-52. (In Russ.) https://doi.org/10.21778/2218-5453-2019-4-47-52

Просмотров: 274


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2218-5453 (Print)
ISSN 2686-7680 (Online)