![][1]
_Игорь Пантелеев, Software Developer, DataArt_
Для распознавания человеческой речи придумано множество сервисов — достаточно вспомнить Pocketsphinx или Google Speech API. Они способны довольно качественно преобразовать в печатный текст фразы, записанные в виде звукового файла. Но ни одно из этих приложений не может сортировать разные звуки, захваченные микрофоном. Что именно было записано: человеческая речь, крики животных или музыка? Мы столкнулись с необходимостью ответить на этот вопрос. И решили создать пробные проекты для классификации звуков с помощью алгоритмов машинного обучения. В статье описано, какие инструменты мы выбрали, с какими проблемами столкнулись, как обучали модель для TensorFlow, и как запустить наше решение с открытым исходным кодом. Также мы можем загружать результаты распознавания на IoT-платформу [DeviceHive][2], чтобы использовать их в облачных сервисах для сторонних приложений.
Сначала нам нужно было выбрать ПО для работы с нейронными сетями. Первым решением, которое показалось нам подходящим, была библиотека [Python Audio Analysis][3].
Основная проблема машинного обучения — хороший набор данных. Для распознавания речи и классификации музыки таких наборов очень много. С классификацией случайных звуков дела обстоят не так хорошо, но мы, пусть и не сразу, нашли [набор данных с «городскими» звуками][4]. [Читать дальше →][5]
[1]:
https://habrastorage.org/webt/nn/fm/ve/nnfmve5msvmeg233iornp5kgstw.jpeg
[2]:
https://devicehive.com/
[3]:
https://github.com/tyiannak/pyAudioAnalysis
[4]:
https://serv.cusp.nyu.edu/projects/urbansounddataset/
[5]:
https://habrahabr.ru/post/343464/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut