Компания Mozilla опубликовала набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения 42 тысяч людей. В результате инициативы было получено почти 1400 часов речевого материала на 18 языках (русский язык отсутствует), который можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. Данные опубликованы как общественное достояние (CC0).
Ссылка:
http://www.opennet.ru/opennews/art.shtml?num=50229