![][1]
Расскажем о том, как устроен поиск похожих треков среди всех аудиозаписей ВКонтакте.
У нас действительно много музыки. Много — это больше 400 миллионов треков, которые весят примерно 4 ПБ. Если загрузить всю музыку из ВКонтакте на 64 ГБ айфоны, и положить их друг на друга, получится башня выше Эйфелевой. Каждый день в эту стопку нужно добавлять еще 25 айфонов — или 150 тысяч новых аудиозаписей объёмом 1.5 ТБ.
Конечно, далеко не все эти файлы уникальны. У каждого аудио есть данные об исполнителе и названии (опционально — текст и жанр), которые пользователь заполняет при загрузке песни на сайт. Премодерации нет. В результате мы получаем одинаковые песни под разными названиями, ремиксы, концертные и студийные записи одних и тех же композиций, и, конечно, совсем неверно названные треки.
Если научиться достаточно точно находить одинаковые (или очень похожие) аудиозаписи, можно применять это с пользой, например:
* не дублировать в поиске один трек под разными названиями;
* предлагать прослушать любимую композицию в более высоком качестве;
* добавлять обложки и текст ко всем вариантам песни;
* усовершенствовать механизм рекомендаций;
* улучшить работу с жалобами владельцев контента.
[Читать дальше →][2]
[1]:
https://habrastorage.org/web/887/001/333/887001333cc9480cb32f6962518e84a2.png
[2]:
https://habrahabr.ru/post/330988/?utm_source=habrahabr&utm_medium=rss&utm_campaign=feed_posts#habracut