1 Введение

Предыдущая  Содержание  Следующая V*D*V

Shazam Entertainment, Ltd. стартовала в 2000 году с идеей предоставления услуги, которая могла бы соединить людей с музыкой, распознавая музыку в окружающей обстановке, используя для прямого распознавания музыки их мобильные телефоны. Алгоритм должен был быть в состоянии распознать короткий звуковой образец музыки, который был передан, смешанный с сильным окружающим шумом, в условиях реверберации и другой обработки, захваченный маленьким микрофоном мобильного телефона, подвергнутый компрессии голосового кодека и выпадению пакетов в сети, всему этому до поступления на наши серверы. Алгоритм также должен был выполнять быстрое распознавание по большой базе данных музыки с почти 2 млн. треков и кроме того иметь низкое количество ложных срабатываний, имея высокий уровень распознавания.

 

Это была нелёгкая задача и в то время не было никаких известных нам алгоритмов, которые могли бы удовлетворить всем этим ограничениям. В конце концов мы разработали нашу собственную технику, отвечающую всем эксплуатационным ограничениям [1].

 

Мы развернули алгоритм для измерений в нашей коммерческой службе распознавания музыки с более чем 1.8 млн. треков в базе данных. Услуга в настоящее время работает в Германии, Финляндии и Великобритании с более чем с полумиллионом пользователей, а вскоре будет доступна в других странах в Европе, Азии и Америке. Использование выглядит следующим образом: пользователь слышит музыку в окружающей обстановке. Он связывается с нашим сервисом с помощью своего мобильного телефона и передаёт образцы до 15 секунд звука. Идентификация по образцу осуществляется на нашем сервере, затем название композиции и исполнитель отправляются обратно пользователю с помощью текстового SMS сообщения. Информация также доступна на веб-сайте, где пользователь может зарегистрироваться и войти в неё с помощью номера мобильного телефона и пароля. На веб-сайте или на смартфоне пользователь может посмотреть свой список отмеченных треков и купить компакт-диск. Пользователь может также скачать рингтон, соответствующий помеченному треку, если это возможно. Пользователь также может отправить 30-секундный кусочек песни другу. В ближайшем будущем могут стать доступными другие услуги, такие как приобретение загрузки MP3.

 

В последнее время появилось множество похожих потребительских услуг. Musiwave развернула подобный сервис идентификации музыки с помощью мобильного телефона на испанском операторе мобильной связи Amena с использованием надёжного алгоритма хэширования Philips [2-4]. Используя алгоритм от Relatable, Neuros включил функцию отбора образцов в свой MP3 плеер, который позволяет пользователю собрать 30-ти секундный фрагмент со встроенного радио, а потом подключиться к интернет-серверу для определения музыки [5,6]. Audible Magic использует алгоритм Muscle Fish, предлагая сервис Clango для идентификации потокового звука от Интернет-радиостанции [7-9].

 

Алгоритм Shazam может быть использован во многих приложениях, а не только распознавания музыки с помощью мобильного телефона. В связи с возможностью работы при сильном шуме, мы можем определить музыку, скрытую за громким голосом на переднем плане, например, в радио-рекламе. С другой стороны, алгоритм также очень быстр и может быть использован для мониторинга авторских прав при скорости поиска больше реального времени в более 1000 раз, что позволяет скромному серверу мониторить значительное число медиа-потоков. Этот алгоритм также подходит для разметки на основе содержания и индексирования для библиотечных и архивных целей.

 

Предыдущая  Содержание  Следующая