3 Характеристики

Предыдущая  Содержание  Следующая V*D*V

3.1 Стойкость к шуму

Алгоритм хорошо работает при значительных уровнях шума и даже нелинейных искажениях. Он может правильно определить музыку в присутствии голоса, шума транспорта, выпадениях и даже другой музыки. Чтобы дать представление о силе этой техники, из сильно повреждённого 15-ти секундного сэмпла статистически значимое совпадение может быть определено с помощью выживших на самом деле только лишь около 1-2% порождённых хэш-маркеров и способствующих созданию смещения кластера. Свойство метода гистограммирования рассеяния в том, что разрывы не имеют значения, что позволяет иметь невосприимчивость к выпадениям и маскировке из-за помех. Один несколько неожиданный результат состоит в том, что даже с большой базой данных мы можем правильно определить каждый из нескольких смешанных вместе треков, в том числе нескольких версий одного и того же фрагмента, свойство, которое мы называем "прозрачность".

 

На Рисунке 4 показан результат выполнения распознавания 250 сэмплов различной длительности и разным уровнем шума с помощью тестовой базы данных из 10000 треков, содержащей популярную музыку. Сэмпл шума был записан в шумном пабе для имитации условий "реальной жизни". Отрывки звука длительностью 15, 10 и 5 секунд были взяты из середины каждого тестового трека, каждый из которых был взят из тестовой базы данных. Относительная мощность шума каждого тестового кусочка была нормирована до требуемого отношения сигнал/шум, а затем линейно добавлена к сэмплу. Видно, что скорость распознавания падает до 50% для 15, 10 и 5 секундных сэмплов при отношении сигнал/шум примерно -9, -6 и -3 дБ, соответственно. Рисунок 5 показывает тот же анализ, за исключением того, что результирующая смесь музыка + шум далее подвергнута сжатию GSM 6.10, а затем снова сконвертирована в звук с PCM. В этом случае 50% уровень скорости распознавания для 15, 10 и 5 секундных сэмплов имеет место примерно при отношении сигнал/шум -3, 0 и +4 дБ. Выборка звука и обработка проводились с использованием сэмплов 8 кГц, моно, 16-бит.

 

Рис. 4 Скорость распознавания - добавлен шум

Рис. 4 Скорость распознавания - добавлен шум

 

Рис. 5 Скорость распознавания - добавлен шум + GSM компрессия

Рис. 5 Скорость распознавания - добавлен шум + GSM компрессия

 

3.2 Скорость

Для базы данных имеющей около 20 тысяч треков, реализованной на ПК, время поиска имеет порядок 5 - 500 миллисекунд, в зависимости от параметров настройки и приложения. Служба может найти соответствующий трек для сильно повреждённых звуковых сэмплов в течение нескольких сотен миллисекунд основного времени поиска. Для звука с "качеством радио" можно найти совпадение менее чем за 10 миллисекунд, а при оптимизации, вероятно, уменьшить до 1 мс на запрос.

3.3 Особенности и ложные срабатывания

Алгоритм был разработан специально с целью распознавания звуковых файлов, которые уже присутствуют в базе данных. Не ожидалось распространять на концертные записи. Тем не менее, мы случайно обнаружили на концертах несколько исполнителей, которые очевидно или чрезвычайно точны и воспроизводимы во времени (с точностью до миллисекунд), или более правдоподобно синхронизируют губы.

 

Алгоритм наоборот очень чувствителен к той именно версии трека, из которого был взят кусок. Учитывая множество различных версий одной и той же песни исполнителя, этот алгоритм может выбрать правильный, даже если они практически неотличимы для человеческого уха.

 

Мы время от времени получаем сообщения о ложных срабатываниях. Часто мы находим, что алгоритм на самом деле не был неверен, так как он нашёл пример "сэмплирования", или плагиат. Как уже упоминалось выше, существует компромисс между верными и ложными срабатываниями и, таким образом, максимально допустимый процент ложных срабатываний является параметром при проектировании, который выбирается подходящим для данного приложения.

 

Предыдущая  Содержание  Следующая