Ученые из НИТУ МИСИС, Sber AI Lab и НИУ ВШЭ разработали инновационный подход к обработке видео на основе искусственного интеллекта, который значительно ускоряет процесс распознавания лиц. Эксперименты показали, что новый метод может быть до 30 раз быстрее по сравнению с классическими подходами, при этом не уступая им в точности распознавания эмоций на видео.
Одной из ключевых проблем, стоящих перед исследователями в сфере компьютерного зрения, является задача классификации видеопоследовательностей — то есть определения содержания и характеристик движущихся изображений — используя методы глубокого обучения, которые позволяют компьютерам учиться на примерах и улучшать свои навыки без прямого человеческого вмешательства. Глубокое обучение опирается на нейронные сети — сложные математические модели, вдохновленные строением мозга, которые могут выявлять закономерности в больших объемах данных.
Однако традиционные методы, которые анализируют каждый кадр видео в отдельности, подобно тому как человек мог бы рассматривать фотографии одну за другой, требуют огромных вычислительных ресурсов. Это становится неэффективным, особенно когда дело доходит до систем, работающих в режиме реального времени, например, систем видеонаблюдения или автономных транспортных средств, где скорость распознавания критична.
Исследователи из Sber AI Lab, Университета МИСИС и НИУ ВШЭ предложили новый метод обработки видео, основанный на последовательном анализе и концепции гранулярных вычислений, который до 30 раз эффективнее по времени в сравнении с классическими подходами, при этом не уступает им в точности распознавания лиц и эмоций. Исследование опубликовано в научном журнале Information Sciences (Q1).
«Наш подход является первой попыткой использовать теорию тернарных (three-way) решений для классификации видео. В частности, мы представляем новый подход, основанный на последовательном анализе входных видеоданных с различной детализацией (частотой кадров). Этот метод спроектирован так, чтобы быть очень быстрым и может быть применен к любому способу извлечения характерных признаков лиц на основе глубоких нейросетей без дополнительного обучения всей модели. Мы используем только один параметр — максимально допустимую вероятность ошибок I рода для оценки порогов классификаторов для всех уровней детализации», — поясняет соавтор исследования Андрей Савченко, заместитель директора центра искусственного интеллекта НИТУ МИСИС.
В исследовании последовательности наблюдений представлялись на различных уровнях масштаба и с разной частотой кадров. На первых этапах видео представляется в менее детализированном виде на основе объединения признаков лишь малого числа кадров. Если уже для такого представления можно принять надежное решение (видео попадает в «положительное» множество одного из классов), то процедура останавливается. В противном случае частота кадров увеличивается, и процесс последовательного анализа повторяется для более детализированного представления. При этом для каждого уровня детализации обучались специализированные классификаторы. В результате наилучшая частота кадров определяется динамически. Например, для простых видео, где выражения лиц хорошо распознаются, решение принимается практически мгновенно, а для более сложных видеоданных требуется уже обработать намного больше видеокадров.
Авторы исследования отмечают, что для оптимизации метода важно не просто собирать информацию со всех кадров видео, но и уметь правильно выстраивать последовательность принятия решений, то есть сразу отсеивать ненужную информации, чтобы оставались только необходимые для классификации данные.
Одним из предположений, использованных в предложенном подходе, является присутствие только одной эмоции во всех кадрах, поэтому сейчас на практике для применения метода приходится разбивать данные из систем видеонаблюдения на небольшие фрагменты длительностью