Снова команды, занимающиеся разработкой искусственного интеллекта, дразнят царство невозможного и показывают удивительные результаты. Сегодняшняя группа специалистов выяснила, как может выглядеть лицо человека, если основывать его внешность только на голосе. Специально для этого был разработан алгоритм под названием Speech2Face. Дело в том, что исследовательская группа нашла способ воссоздания людских лиц на основе коротких аудиоклипов.
Статья, описывающая работу исследователей, посвящена arXiv и называется «Speech2Face: изучение лица по голосу». Ее авторами являются: Тэ-Хён О, Тали Декель, Чангиль Ким, Инбар Моссери, Уильям Фримани, Майкл Рубинштейн и Войцех Матусики. «Наша цель в этой работе заключается в изучении того, насколько хорошо мы можем передать внешность человека по одному лишь его голосу».
Они оценили и количественно определили, как сильно их реконструкции лиц, создаваемые с использованием Speech2Face, похожи на истинные лица говоривших людей.
Авторы хотят убедиться в том, что читатели правильно истолковывают их намерения. Они отмечают, что не пытались связать голоса с изображениями конкретных людей, записавших аудиофайлы, поскольку их настоящая цель связана не с воссозданием точных копий лиц, а скорее с обнаружением доминирующих черт лица, соотносящихся с речью.
Создатели алгоритма также сообщили на GitHub, что они считают важным обсудить в статье этические соображения по поводу данной возможности, ведь далеко не все хотят раскрывать свою внешность перед незнакомцами, разговаривая с ними по телефону или с помощью мессенджеров
В своей статье они отметили, что их метод «не может восстановить истинную личность человека по его голосу (то есть, точное изображение его лица). Дело в том, что наша модель обучена отражать визуальные особенности (связанные с возрастом, полом и так далее), которые являются общими для многих людей. К тому же она делает это только в тех случаях, когда имеет достаточно веских доказательств, чтобы связать эти визуальные особенности с вокальными/речевыми атрибутами, представленными в полученных ранее данных».
Они также отметили, что модель воспроизводит среднестатистические лица с характерными визуальными особенностями, соотнесенными с имеющейся речью.
Джеки Сноу в подробностях рассказал об их методе. Сноу заявил, что набор данных, который они взяли, был составлен из клипов с YouTube. Speech2Face был обучен учеными с помощью видео из интернета, на которых демонстрировались разговаривающие люди. Они создали модель на основе нейронной сети, которая «изучила вокальные атрибуты, связанные с чертами лица, из роликов».
Сноу добавил: «Теперь, когда система слышит новый звуковой фрагмент, искусственный интеллект использует полученные ранее данные, чтобы угадать, как может выглядеть лицо говорящего человека».
В Neurohive решили обсудить данную работу: «Они извлекают из видеороликов комбинации из речи и лиц, которые затем подаются в две ветви архитектуры. Изображения кодируются в скрытом векторе с использованием предварительно обученной модели распознавания лиц, в то время как форма волны отправляется в речевой кодер в форме спектрограммы, чтобы использовать мощность сверточных архитектур. Кодированный вектор из речевого кодера подается в декодер лица для получения окончательной реконструкции внешности человека».
Можно также получить точный отчет об их методе и о том, как они тестировали его, прочитав статью на Packt: «Они отметили, что дополнительно проверили и количественно оценили, как их Speech2Face реконструирует лица с помощью аудио и насколько сильно они напоминают настоящие лица говоривших людей. Для этого они протестировали свою модель как качественно, так и количественно на наборе данных AVSpeech и VoxCeleb».
Как их выводы могут помочь в реальных приложениях? Они ответили следующим образом: «Мы считаем, что воссоздание изображений лица с использованием голоса может помочь в разработке полезных приложений, связанных с добавлением репрезентативного лица к телефонным или видеозвонкам на основе голоса говорящего».
Почему их работа важна: подумайте о шаблонах. «Предыдущее исследование изучало методы прогнозирования возраста и пола по речи», – сказал Сноу, – «но в этом случае исследователи утверждают, что они также обнаружили корреляции с некоторыми чертами лица».