Разработчики из Оксфорда создали компьютерную программу, способную распознавать речь человека лишь по одному движению губ. Эксперты уверены, что компьютеру это удается даже лучше, чем специально обученным людям.

Основана программа на использовании LSTM-нейросетей и новом алгоритме, позволяющем распознавать не только отдельные фразы, но и целые предложения.

Искусственная нейронная сеть нового поколения позволяет получать обратную связь и «умеет» обучаться. Кроме того, она отлично анализирует видео, используя временную базу данных.

Ученые обучали компьютер с помощью классификатора Grid, который состоит из 32 тысяч записей видео. Это мини-ролики с изображением тринадцати разных людей, произносящих предложения с одинаковым принципом построения, но с разными вариантами слов. Таким образом, каждое предложение записано 64 тысячи раз.

Программа может распознавать речь по движению губ в 93,4% случаев. Тогда как у людей, умеющих это делать, уровень «понимания» составляет чуть более 50%. Теперь исследователям предстоит тестировать компьютер на предмет работы с произвольною речью.

Добавить комментарий