Группа IT-разработчиков из Оксфорда создала искусственный интеллект, который позволяет интерпретировать речь индивида по движению его губ. Отмечается, что разработка во много раз превосходит возможности человека.

Технология под названием Watch, Attend and Spell является методикой, созданной на основании нейросетей. Помощь авторам оказала корпорация Google и компания DeepMind.

Система WAS умеет считывать информацию по губам, используя специальное компьютерное зрение и некоторые особенности машинного обучения при сканировании ТВ-передач, длительность которых превышает 5 тыс. часов.

Эксперимент показал, что способности устройства превышают возможности человека-эксперта считывать информацию, основываясь на движениях губ. Человек был способен распознать лишь 12% речи, в то время как машина улавливала 50%. Ошибка искусственного интеллекта заключалась лишь в потере буквы «с» в конце слов.

Добавить комментарий