Искусственный интеллект уже читает по губам лучше признанных профи
Опубликованно 27.11.2016 00:09
Искусственный интеллект Google DeepMind научился читать по губам лучше, чем любой человек-эксперт в этой области.
Эксперты проекта DeepMind Google и исследователи Оксфордского университета совместными усилиями обучали систему искусственного интеллекта на основе нейронных сетей искусству читать по губам. Система обучения была выполнена, через "силу" на 5 тысяч часов записей различных программ телеканала BBC, в том числе Newsnight би-БИ-Завтрак и Question Time. И в результате эта система искусственного интеллекта стал способен распознавать слова, движения губ человека с такой точностью, которая недостижима для людей-специалистов в этом случае.
После процедуры обучения системы искусственного интеллекта, оказался в состоянии расшифровать даже самые сложные предложения, определять слова, которые произносят люди, которые склонны "проглатывать" окончания слов, и люди с не очень типичной мимику их лица. Как доказательство этого долга из набора различных телевизионных программ были отобраны 200 случайных фрагментов. Профессионал может безошибочно распознать всего 12.4 процентов слов, в то время как искусственный интеллект, он показан в прямом эфире на 46.8 процентов, безоговорочно выиграв не только человек, но и другие системы автоматического чтения по губам.
"Все это является огромным шагом на пути к созданию системы полностью автоматическое чтение по губам", - говорит Зиэнг Чжоу (Ziheng Чжоу), ученый из университета Оулу, Финляндия, - "И это стало возможным только благодаря огромным набором исходных данных, в которых эта система была обучена". На самый большой набор исходных данных говорит тот факт, что в эти 5 тысяч часов записей, содержит около 118 тысяч фраз, произнесенных разными людьми, чьи лица были сняты с разных ракурсов.
Успех совместного мероприятия исследователи из Оксфордского университета и Google опирается на исследования оксфордских ученых, благодаря которым в свое время была создана система чтения по губам GRID. В качестве исходных данных этой системы он использовал данные из статьи людей, когда произношение 51 уникальное ключевое слово. Система Google, тренировки на набор данных, который содержит около 17 500 уникальных слов, имеет гораздо более богатый набор исходных данных, который производит значительное влияние на качество его работы.
Кроме того, система Google был обучен на образцах настоящий человеческий язык, и не в 33 тысячи синтетических предложений, составленных специально для формирования системы GRID. Таким образом, система Google является менее склонной к особенностям каждого отдельного человека и на эмоции, что периодически очень сильно проявляется на лице говорящего человека.
В настоящее время специалисты Google и исследователи из Оксфордского университета предлагают использовать их для обучения искусственного интеллекта набора данных для того, чтобы создать общественное учебного материала. Этот ресурс в состоянии наслаждаться всем разработчикам систем автоматического чтения с губ, среди которых группа Ассаеля (Yannis Assael), которая занимается разработкой систем LipNet. И, вполне вероятно, что все эти усилия, в конце концов, может привести к тому, что семья и потребительские электронные устройства в состоянии понять то, что мы говорим их, читая эту секунду наши губы.
Категория: Hi-Tech
Искусственный интеллект уже читает по губам лучше признанных профи