Искусственно сгенерированную речь люди смогли узнать в 73% случаев

В новом исследовании ученые Университетского колледжа Лондона показали, что сгенерированную роботом речь люди могут распознавать лишь в 73% случаев. Причем неважно, на каком языке «говорит» ИИ.

Deepfake — это метод обработки изображения или звука, осуществляемый искусственным интеллектом. В случае со звуками он заключается в создании образцов речи или языковых сообщений, имитирующих голос реального человека. Технология основана на машинном обучении: создается  алгоритм, чтобы изучать шаблоны и функции из предоставленного набора данных.

И если ранние алгоритмы  дипфейкового звука требовали наличия тысяч образцов человеческого голоса, чтобы иметь возможность генерировать звуки, новейшим шаблонам достаточно всего лишь трехсекундного фрагмента речи.

Ученые использовали такой алгоритм на двух общедоступных наборах данных — одном на английском и одном на китайском, чтобы сгенерировать 50 образцов ложной речи на каждом языке.

Затем полученные образцы дали прослушать участникам исследования — их было 529. Иссладователям было важно проверить, смогут ли люди отличить настоящую речь от дипфейков. Испытуемым удалось это сделать в 73% случаев.

Это означает,  что среднестатистический человек не может распознать более четверти случаев ложной речи. Небольшое улучшение наблюдалось после обучения участников тому, как идентифицировать сфабрикованный голос.

«Наше открытие подтверждает, что люди не способны эффективно обнаруживать ложную речь, независимо от того, прошли ли они обучение в этой области или нет, — отмечает ведущий автор исследования доктор Кимберли Май. — Стоит также отметить, что образцы, используемые в исследовании, были созданы с использованием относительно старых алгоритмов. В связи с этим возникает вопрос: не была бы ситуация еще хуже в случае использования самой совершенной технологии, которая есть сейчас».

Следующим шагом ученых станет разработка более эффективных автоматических детекторов речи для противодействия угрозе дипфейков.

Как подчеркивают авторы публикации, несмотря на некоторые преимущества от генерируемой ИИ речи, например, для людей, потерявших голос из-за болезни, растут опасения, что эта технология может быть использована в преступных целях.

Такие случаи уже были задокументированы. Одним из них является инцидент 2019 года, когда генеральный директор британской энергетической компании был убежден фальшивым голосом своего начальника передать мошеннику сотни тысяч фунтов стерлингов.

Результаты исследования опубликованы в «PLOS ONE».

 

Фото: stock.adobe.com

Нет комментариев