Меняя реальность. 10 прорывных deepfake приложений для ios и android

Противостоять обману

Реалистичные подделки (наподобие ролика с Томом Крузом) заставляют задуматься о мощном алгоритме, который сумел бы быстро и качественно выявить манипуляцию. Периодически крупные IT-компании объявляют конкурс на создание лучшего дипфейк-детектора. В прошлом году Facebook и Microsoft подвели итоги такого соревнования — первое место занял программист из Минска Селим Сефербеков, он получил $500 тыс.

Занимаются вопросом выявления дипфейков и государственные органы разных стран. Так, в феврале 2021 года конкурс на создание эффективного детектора объявило МВД России. Начальная сумма контракта — 4,8 млн рублей.

Другой метод борьбы с дипфейком — запрет. Размещение роликов-имитаций ограничено крупнейшими сайтами, включая Reddit, Twitter и Facebook.

Вооруженный глаз-5

Фото: ИЗВЕСТИЯ/Зураб Джавахадзе

В США уже действует ряд правовых норм, которые регулируют использование дипфейков. В частности, с 2020 года закон запрещает использовать дипфейки для вмешательства в выборы. Политики — легкая добыча для создания имитаций: обычно они стоят четко перед камерой, а их лица хорошо и равномерно освещены. Также законодательство запрещает вставлять изображение реального человека в видео сексуального характера без согласия оригинала. Ограничения и меры наказания разнятся от штата к штату.

В Китае также принят закон, который запрещает публикацию дипфейков без специальной пометки. Он вступил в силу с 1 января 2020 года.

В чём тут опасность?

С распространением deep fake появилась опасность дискредитации любого пользователя, фото которого есть в сети. Первыми под огонь попали публичные личности, изображений которых достаточно много в открытом доступе. Например, лицо актера Николаса Кейджа давно стало мемом, а сам он известен неразборчивостью в выборе ролей. Благодаря deep fake лицо Николаса Кейджа поместили практически во все эпизоды известных фильмов. Например, он стал Лоис Лейн из «Человека из стали»:

Учитывая количество фото, которые мы заливаем в социальные сети, недостатка в материале для deep fake нет. Проблема в том, что в будущем пользователи, которые не смогут доказать, что их не было на определённом видео, может, например, грозить тюремный срок.

По мнению Адиля Жалилова, руководителя factсheck.kz, в зависимости от контента такие видео могут быть как безобидными, так катастрофически опасными.

По его словам, если население будет не в курсе о возможностях и вообще о существовании deep fakes, то любое такое поддельное видео с провокационным контентом может «вложить в уста» любому политику или представителю какого-либо этноса любой месседж. Это может породить деструктивный импульс и спровоцировать конфликты. Любая попытка властей реагировать, объяснить технологию deep fakes постфактум будет запоздалой в такой ситуации.

Zao (iOS)

Развлекательный сервис Zao лишь частично полагается на искусственный интеллект и нейросети и намного чаще предлагает отсканировать лицо с фотографии, а после перенести результат в заранее подготовленные сценки из фильмов, телевизионных шоу и вирусных роликов, найденных в сети. Дополнительно предусмотрен раздел с GIF-картинками, автоматически переделываемыми под мимику загруженных исходников, и меню «Атлас», предназначенное для виртуальной примерки причесок, одежды, макияжа и иных вещей.

Пока Zao доступен исключительно на iOS и iPadOS, но в будущем разработчики планируют перенести весь функционал и на Android, сохранив текущую систему распространения контента. Речь о ежемесячной подписке за 100-200 рублей (стоимость зависит от региона). Без оформления Premium возможности останутся сильно ограниченными. Но проблема даже не в подписке – цена по большей части символическая – а в переводе: русский язык до сих пор лишь планируется в недалеком будущем и едва ли появится сразу.

Тренировка

Обучение нейросети – самая времязатратная часть, длящаяся часы и сутки. Для тренировки необходимо выбрать одну из моделей. Выбор и качество результата определяются объемом памяти видеокарты:

  • ≥ 512 Мб → . Наиболее гибкая модель с возможностью переносить стиль лица и освещение.
  • ≥ 2 Гб → . Наименее требовательная модель.
  • ≥ 3 Гб → . Аналогична модели , но с лучшим разрешением.
  • ≥ 5 Гб → – умная тренировка лиц, исключающая фон вокруг лица, или – модель аналогична , но пытается морфировать исходное лицо в целевое, сохраняя черты исходного лица.
  • ≥ 6 Гб → – модель для управления чужим лицом, требуются квадратные видеоролики или – для самых последних видеокарт.

В руководстве не описана еще одна модель, присутствующая в наборе (), но она успешно запустилась при тренировке на видеокарте с 2 Гб памяти.

При первом запуске программа попросит указать параметры, применяемые при последующих запусках (при нажатии Enter используются значения по умолчанию). Большинство параметров понятно интуитивно, прочие – описаны в руководстве.

Отключите любые программы, использующие видеопамять. Если в процессе тренировки в консоли было выведено много текста, содержащего слова , или , то на вашем GPU модель не запустилась, и ее нужно урезать. Необходимо скорректировать опции моделей.

При корректных условиях параллельно с консолью откроется окно Training preview, в котором будет отображаться процесс обучения и кривая ошибки. Снижение кривой отражает прогресс тренировки. Кнопка (английская раскладка) обновляет предпросмотр.

Процесс тренировки можно прерывать, нажимая Enter в окне Training preview, и запускать в любое время, модель будет продолжать обучаться с той же точки. Чем дольше длится тренировка, тем лучший результат мы получим.

Как обмануть системы распознавания лиц

Чтобы не стать жертвой некорректной работы систем распознавания, некоторые люди стараются найти способы для их обмана.

В 2017 году директор по распространению технологий «Яндекса» Григорий Бакунов разработал специальную систему макияжа, якобы помогающего обмануть нейросети. Для этого он использовал алгоритм, подбирающий образ по принципу антисходства. Примерно в том же ключе действовали участники протестов в Лондоне в 2020 году: они пытались обмануть системы распознавания лиц с помощью цветных патчей на лице.

Пост из инстаграм the Dazzle Club

Исследователи также занимаются разработками, которые не позволяют ИИ учиться на личных данных, говорится в статье MIT Technology Review. Один из первых представленных инструментов — это программа Fawkes, которую разработала Эмили Венгер из Чикагского университета. «Мне не нравится, когда люди берут у меня то, что не должно им принадлежать», — объясняет она свою мотивацию.

Большинство подобных инструментов используют один и тот же алгоритм: они вносят в изображения небольшие изменения, которые незаметны для человеческого глаза, и заставляют ИИ неправильно определять лица на фотографиях. Этот метод очень близок к состязательной атаке, когда небольшие изменения данных могут привести модели глубокого обучения к ошибкам.

Благодаря такому подходу современные системы распознавания лиц перестанут работать. В отличие от предыдущих попыток запутать ИИ (например, нанесение краски на лица), новая технология оставляет изображения неизменными для зрительного восприятия человека. Программа Fawkes на сайте Чикагского университета для свободного скачивания и использования. С тех пор её загрузили свыше 500 тысяч раз.

Автор Fawkes Эмили Венгер и её коллеги протестировали свой инструмент на известных коммерческих системах распознавания лиц — Amazon AWS Rekognition, Microsoft Azure и Face++. В небольшом эксперименте с набором данных из 50 фотографий алгоритм был эффективен на 100 %. Позднее Fawkes не позволяла моделям, обученным на изменённых изображениях людей, распознавать эти же лица на свежих снимках. То есть небольшие изменения, внесённые в фотографии, помешали инструментам сформировать точное представление о лицах.

Видео: Emily Wenger / YouTube

Fawkes может помешать новой системе распознавания определять людей по фото. Но у программы не получится противодействовать существующим системам, которые уже были обучены на незащищённых изображениях. Впрочем, технология постоянно совершенствуется.

Создатель Fawkes считает, что инструмент LowKey, разработанный Валерией Черепановой и ее коллегами из Университета Мэриленда, может решить эту проблему. LowKey расширяет возможности Fawkes: он противодействует системам, основанным на более сильном виде состязательной атаки, а также обманывает предварительно обученные коммерческие модели. Как и Fawkes, LowKey доступен как веб-сервис.

Большинство подобных инструментов, включая Fawkes, используют один и тот же базовый подход: в изображение вносятся микроизменения, которые трудно заметить человеческим глазом, но они нарушают работу ИИ. В частности, если дать Fawkes на ввод серию фотографий, он добавит к ним искажения на уровне пикселей, которые не позволят современным системам распознавания лиц определить, кто изображён на снимках.

Намеренное «загрязнение» данных может затруднить для компаний тренировку моделей машинного обучения, предположил директор по продуктам компании Ivideon Заур Абуталимов в разговоре со Skillbox Media.

«Однако отличием этих новых методов является то, что они работают с фотографиями одного человека. Такие инструменты, как Fawkes, могут помешать новой системе распознавания лиц распознать именно вас, но они не помешают существующим системам, которые уже обучались на ваших „незащищённых“ изображениях», — подчеркнул Заур Абуталимов.

Преподаватель Deep Learning School, автор блога об искусственном интеллекте и нейронных сетях Татьяна Гайнцева рассказала Skillbox Media, что инструменты Fawkes и LowKey могут быть перспективными, но не стоит ожидать от них абсолютной эффективности.

Кейдж и обнаженка

Считается, что первые дипфейки появились в конце 2017 года, когда пользователь Deepfakes выложил на Reddit порнографические ролики, в которых лица актеров были заменены на лица голливудских звезд. Технология разошлась по Сети и породила массу подобного контента. Чуть позже, наигравшись с роликами для взрослых, пользователи взялись за Николаса Кейджа. С помощью приложения FakeApp, запущенного в январе 2018-го, американский актер был помещен в фильмы, в которых никогда не принимал участия. А несовершенность технологии только прибавила видео веселости.

В дальнейшем опыты стали более разнообразными: Сильвестр Сталлоне «превратился» в мальчика Кевина из фильма «Один дома», Арнольд Шварценеггер «сыграл» всех персонажей во «Властелине колец», а Илон Маск «исполнил» песню «Трава у дома».

https://youtube.com/watch?v=S9Gyd74udMo

Между дипфейками есть свои различия. Наверняка многие встречали видео, на которых пользователи «примеряют маску» знаменитых политиков, дарят им свою артикуляцию и заставляют говорить странные вещи. Данный метод называется Face2Face. Подделка создается в режиме реального времени и в отличие от собственно DeepFake не подменяет одно лицо другим, а искажает мимику исходного объекта.

Однако в последние годы термин deepfake используется в широком смысле — им обозначают все типы имитирующих видео, созданных искусственным интеллектом.

Механизм работы

Дипфейки создаются при помощи метода глубокого обучения, известного как генеративно-состязательная сеть (GAN). Его суть заключается в соревновании двух нейросетей: генератора и дискриминатора. Генератор создает подделку, а дискриминатор пытается понять, настоящее перед ним изображение или нет. Чем лучше обманывает генератор, тем выше конечный результат.

Прежде созданные GAN изображения отличались довольно низким разрешением. По размытости картинки можно было легко идентифицировать запись как сгенерированную. Это ограничение было преодолено в версии ProGAN, благодаря которой разрешение подскочило до 1024×1024 пикселей.

Другая модель — StyleGAN — научилась мастерски создавать лица несуществующих людей. Нейросеть обучилась на библиотеке реальных фотопортретов и стала сама генерировать человеческие образы.

Насколько высоки результаты в генерации новых лиц, можно убедиться на примере картинки ниже. Только на одной из трех фотографий изображена реальная девушка. Она посередине.

Вооруженный глаз-1

Фото: ieeexplore.ieee.org

Как распознать подделку?

Точность и высокое качество дипфейков вызвали рост недоверия пользователей Сети к видеоконтенту. Однако при более внимательном рассмотрении в некоторых роликах заметны цифровые артефакты — недостатки, которые выдают имитацию. Для обоих поколений дипфейков (ранних недостаточно реалистичных и поздних гиперреалистичных) выявление артефактов происходит по одним и тем же участкам лица. Ученые из Университета Эрлангена–Нюрнберга описали возможные ограничения в своей статье.

Несуществующие лица. Часто у сгенерированных моделей не совпадает цвет левого и правого глаза. В природе явление гетерохромии встречается весьма редко, поэтому смешанные или отличающиеся цвета могут стать сигналом для опознания дипфейка. Также стоит иметь в виду, что расстояние от центра глаза до края радужной оболочки должно быть одинаковым для обоих глаз. Кроме того, ожидается, что оба лимба будут иметь правильный округлый контур. Обнаруженные артефакты проиллюстрированы на картинках ниже.

Вооруженный глаз-2

Фото: ieeexplore.ieee.org

Face2Face. Для данного метода будут показательны границы лица и кончик носа. Неточное наложение маски приводит к артефактам затемнения, когда, например, одна сторона носа может казаться темнее другой. При этом контуры маски резко отделяются: это хорошо видно внизу лица и над бровями. Элементы, которые частично закрывают части лица (например, пряди волос), моделируются неправильно и могут привести к образованию «дыр».

Вооруженный глаз-3

Фото: ieeexplore.ieee.org

DeepFake. Для дипфейков наиболее уязвимыми считаются глаза и зубы. Многие образцы имеют неубедительные зеркальные отражения — блики в глазах либо отсутствуют, либо кажутся упрощенными. Этот артефакт делает глаза тусклыми. Другой минус — непрорисованные зубы. Бывает, они вообще не моделируются, а выглядят как отдельное белое пятно.

Вооруженный глаз-4

Фото: ieeexplore.ieee.org

Во втором поколении многие артефакты были сглажены, и теперь они различимы преимущественно машиной. Недочеты устраняются стремительно. Когда в 2018 году разработчики обнаружили, что дипфейковые персонажи странно моргают — делают это редко или не закрывают глаза вообще, то следующие усовершенствованные модели тут же включили моргание в систему.

Недавние опыты показали, что детекторы дипфейков не всегда справляются с вычислением подделок. Если дипфейки первого поколения выявляются с вероятностью 100%, то в случае второго поколения диапазон ошибки составляет от 15 до 30%. Исследователи называют такой результат плохим. Добавим, что главной подсказкой для обнаружения имитаций по-прежнему являются глаза. Хуже всего детектор реагирует на область лица, где нет органов чувств (лоб, щеки, подбородок).

Кстати, последний инновационный метод обнаружения дипфейков на удивление прост: эксперты сравнивают свет, отраженный в роговицах. На фотографии реального человека, сделанной камерой, отражение в двух глазах будет одинаковым, потому что они видят одно и то же. Изображения, сгенерированные GAN, обычно не могут точно передать это сходство. Эффективность такого анализа составила 94%. Правда, возможно, и этот артефакт будет преодолен следующими моделями.

Подделка голоса против «фейковых» видео

Современные технологии искусственного интеллекта могут быть использованы злоумышленниками не только для создания поддельных видео. Не меньшую опасность представляют попавшие в плохие руки технологии имитации человеческой речи.

По мнению аналитиков Symantec, такие системы могут использоваться кибермошенниками для хищения различных активов, включая финансы, корпоративную и частную информацию. По данным компании, эти технологии уже использовалась для хищения «миллионов долларов».

Ранее специалисты Symantec сообщали о как минимум трех случаях, когда поддельные голоса гендиректоров были применены для обмана глав финансовых отделов компаний с целью мошеннического вывода денежных средств.

Технология имитации голоса имеет значительно больший потенциал для мошеннических махинаций, считают в Symantec. Так, в отличие от подделки видео, где «натренированная модель» должна заместить собой исходное видео для подделки лица, поддельный аудио профиль может использоваться даже с давно известной технологией преобразования текста в голос.

Энкодер-декодер архитектура

К данной подходу можно отнести методы генерации основанные на автоэнкодерах. Их объединяет использование пиксельных(изображение на входе попиксельно сравнивается с изображением на выходе, оптимизируется MSE,MAE и т.п. функции потерь) потерь, что определяет достоинства и недостатки и данной схемы. Плюс в том, что автоэнкодеры относительно просто(в сравнении с GAN) обучать. Минус — оптимизация по пиксельным метрикам не позволяет добиться фотореалистичности, сравнимой с другими методами(опять же в сравнении GAN). Первым вариантом, который я рассмотрел, была схема с двумя декодерами. Подробнее можно ознакомиться здесь .Архитектура представлена на рисунке ниже.

Идея данного подхода в следующем: используется энкодер-декодер схема, при этом энкодер один, а декодеров используется несколько, причем каждый декодер может создавать изображения только одного человека. Данный подход огранивает использование модели, требуя обучать отдельный декодер для каждого нового человека которого мы хотим сгенерировать. Для некоторых сценариев это не критично, например при производстве рекламных роликов это не будет проблемой. Но например для приложения, где пользователь хочет создать DeepFake с своим участием, такая схема не подходит, т.к. вряд ли пользователю понравится ждать несколько часов, пока под него обучается отдельный декодер. К достоинствам можно отнести относительную компактность — в отличие от других подходов, не нужно создавать и обучать(или искать готовые и адаптировать) дополнительные сетки для кодирования внешности. Но ограничение «каждому человеку — отдельный декодер» ограничивает применение данной архитектуры, поэтому рассмотрим следующую.

Можно ли распознать deepfake?

Видео с применением deepfake выглядят убедительно только в течение пары-тройки секунд, но они (во всяком случае, пока) далеки от того, чтобы обмануть пользователей.

Эффект постоянно открытых глаз связан с недостатками процесса создания таких роликов. Дело в том, что среди картинок, по которым обычно учится нейросеть, не так много (на самом деле их нет вообще) фотографий с закрытыми глазами. Пользователи вряд ли хранят или выкладывают в сеть неудачные селфи, на которых они моргают.

Адиль Жалилов отмечает, что в перспективе распознавать deep fakes можно будет путём анализа движения глаз и амплитуды моргания.

«Предполагаю, что найдутся и другие методы распознавания поддельных видео

И очень важно, чтобы эти методы были простыми и прикладными, доступными для общества. Также важно всем государствам активно развивать и поддерживать фактчекинг, специализирующийся на борьбе с дезинформацией, а также медиаграмотность, куда включать обучение всего населения в том числе по распознаванию поддельных изображений и видео», – говорит Жалилов

Что такое Big data, и почему вам стоит беспокоиться о безопасности личных данных

Чтобы распознать deepfake, учёные из Университета Олбани провели эксперимент, в котором выявили, что в среднем люди моргают 17 раз в минуту. Эта цифра увеличивается до 26 раз во время разговора, и падает до 4,5 раз во время чтения. Эти же учёные предложили свой метод распознавания фейковых видеороликов, объединив две нейронные сети, для того чтобы более эффективно распознавать ненастоящие лица. Как выяснилось, нейронные сети часто упускают спонтанные и непроизвольные физиологические действия. Например, дыхание во время речи или движение глаз.

Профессор отмечает, что стандарты проверки доказательств deep fake должны развиваться параллельно улучшению поддельных видео, иначе однажды мы вообще не сможем доверять видеоконтенту.

Какие проблемы связаны с технологией и почему распознавание лиц — это всё равно хорошо

На сегодня с современными системами распознавания лиц связаны две основные проблемы, которые не сильно зависят от алгоритмов и носят общий характер, рассказал Skillbox Media директор департамента решений на базе ИИ компании Oberon Владимир Борисов.

Во-первых, по мнению эксперта, есть недоверие людей, страх тотальной цифровизации и того, что в современном мире у человека не останется личного пространства. В результате вокруг систем распознавания лиц образуется негативный информационный фон. «Но это не относится к корпоративному сегменту, где на протяжении многих лет формировалось мнение, что ИИ и системы распознавания приносят много пользы и работают на благо как конкретного сотрудника, так и предприятия в целом», — утверждает Владимир Борисов.

Во-вторых, у систем распознаваний лиц есть проблемы с инфраструктурой, на которой должна работать биометрия. Если базу создавать с нуля, то сложностей не возникает. Можно довольно быстро подобрать и смонтировать оборудование. Но если на предприятии уже есть видеокамеры или системы видеонаблюдения, то зачастую приходится формировать дополнительные рекомендации по верному расположению камер, изменению фокусного расстояния и светочувствительности.

Владимир Борисов убеждён, что системы распознавания лиц не могут навредить законопослушным людям. Напротив, они помогают в повседневной жизни. «Например, это различные удобные сервисы оплаты или прохода через турникеты по лицевой биометрии, биометрические карты лояльности, позволяющие продавцу-консультанту в торговом зале быстро сориентироваться и предложить покупателю необходимый товар», — объясняет он.

Системы распознавания лиц активно используются также для борьбы с преступностью. По словам Борисова, ежесекундно в России «миллионы камер в аэропортах, на ж/д вокзалах или транспорте сопоставляют пассажиропоток с базой террористов». В случае выявления совпадений камеры выдают необходимые оповещения на пульт охраны.


Фото: VladFotoMag / Shutterstock

Вопрос системы распознавания лиц чаще обсуждается не на уровне технологического прогресса, а на уровне этических нормативов, с сожалением отметил в разговоре со Skillbox Media директор по продуктам облачного сервиса для видеонаблюдения Ivideon Заур Абуталимов. Обсуждение проблемы инициировал ЕС, в ряде штатов США запрещено использование технологии для коммерческой деятельности, а в Сингапуре, например, уже действуют цифровые паспорта.

Collage.Click Face Switch (iOS | Android)

Обрастающий технологиями графический редактор с незатейливым, но быстро развивающимся функционалом, сосредоточенным преимущественно вокруг переноса лиц с исходных материалов на те, которые добавлены из «Галереи» или выбраны в меню Collage.Click Face Switch. Идея не нова, но реализована разработчиками почти бесплатно (ежемесячная подписка начинается с 65 рублей и включает блокировку рекламы, подробный перевод и прочие мелочи, облегчающие жизнь), а вместе с тем дополнена инструкциями для новичков.

Среди любопытных находок выделяется еще и возможность вручную контролировать процесс переноса «внешности»: в Collage.Click Face Switch предусмотрена специальная система лицевых точек, необходимых для составления портрета от подбородка до бровей, ушей и прочих деталей. Лишний раз экспериментировать совсем необязательно – если правильно подойти к делу, то уже через минуту появится шанс довольствоваться весьма любопытными результатами.

Как заменяется лицо в видео?

Прежде чем рассказать как это делается, лучше будет наглядно посмотреть как это выглядит. Вот один из популярных роликов с лицом Илона Маска. Почему-то именно этот персонаж очень часто является героем дипфейков 🙂

Если говорить упрощенно, то в случае с видео работа нейросети заключается в объединении нескольких картинок между собой. Искусственный интеллект анализирует черты лица и характер мимики персонажа на видео, строя из него цифровой шаблон. Потом лицо на фотографии преобразуется в набор чисел, и уже он «натягивается» на шаблон.

Звучит достаточно просто, но на деле за этим стоят довольно серьезные вычислительные мощности и алгоритмы. Ведь помимо совмещения лиц надо еще «подогнать» их черты друг под друга, учесть освещение кожи в оригинальном ролике, добавить смещения из-за движений головы, туловища и пр.

Алгоритмы OpenCV

У изображения лица есть свои характеристики:

  1. Темные и светлые участки и зоны (темные — глаза, губы; светлые — лоб, щеки, подбородок).
  2. Лица всех людей устроены по одному принципу (глаза — на одной линии, под глазами — нос, под носом — губы, под губами — подбородок).

Это значит, что можно подобрать такой набор масок и составить такой классификатор, который будет учитывать эти особенности.

Для этого можно использовать OpenCV — библиотеку алгоритмов компьютерного зрения и обработки изображений. Реализована она на C/C++, также разрабатывается для Python, Java, Ruby, Matlab, Lua и других языков.

Профессия

Fullstack-разработчик на Python

Научитесь программировать на Python и JavaScript, изучите фреймворки Django и React, SQL, а также познакомьтесь с DevOps-практиками и основами Linux.

Узнать больше