Как отличить видео фейк от оригинала? Что такое видео дипфейк – видеоподделка нового поколения, способная обмануть даже самый искушенный глаз. Мы раскроем секреты их создания и, что еще важнее, научимся их разоблачать.
В эпоху цифровых технологий, когда границы между реальностью и иллюзией становятся все более размытыми, возникает острая необходимость в развитии критического мышления и навыков верификации информации. Представьте себе мир, где каждое видео может быть искусной подделкой, созданной с помощью передовых нейросетей. Этот мир уже не научная фантастика, а наша реальность.
Вооружившись знаниями и внимательностью, мы научимся замечать тончайшие нюансы, отличающие правду от искусной лжи. От рассинхронизации движения губ до отсутствия характерных речевых особенностей – каждая деталь может стать ключом к разгадке. Мы не только научимся выявлять подделки, но и глубже поймем, что делает каждого человека уникальным в его речи и поведении.
Как распознать видео дипфейк
Сначала оригинальное видео, дипфейк с 1:37
Это пример подделки видео с применением нейросети. И на его примере я хочу рассмотреть 6 простых "маяков" за которые вы сможете цепляться в процессе собственных исследований и верификации найденной информации.
Сразу же сделаем маленькую оговорку - говорящий на видео в оригинале не является профессиональным диктором и в оригинале имеет как ряд аудиальных особенностей речи, так и активную мимику в процессе речи. И конечно же для полноценного анализа, вы всегда должны иметь образец того, как человек говорит в реальной жизни.
Рассинхрон движения губ и текста, который проговаривает человек. Звуковая дорожка периодически перегоняет движения губ.
Неестественное движение губ при проговаривании текста. Обратите внимание на движения верхней губы.
Речь чистая без естественных звуковых артефактов, связанных с речевыми особенностями обычного человека. Каждый человек (за исключением профессиональных дикторов) имеет набор речевых артефактов - такие, как слова или звуки паразиты ("эмм", "эээ", причмокивания, вдох воздуха и т. п.) в данном примере мы видим ровную речь.
Минимальная артикуляция.
Отсутствие эмоционального окраса речи. Весь текст произносится монотонно в отрыве от эмоционального контекста.
Отсутствие фоновых аудио шумов относительно помещения и условий, в которых проводилась съёмка. Если мы посмотрим на звуковую дорожку используя анализатор аудио спектра, то мы получим полностью чистый аудио фон, что в данных условиях невозможно при подобном способе записи. В видео-примере, данный материал вероятнее всего снят на телефон с записью звука на встроенный микрофон в помещение с ровной стеной, покрытой каким-то звукоотражающим материалом типа краски или обоев, что должно давать как минимум эхо.
Как отличить оригинал видео от фейка
Сначала оригинальное видео, дипфейк с 1:37
Рассмотрим оригинал записи и на его примере соберём «маяки», являющиеся характерными особенностями определённого человека, которые могут быть референсными точками для определения оригинальности медиа публикаций в дальнейшем. Хорошим инструментом тут может служить программа Praat позволяющая создать голосовой отпечаток, для дальнейшей идентификации человека.
Особенности произношения. Характерные ударения в словах, произношения букв в словах.
Особенности артикуляции. Обращайте внимание как двигаются губы в моменте произношения определённых слов.
Особенности мимики. Как мы видим в примере, человек периодически подтягивает верхний уголок рта. Так же обращайте внимание на общую мимику лица и ее характерные особенности.
Особенности дыхания. Процессы вдоха и выдох, слышны отчётливо и характерны при произношении слов в предложение. Так же характерным маяком будет то, как человек дышит носом или ртом, в определённые моменты речи.
Голосовые артефакты. Обращайте внимания как человек сопровождает, например процесс подбирания слов (тянущиеся окончания в словах, звуки-паразиты "эээ","ммм", "кхе" и т.п.)
Эмоциональный окрас процесса речи. Любой человек (опять же, за исключением профессионального диктора) будет произносить речь в контексте обстоятельств, в которых он находится. И несоответствие контекста с эмоциями может быть маркером того, что перед вами подделка.
7. Звуковой фон. В отличие от фейка здесь мы как раз слышим и эхо, характерное для помещений такого типа, и посторонние фоновые звуки, которые можно идентифицировать в контексте.