• XSS.stack #1 – первый литературный журнал от юзеров форума

Дипфейк для создания видео

D0n1k

(L3) cache
Пользователь
Регистрация
29.12.2020
Сообщения
158
Реакции
21
Гарант сделки
1
Ребята подскажите нормальную софтину которая может нормально наложить лицо на видео.не для верифов,а просто для монтажа видео.спасибо
 
Hi, did you try this tools?


I read about them time ago and looks pretty good :)
 
тут смотря что нужно на выходе от софтины. Выше приведены норм прогры, их преимущество в том, что они меняют лицо по одному фото без какого-либо обучения. есть ряд минусов в самой обработке (запрет на порно, на некоторых на знаменитостей блюрит и т.д) но они решаются небольшими изменениями в коде. Основной недостаток этих программ на выходе - они не передадут мимику и особенности лицевых движений. Они берут за основу статичное фото и просто меняют один условно нос, глаз, рот - на другой. Если нужна точная передача мимики - эти программы бессильны, справится только DeepFaceLab от Игоря Петрова (поищи на Гитхабе, но по-моему он их закрыл, а скачать можно на куче ресурсов). У этой программы недостаток в том, что нужно огромное количество данных (фото, видео) на того, кого фейк делаешь и нудный процесс обучения маски. Датасет на обучение должен быть именно разнообразный - задача не количество фото, а разнообразность мимики лица. 1000 фото в одном положении - бесполезнее, чем 20 фото на которых человек смеется, плачет, кричит и т.д. чем больше разнообразия - тем точнее копия. Простыми словами - если тебе нужно сделать фейк на Джима Керри - по 1 фото программы из списка не помогут, они не знают особенности его мимики... зато DeepFaceLab при правильном обучении - выдаст все особенности. Если же тебе Арнольда Шварцнегера нужно зафейкать - то программы из списка - самое то, никаких заморочек с обучением. Комп с норм графической картой нужен что для тех, что для других программ. 12ГБ - это прямо минимум.
 
тут смотря что нужно на выходе от софтины. Выше приведены норм прогры, их преимущество в том, что они меняют лицо по одному фото без какого-либо обучения. есть ряд минусов в самой обработке (запрет на порно, на некоторых на знаменитостей блюрит и т.д) но они решаются небольшими изменениями в коде. Основной недостаток этих программ на выходе - они не передадут мимику и особенности лицевых движений. Они берут за основу статичное фото и просто меняют один условно нос, глаз, рот - на другой. Если нужна точная передача мимики - эти программы бессильны, справится только DeepFaceLab от Игоря Петрова (поищи на Гитхабе, но по-моему он их закрыл, а скачать можно на куче ресурсов). У этой программы недостаток в том, что нужно огромное количество данных (фото, видео) на того, кого фейк делаешь и нудный процесс обучения маски. Датасет на обучение должен быть именно разнообразный - задача не количество фото, а разнообразность мимики лица. 1000 фото в одном положении - бесполезнее, чем 20 фото на которых человек смеется, плачет, кричит и т.д. чем больше разнообразия - тем точнее копия. Простыми словами - если тебе нужно сделать фейк на Джима Керри - по 1 фото программы из списка не помогут, они не знают особенности его мимики... зато DeepFaceLab при правильном обучении - выдаст все особенности. Если же тебе Арнольда Шварцнегера нужно зафейкать - то программы из списка - самое то, никаких заморочек с обучением. Комп с норм графической картой нужен что для тех, что для других программ. 12ГБ - это прямо минимум.
да в принципе автору достаточно иметь какую-то среду разработки аля stable diffusion (более интуитивно понятная среда) / comfy-ui (направленная на глубокие логические цепочки взаимодействий и глубокую конфигурацию моделей), а далее с задачей независимо от содержания видео спокойно справятся плагины Mov2Mov (https://github.com/Scholar01/sd-webui-mov2mov) + ReActor (https://github.com/Gourieff/sd-webui-reactor-force).

касаемо качества проработки ролика на выходе - всё максимально гибкое и зависит лишь от предпочтений автора; от себя рекомендую использовать модель realisticVision (https://huggingface.co/SG161222/Realistic_Vision_V2.0/blob/main/Realistic_Vision_V2.0.ckpt) и алгоритм restore face - codeformer.. в остальном материала предостаточно в паблике.
 
да в принципе автору достаточно иметь какую-то среду разработки аля stable diffusion (более интуитивно понятная среда) / comfy-ui (направленная на глубокие логические цепочки взаимодействий и глубокую конфигурацию моделей), а далее с задачей независимо от содержания видео спокойно справятся плагины Mov2Mov (https://github.com/Scholar01/sd-webui-mov2mov) + ReActor (https://github.com/Gourieff/sd-webui-reactor-force).

касаемо качества проработки ролика на выходе - всё максимально гибкое и зависит лишь от предпочтений автора; от себя рекомендую использовать модель realisticVision (https://huggingface.co/SG161222/Realistic_Vision_V2.0/blob/main/Realistic_Vision_V2.0.ckpt) и алгоритм restore face - codeformer.. в остальном материала предостаточно в паблике.
согласен, но это модели по постобработке видео. саму замену лица они не реализуют. Смену лица пока сколько не тестировал - единственная кто справляется с потоковой обработкой и сносно ложится на видео с критическими поворотами головы - inswaper_128 и inswaper_128.fp16. и они, кстати в паре с "restore face - codeformer.." и даже старушкой GFPGANv1.4 дают довольно приемлемый результат без всякого обучения. и в целом усилители и улучшатели просто необходимы, так как сваперы работают с разрешением 128х128, и без ГАНов качественной картинки добиться нереально, даже с Rope технологией, которая тем и отличается от facefusion, что делает упор на выборку кадров в найлучшем разрешении и даже умудряется заставить свапер 128 выдать 512 на выходе, в то время как фьюжены делают упор на улучшатели из Вашей подборки... НО!! повторюсь и настаиваю - это дает качество картинки, но не качество фейка. без обучения - любая модель снимет статику с ресурсного объекта и перенесет на целевой с полным повторением мимики и лицевого движения целевого объекта, т.е. актера под маской. и все realisticVision и т.д. просто сделают качество вплоть до 4К. да, это сделает качественную картинку, но, если актер под маской не умеет кривляться как Джим Керри или Луи Де Фюнес или тот-же Аткинсон - то фейк будет очень похож, в высоком качестве, но кривляться будут как Сталлоне со Шварцем)) и никакие TrueSync и прочие повторители (во всяком случае я не смог добиться даже удовлетворительного результата) не помогут Вам сыграть пантомиму классиков этого жанра. а согласитесь, Мистер Бин с таблом Шварца - уже и не выглядит Мистером Бином, хоть и очень похож, а на стопе приблизив - так вообще все родинки и морщинки могут соответствовать... но на плей нажимаешь - на...бка чистой воды).... именно это я имел в виду, говоря о разнице между обучаемыми процессами и без обучения с одного фото. в целом, для более-менее качественной сборки для потокового и отснятого видео без обучения маски - я собрал стенд, в котором на данный момент 76 моделей, из открытого доступа и некоторые дообучены под свои задачи. При том что одновременно в работе учавствуют 6-8 из них, на каждую задачу, видео, особенности и степень различия или сходства сменяемых лиц приходится перебирать связку моделей. В одном случае качество будет достойным при одной связки детектора, анализатора, маркировщика, стабилизатора, заменителя, улучшителя... а на другом видео - эта связка может выдать коллапсовый результат, а качество выдаст совсем другая. Тут нет однозначного рецепта. Но, опять-же рецепта для качественной картинки и схожести, но отбросив пантомиму. Пантомиму же пока без обучения повторить я не нашел рецепта..
 
согласен, но это модели по постобработке видео. саму замену лица они не реализуют. Смену лица пока сколько не тестировал - единственная кто справляется с потоковой обработкой и сносно ложится на видео с критическими поворотами головы - inswaper_128 и inswaper_128.fp16. и они, кстати в паре с "restore face - codeformer.." и даже старушкой GFPGANv1.4 дают довольно приемлемый результат без всякого обучения. и в целом усилители и улучшатели просто необходимы, так как сваперы работают с разрешением 128х128, и без ГАНов качественной картинки добиться нереально, даже с Rope технологией, которая тем и отличается от facefusion, что делает упор на выборку кадров в найлучшем разрешении и даже умудряется заставить свапер 128 выдать 512 на выходе, в то время как фьюжены делают упор на улучшатели из Вашей подборки... НО!! повторюсь и настаиваю - это дает качество картинки, но не качество фейка. без обучения - любая модель снимет статику с ресурсного объекта и перенесет на целевой с полным повторением мимики и лицевого движения целевого объекта, т.е. актера под маской. и все realisticVision и т.д. просто сделают качество вплоть до 4К. да, это сделает качественную картинку, но, если актер под маской не умеет кривляться как Джим Керри или Луи Де Фюнес или тот-же Аткинсон - то фейк будет очень похож, в высоком качестве, но кривляться будут как Сталлоне со Шварцем)) и никакие TrueSync и прочие повторители (во всяком случае я не смог добиться даже удовлетворительного результата) не помогут Вам сыграть пантомиму классиков этого жанра. а согласитесь, Мистер Бин с таблом Шварца - уже и не выглядит Мистером Бином, хоть и очень похож, а на стопе приблизив - так вообще все родинки и морщинки могут соответствовать... но на плей нажимаешь - на...бка чистой воды).... именно это я имел в виду, говоря о разнице между обучаемыми процессами и без обучения с одного фото. в целом, для более-менее качественной сборки для потокового и отснятого видео без обучения маски - я собрал стенд, в котором на данный момент 76 моделей, из открытого доступа и некоторые дообучены под свои задачи. При том что одновременно в работе учавствуют 6-8 из них, на каждую задачу, видео, особенности и степень различия или сходства сменяемых лиц приходится перебирать связку моделей. В одном случае качество будет достойным при одной связки детектора, анализатора, маркировщика, стабилизатора, заменителя, улучшителя... а на другом видео - эта связка может выдать коллапсовый результат, а качество выдаст совсем другая. Тут нет однозначного рецепта. Но, опять-же рецепта для качественной картинки и схожести, но отбросив пантомиму. Пантомиму же пока без обучения повторить я не нашел рецепта..
у всех разные потребности, хотя однозначно правильно утверждать что без обучения на основе нужного человеку лица (создание качественной и проработанной face model перед использованием упомянутого ранее инструментария) — результат не будет соответствующим высоким критериям ожиданий | суть скорее в том, что у человека есть решение как справиться с этой задачей.. а насколько увлекаться оттачиванием результата до несомненно превосходного результата - это исключительно желание самого человека, в любом случае всё возможно.

а касаемо realisticVision - определенно не самая лучшая модель, согласен; для неотличимого реализма используются от части другие решения и модели, само собой)
 
Интересная тема.
Расскажите не знающему человеку простыми словами...

Если я все правильно понимаю
ComfyUI - вся вот эта херь со схемами, что-то вроде интерфейса куда подключаются разные модули/плагины/движки (не знаю как это назвать). Для получения максимальной реалистичности, нужно вникать в ComfyUI? Или сейчас есть какие-то более простые решения?

Например если моя задача делать видео для верификаций, где мой придуманный человек крутит головой.
Или создать не существующую инстаграмм модель, где тело от одного человека, а голова сгенерированная ИИ.
 
Для получения максимальной реалистичности, нужно вникать в ComfyUI
если тебе важна глубокая техническая конфигурация моделей и плагинов - да, если чисто на уровне junior юзера реализовать А-Б таску - stable diffusion webui, более интуитивно понятное решение.
 
Подскажите минимальная видеокарта для ? ЩАс у меня ртх 2060 , вообще ничего не тянет
ты можешь генерить хоть чисто от CPU, это не играет никакой роли

чаще всего проблема в неправильно настроенном окружении (в первую очередь всё зависит от того, что за среду разработки ты используешь); обычно для твоих целей используют атрибуты запуска окружения low/med-vram, делающие процесс генерации дольше, но с возможностью использования твоих текущих ресурсов, без необходимости повышения вычислительных мощностей.

либо как вариант ещё - правильный подбор плагинов, тот-же упомянутый выше mov2mov вообще не может не запуститься т.к. это плагин для покадровой AI-обработки видео (т.е. видео разбивается на кадры, а далее манипулирование формально идёт в направлении img2img)
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх