Ребята подскажите нормальную софтину которая может нормально наложить лицо на видео.не для верифов,а просто для монтажа видео.спасибо
Ребята подскажите нормальную софтину которая может нормально наложить лицо на видео.не для верифов,а просто для монтажа видео.спасибо
faceswap.dev
да в принципе автору достаточно иметь какую-то среду разработки аля stable diffusion (более интуитивно понятная среда) / comfy-ui (направленная на глубокие логические цепочки взаимодействий и глубокую конфигурацию моделей), а далее с задачей независимо от содержания видео спокойно справятся плагины Mov2Mov (https://github.com/Scholar01/sd-webui-mov2mov) + ReActor (https://github.com/Gourieff/sd-webui-reactor-force).тут смотря что нужно на выходе от софтины. Выше приведены норм прогры, их преимущество в том, что они меняют лицо по одному фото без какого-либо обучения. есть ряд минусов в самой обработке (запрет на порно, на некоторых на знаменитостей блюрит и т.д) но они решаются небольшими изменениями в коде. Основной недостаток этих программ на выходе - они не передадут мимику и особенности лицевых движений. Они берут за основу статичное фото и просто меняют один условно нос, глаз, рот - на другой. Если нужна точная передача мимики - эти программы бессильны, справится только DeepFaceLab от Игоря Петрова (поищи на Гитхабе, но по-моему он их закрыл, а скачать можно на куче ресурсов). У этой программы недостаток в том, что нужно огромное количество данных (фото, видео) на того, кого фейк делаешь и нудный процесс обучения маски. Датасет на обучение должен быть именно разнообразный - задача не количество фото, а разнообразность мимики лица. 1000 фото в одном положении - бесполезнее, чем 20 фото на которых человек смеется, плачет, кричит и т.д. чем больше разнообразия - тем точнее копия. Простыми словами - если тебе нужно сделать фейк на Джима Керри - по 1 фото программы из списка не помогут, они не знают особенности его мимики... зато DeepFaceLab при правильном обучении - выдаст все особенности. Если же тебе Арнольда Шварцнегера нужно зафейкать - то программы из списка - самое то, никаких заморочек с обучением. Комп с норм графической картой нужен что для тех, что для других программ. 12ГБ - это прямо минимум.
согласен, но это модели по постобработке видео. саму замену лица они не реализуют. Смену лица пока сколько не тестировал - единственная кто справляется с потоковой обработкой и сносно ложится на видео с критическими поворотами головы - inswaper_128 и inswaper_128.fp16. и они, кстати в паре с "restore face - codeformer.." и даже старушкой GFPGANv1.4 дают довольно приемлемый результат без всякого обучения. и в целом усилители и улучшатели просто необходимы, так как сваперы работают с разрешением 128х128, и без ГАНов качественной картинки добиться нереально, даже с Rope технологией, которая тем и отличается от facefusion, что делает упор на выборку кадров в найлучшем разрешении и даже умудряется заставить свапер 128 выдать 512 на выходе, в то время как фьюжены делают упор на улучшатели из Вашей подборки... НО!! повторюсь и настаиваю - это дает качество картинки, но не качество фейка. без обучения - любая модель снимет статику с ресурсного объекта и перенесет на целевой с полным повторением мимики и лицевого движения целевого объекта, т.е. актера под маской. и все realisticVision и т.д. просто сделают качество вплоть до 4К. да, это сделает качественную картинку, но, если актер под маской не умеет кривляться как Джим Керри или Луи Де Фюнес или тот-же Аткинсон - то фейк будет очень похож, в высоком качестве, но кривляться будут как Сталлоне со Шварцем)) и никакие TrueSync и прочие повторители (во всяком случае я не смог добиться даже удовлетворительного результата) не помогут Вам сыграть пантомиму классиков этого жанра. а согласитесь, Мистер Бин с таблом Шварца - уже и не выглядит Мистером Бином, хоть и очень похож, а на стопе приблизив - так вообще все родинки и морщинки могут соответствовать... но на плей нажимаешь - на...бка чистой воды).... именно это я имел в виду, говоря о разнице между обучаемыми процессами и без обучения с одного фото. в целом, для более-менее качественной сборки для потокового и отснятого видео без обучения маски - я собрал стенд, в котором на данный момент 76 моделей, из открытого доступа и некоторые дообучены под свои задачи. При том что одновременно в работе учавствуют 6-8 из них, на каждую задачу, видео, особенности и степень различия или сходства сменяемых лиц приходится перебирать связку моделей. В одном случае качество будет достойным при одной связки детектора, анализатора, маркировщика, стабилизатора, заменителя, улучшителя... а на другом видео - эта связка может выдать коллапсовый результат, а качество выдаст совсем другая. Тут нет однозначного рецепта. Но, опять-же рецепта для качественной картинки и схожести, но отбросив пантомиму. Пантомиму же пока без обучения повторить я не нашел рецепта..да в принципе автору достаточно иметь какую-то среду разработки аля stable diffusion (более интуитивно понятная среда) / comfy-ui (направленная на глубокие логические цепочки взаимодействий и глубокую конфигурацию моделей), а далее с задачей независимо от содержания видео спокойно справятся плагины Mov2Mov (https://github.com/Scholar01/sd-webui-mov2mov) + ReActor (https://github.com/Gourieff/sd-webui-reactor-force).
касаемо качества проработки ролика на выходе - всё максимально гибкое и зависит лишь от предпочтений автора; от себя рекомендую использовать модель realisticVision (https://huggingface.co/SG161222/Realistic_Vision_V2.0/blob/main/Realistic_Vision_V2.0.ckpt) и алгоритм restore face - codeformer.. в остальном материала предостаточно в паблике.
у всех разные потребности, хотя однозначно правильно утверждать что без обучения на основе нужного человеку лица (создание качественной и проработанной face model перед использованием упомянутого ранее инструментария) — результат не будет соответствующим высоким критериям ожиданий | суть скорее в том, что у человека есть решение как справиться с этой задачей.. а насколько увлекаться оттачиванием результата до несомненно превосходного результата - это исключительно желание самого человека, в любом случае всё возможно.согласен, но это модели по постобработке видео. саму замену лица они не реализуют. Смену лица пока сколько не тестировал - единственная кто справляется с потоковой обработкой и сносно ложится на видео с критическими поворотами головы - inswaper_128 и inswaper_128.fp16. и они, кстати в паре с "restore face - codeformer.." и даже старушкой GFPGANv1.4 дают довольно приемлемый результат без всякого обучения. и в целом усилители и улучшатели просто необходимы, так как сваперы работают с разрешением 128х128, и без ГАНов качественной картинки добиться нереально, даже с Rope технологией, которая тем и отличается от facefusion, что делает упор на выборку кадров в найлучшем разрешении и даже умудряется заставить свапер 128 выдать 512 на выходе, в то время как фьюжены делают упор на улучшатели из Вашей подборки... НО!! повторюсь и настаиваю - это дает качество картинки, но не качество фейка. без обучения - любая модель снимет статику с ресурсного объекта и перенесет на целевой с полным повторением мимики и лицевого движения целевого объекта, т.е. актера под маской. и все realisticVision и т.д. просто сделают качество вплоть до 4К. да, это сделает качественную картинку, но, если актер под маской не умеет кривляться как Джим Керри или Луи Де Фюнес или тот-же Аткинсон - то фейк будет очень похож, в высоком качестве, но кривляться будут как Сталлоне со Шварцем)) и никакие TrueSync и прочие повторители (во всяком случае я не смог добиться даже удовлетворительного результата) не помогут Вам сыграть пантомиму классиков этого жанра. а согласитесь, Мистер Бин с таблом Шварца - уже и не выглядит Мистером Бином, хоть и очень похож, а на стопе приблизив - так вообще все родинки и морщинки могут соответствовать... но на плей нажимаешь - на...бка чистой воды).... именно это я имел в виду, говоря о разнице между обучаемыми процессами и без обучения с одного фото. в целом, для более-менее качественной сборки для потокового и отснятого видео без обучения маски - я собрал стенд, в котором на данный момент 76 моделей, из открытого доступа и некоторые дообучены под свои задачи. При том что одновременно в работе учавствуют 6-8 из них, на каждую задачу, видео, особенности и степень различия или сходства сменяемых лиц приходится перебирать связку моделей. В одном случае качество будет достойным при одной связки детектора, анализатора, маркировщика, стабилизатора, заменителя, улучшителя... а на другом видео - эта связка может выдать коллапсовый результат, а качество выдаст совсем другая. Тут нет однозначного рецепта. Но, опять-же рецепта для качественной картинки и схожести, но отбросив пантомиму. Пантомиму же пока без обучения повторить я не нашел рецепта..
если тебе важна глубокая техническая конфигурация моделей и плагинов - да, если чисто на уровне junior юзера реализовать А-Б таску - stable diffusion webui, более интуитивно понятное решение.Для получения максимальной реалистичности, нужно вникать в ComfyUI
ты можешь генерить хоть чисто от CPU, это не играет никакой ролиПодскажите минимальная видеокарта для ? ЩАс у меня ртх 2060 , вообще ничего не тянет