Где найти, чтобы нейросеть сгенерировала голос по аудио файлу ?

WOC · 14.12.2024

Где найти, чтобы нейросеть сгенерировала голос по аудио файлу ? чтобы в итоге получилось, что голом говорит наш текст, голосом нужного человека.

WOC · 14.12.2024

или может даже можно видео?

bigheadguy · 14.12.2024

/threads/81485/post-871947
/threads/81485/post-874498
/threads/81485/post-884442
/threads/81485/post-850580
/threads/81485/post-864981

redbull302 · 19.12.2024

вообще всё зависит от чистоты голосовых что у тебя есть, а так-же их суммарного хронометража.

если есть хотя-бы 30 минут голосовых относительно чистого, нужного тебе голоса - используй professional cloning решение от elevenlabs, выше вижу посоветовали XTTS и подобное, но при реализации своего проекта протестировал буквально все подобные решения, натуральнее/реалистичнее и гибче чем elevenlabs - нет решений (разве что какой-нить voice engine от openai , который до сих пор даже в закрытом доступе не появлялся из-за рисков компрометации кого-либо)

к слову, xtts простое опенсурс+бесплатное решение, но если дорожишь натуральностью и реализмом в звучании речи после синтеза - однозначно выбирай что-то иное.

P.S. на элевене как минимум есть community база наиболее различных голосов, вплоть до кастомизации акцента/тембра и прочих мелочей; возможно тебе не придётся что-либо клонировать т.к. сомневаюсь что не найдёшь нужный тебе голос по открытой базе существующих.

slhdn · 24.12.2024

https://www.ixbt.com/live/sw/kopiruem-i-vosproizvodim-lyuboy-golos.html вот хорошая статья, достаточно железо чтоб на ПК было хорошее.

MilanZaitzev · 31.12.2024

elevenlabs, есть еще одна нейронка, она бесплатная, но идет на комп и требует много от железа, но название не могу вспомнить. Вспомню, отпишу.

monro · 31.12.2024

1. Использование Google Text-to-Speech
Google Text-to-Speech — это мощный инструмент для преобразования текста в речь. Вот как можно использовать его:

Шаги:
Установите библиотеку gTTS:

Откройте командную строку или терминал и выполните следующую команду:

pip install gtts
Напишите скрипт на Python:

from gtts import gTTS
import os

# Текст, который нужно преобразовать в речь
text = "Привет! Это пример генерации голоса из текста."

# Создание объекта gTTS
tts = gTTS(text=text, lang='ru')

# Сохранение аудиофайла
tts.save("output.mp3")

# Проигрывание аудиофайла (опционально)
os.system("start output.mp3") # Для Windows
# os.system("afplay output.mp3") # Для macOS
# os.system("mpg321 output.mp3") # Для Linux

monro · 31.12.2024

MilanZaitzev сказал(а):

elevenlabs, есть еще одна нейронка, она бесплатная, но идет на комп и требует много от железа, но название не могу вспомнить. Вспомню, отпишу.

Ollama

redbull302 · 01.01.2025

monro сказал(а):

1. Использование Google Text-to-Speech
Google Text-to-Speech — это мощный инструмент для преобразования текста в речь. Вот как можно использовать его:

Шаги:
Установите библиотеку gTTS:

Откройте командную строку или терминал и выполните следующую команду:

pip install gtts
Напишите скрипт на Python:

from gtts import gTTS
import os

# Текст, который нужно преобразовать в речь
text = "Привет! Это пример генерации голоса из текста."

# Создание объекта gTTS
tts = gTTS(text=text, lang='ru')

# Сохранение аудиофайла
tts.save("output.mp3")

# Проигрывание аудиофайла (опционально)
os.system("start output.mp3") # Для Windows
# os.system("afplay output.mp3") # Для macOS
# os.system("mpg321 output.mp3") # Для Linux

человек ищет решение не просто для синтеза речи (TTS), а TTS на основе нужного ему голоса, т.е. TTS + преждевременное клонирование нужного ему голоса.

Где найти, чтобы нейросеть сгенерировала голос по аудио файлу ?

WOC

HDD-drive

WOC

HDD-drive

bigheadguy

TPU unit

redbull302

RAID-массив

slhdn

RAID-массив

MilanZaitzev

CD-диск

monro

ripper

monro

ripper

redbull302

RAID-массив