• XSS.stack #1 – первый литературный журнал от юзеров форума

Где найти, чтобы нейросеть сгенерировала голос по аудио файлу ?

вообще всё зависит от чистоты голосовых что у тебя есть, а так-же их суммарного хронометража.

если есть хотя-бы 30 минут голосовых относительно чистого, нужного тебе голоса - используй professional cloning решение от elevenlabs, выше вижу посоветовали XTTS и подобное, но при реализации своего проекта протестировал буквально все подобные решения, натуральнее/реалистичнее и гибче чем elevenlabs - нет решений (разве что какой-нить voice engine от openai , который до сих пор даже в закрытом доступе не появлялся из-за рисков компрометации кого-либо)

к слову, xtts простое опенсурс+бесплатное решение, но если дорожишь натуральностью и реализмом в звучании речи после синтеза - однозначно выбирай что-то иное.

P.S. на элевене как минимум есть community база наиболее различных голосов, вплоть до кастомизации акцента/тембра и прочих мелочей; возможно тебе не придётся что-либо клонировать т.к. сомневаюсь что не найдёшь нужный тебе голос по открытой базе существующих.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
1. Использование Google Text-to-Speech
Google Text-to-Speech — это мощный инструмент для преобразования текста в речь. Вот как можно использовать его:

Шаги:
Установите библиотеку gTTS:

Откройте командную строку или терминал и выполните следующую команду:

pip install gtts
Напишите скрипт на Python:

from gtts import gTTS
import os

# Текст, который нужно преобразовать в речь
text = "Привет! Это пример генерации голоса из текста."

# Создание объекта gTTS
tts = gTTS(text=text, lang='ru')

# Сохранение аудиофайла
tts.save("output.mp3")

# Проигрывание аудиофайла (опционально)
os.system("start output.mp3") # Для Windows
# os.system("afplay output.mp3") # Для macOS
# os.system("mpg321 output.mp3") # Для Linux
 
Пожалуйста, обратите внимание, что пользователь заблокирован
elevenlabs, есть еще одна нейронка, она бесплатная, но идет на комп и требует много от железа, но название не могу вспомнить. Вспомню, отпишу.
Ollama
 
1. Использование Google Text-to-Speech
Google Text-to-Speech — это мощный инструмент для преобразования текста в речь. Вот как можно использовать его:

Шаги:
Установите библиотеку gTTS:

Откройте командную строку или терминал и выполните следующую команду:

pip install gtts
Напишите скрипт на Python:

from gtts import gTTS
import os

# Текст, который нужно преобразовать в речь
text = "Привет! Это пример генерации голоса из текста."

# Создание объекта gTTS
tts = gTTS(text=text, lang='ru')

# Сохранение аудиофайла
tts.save("output.mp3")

# Проигрывание аудиофайла (опционально)
os.system("start output.mp3") # Для Windows
# os.system("afplay output.mp3") # Для macOS
# os.system("mpg321 output.mp3") # Для Linux
человек ищет решение не просто для синтеза речи (TTS), а TTS на основе нужного ему голоса, т.е. TTS + преждевременное клонирование нужного ему голоса.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх