сейчас нашел пару моделей обученных на русскомочень сомневаюсь что есть сервисы совмещающие STT (транскрибирование) и фонетический анализ спича для определения эмоциональности.. т.е. интонация/эмоции и в целом общий анализ голоса произносящего конкретный спич | видел комбинацию конечно давненько IBM Watson Speech to Text + Tone Analyzer , но там нет поддержки русского языка у анализатора тона (только английский и французский). да и в принципе непонятно что по условиям предоставления апишки на STT/Tone Analytics у них;
поэтому наверное придётся использовать разные решения под транскрибирование и анализ эмоциональности; по транскрибированию решений много, а вот по анализу эмоционального фона у голосовых как глянул audEERING – devAIce & openSMILE самое натренерованное опенсурс решение сейчас (конечно не особо изучал особенности работы и без понятия будет ли проблема на практике учитывая русский язык+сленговую/диалектическую речь+не всегда потрясающее качество голосовых.. но вот как-раз под фонетический анализ голоса)
само собой это надо исследовать и это чисто мысли вслух, но вообще оч интересная штука (https://www.audeering.com/research/open-source/) Посмотреть вложение 103512
во первых вот как-раз таки решение для анализа экспрессивности голоса в спиче, ну эмоций короче говоря:
-Модель выражения На основе wav2vec 2.
Модель ожидает необработанного аудиосигнала в качестве входных и выходов прогнозов для возбуждения, доминирования и валентности в диапазоне приблизительно 0… 1. Кроме того, он также обеспечивает объединенные состояния последнего трансформаторного слоя. Он был создан с помощью тонкой настройки WAV2VEC2-Robust на MSP-Podcast (v1.7). Обрезка уменьшила модель с 24 до 12 трансформаторов. Экспорт модели ONNX доступен от DOI: 10.5281/Zenodo.6221127. Более подробная информация приведена в связанной статье - закрытие валентного разрыва - и учебник.
а во вторых, прикольная и полезная вот эта штука для анализа голосовых самок:
-Возраст и признание пола На основе WAV2VEC 2.0
Эта модель ожидает необработанного аудиосигнала в качестве входных и выходов прогнозов для возраста в диапазоне приблизительно 0… 1 (0… 100 лет), а пол выражает вероятность того, что быть ребенком, женщинами или мужчинами. Кроме того, он также обеспечивает объединенные состояния последнего трансформаторного слоя. Он был создан с помощью тонкой настройки WAV2VEC2-Large-Robust на Agender, Mozilla Common Voice, Timit и Voxceleb 2. Для этой версии модели мы обучили все 24 слоя трансформатора. Экспорт модели ONNX доступен от DOI: 10.5281/Zenodo.7761387. Более подробная информация приведена в связанной статье и учебном пособии.
но опять же, нужно исследовать, чисто быстрый взгляд на эти решения; само собой есть наверное некоторые нюансы, хотя вроде не должно быть.. решения то опенсурс
wav2vec2 для аудио ту эмоции и rubert-tiny2 тоже на русском для текст ту эмоции.
vosk + wav2vec2 + rubert-tiny2 + YOLO11 + python + golang. Примерно так можно понять женщину. Осталось придумать как эти данные обработать чтобы языковая можель могла ориентироваться в этом… Чуть не забыл нужна еще сама языковая модель.
Я думаю что можно подкрутить сюда генеративную модель. чтобы я мог генерировать кружки будто я за рулем «своего» порше зову принцессу на свидание.
