Обдумываю идею применения ИИ для такого сервиса: проверка домашних заданий по устным предметам (Помощник родителей). Знаю по личному опыту, что проблем с географией может быть больше, чем с математикой.
ИИ здесь нужен как диалоговый наставник, инструмент развития, а не "проверяльщик" по эталонным ответам (таких "репетиторов" на рынке хватает).
Вопрос на форуме исключительно о технических аспектах. Со звуком большинство сервисов не связывается. Скорее всего не просто так. Не хотелось бы утонуть в трудностях, после стадии прототипа (MVP)
Как я вижу архитектуру, если попроще (на старте):
Клиент: тг-бот, голосовой ввод (можно вывод)
Бэк
Модули:
Приём голоса
— Скачивает .ogg из Telegram → конвертирует в .wav
STT (распознавание речи)
— Silero STT, получаем текст ответа ребёнка.
LLM (анализ и фидбэк)
— любая модель через API.
— Системный промпт "наставника"
TTS (озвучка)
— Silero TTS, offline, бесплатно.
Отчетность
— Голосовой ответ → в Telegram ребёнку.
— Текстовый отчёт → в Telegram родителю
БД (что попроще)
-биллинг
- ответ ребенка (разные критерии)
-сессия
Результаты не сохраняются
Вопросы. Что меня сильно смущает и останавливает пока чтобы погрузится с головой.
ИИ утверждают что основная сложность задачи - не в плоскости программирования и создания структуры, и не в финансах - а в методике организации самого процесса проверки, в его содержательной части.
Лично это мне кажется второстепенным. То есть промпты как-то можно подрихтовать под задачу. Корпус - школьная база, есть у всех И (или я недооцениваю).
Мне представляется, что косяки посыпятся: на распознавании, на глюках ИИ (непредсказуемых), на тормозах и качестве сторонних сервисов.
Интересно послушать критику, советы, то есть получить любой конструктивный фидбэк - буду признательна)
ИИ здесь нужен как диалоговый наставник, инструмент развития, а не "проверяльщик" по эталонным ответам (таких "репетиторов" на рынке хватает).
Вопрос на форуме исключительно о технических аспектах. Со звуком большинство сервисов не связывается. Скорее всего не просто так. Не хотелось бы утонуть в трудностях, после стадии прототипа (MVP)
Как я вижу архитектуру, если попроще (на старте):
Клиент: тг-бот, голосовой ввод (можно вывод)
Бэк
Модули:
Приём голоса
— Скачивает .ogg из Telegram → конвертирует в .wav
STT (распознавание речи)
— Silero STT, получаем текст ответа ребёнка.
LLM (анализ и фидбэк)
— любая модель через API.
— Системный промпт "наставника"
TTS (озвучка)
— Silero TTS, offline, бесплатно.
Отчетность
— Голосовой ответ → в Telegram ребёнку.
— Текстовый отчёт → в Telegram родителю
БД (что попроще)
-биллинг
- ответ ребенка (разные критерии)
-сессия
Результаты не сохраняются
Вопросы. Что меня сильно смущает и останавливает пока чтобы погрузится с головой.
ИИ утверждают что основная сложность задачи - не в плоскости программирования и создания структуры, и не в финансах - а в методике организации самого процесса проверки, в его содержательной части.
Лично это мне кажется второстепенным. То есть промпты как-то можно подрихтовать под задачу. Корпус - школьная база, есть у всех И (или я недооцениваю).
Мне представляется, что косяки посыпятся: на распознавании, на глюках ИИ (непредсказуемых), на тормозах и качестве сторонних сервисов.
Интересно послушать критику, советы, то есть получить любой конструктивный фидбэк - буду признательна)
. По поводу самой идеи - звучит прикольно, но, по-моему, проект сложный. Самая большая проблема тут даже не в коде и не в ИИ, а именно в самой идее. Какой то спрос на это, может, и есть, но пока что вряд ли много родителей вообще поймут такой "подход" сам по себе - еще не в то время живем. Чтобы был хоть какой-то результат, придется реально много рекламы вкидывать. Сейчас даже первоклассники ChatGPT используют, и им будет проще просто там спросить. Если бы реклама реально зашла, тогда, может быть, сработало бы сарафанное радио - а родители отлично умеют быстро разносить информацию между собой. Но в целом, скорее всего, самой большой проблемой будет монетизация. Голосовой ввод - это, конечно, круто, но то же самое есть и у того же ChatGPT, и люди будут пользоваться уже проверенным вариантом. Если бы это было отдельное мобильное приложение с user-friendly интерфейсом, текстовым и голосовым вводом, и какими-то своими фишками + залить это все в Play Market и App Store. Но даже так, чтобы что-то получилось, нужно будет закупать рекламу у всяких учебных ресурсов, и без нормального финансирования никуда. Может, я чего-то не понимаю и у тебя супер крутой, глубоко продуманный план, просто высказал свое мнение по теме. Удачи!
Получено голосовое
Скачано: 0.19 сек
Распознано: «Ответь кратко. Тебе известны басни Крылова.»
ИИ ответил за: 1.26 сек
Ответ ИИ: «Да, я знаком с баснями Ивана Крылова. Это классические произведения русской литературы, написанные в жанре басни. Известные басни Крылова: "Лисица и виноград", "Собака и кот", "Лягушка и жаба".»
Ответ отправлен голосом