• XSS.stack #1 – первый литературный журнал от юзеров форума

Помогите оценить техническую сложность стартапа

lisa99

Мисс Марпл
Пользователь
Регистрация
07.02.2009
Сообщения
2 103
Решения
1
Реакции
910
Обдумываю идею применения ИИ для такого сервиса: проверка домашних заданий по устным предметам (Помощник родителей). Знаю по личному опыту, что проблем с географией может быть больше, чем с математикой.
ИИ здесь нужен как диалоговый наставник, инструмент развития, а не "проверяльщик" по эталонным ответам (таких "репетиторов" на рынке хватает).

Вопрос на форуме исключительно о технических аспектах. Со звуком большинство сервисов не связывается. Скорее всего не просто так. Не хотелось бы утонуть в трудностях, после стадии прототипа (MVP)

Как я вижу архитектуру, если попроще (на старте):

Клиент: тг-бот, голосовой ввод (можно вывод)
Бэк
Модули:
Приём голоса
— Скачивает .ogg из Telegram → конвертирует в .wav
STT (распознавание речи)
— Silero STT, получаем текст ответа ребёнка.
LLM (анализ и фидбэк)
— любая модель через API.
— Системный промпт "наставника"
TTS (озвучка)
— Silero TTS, offline, бесплатно.
Отчетность
— Голосовой ответ → в Telegram ребёнку.
— Текстовый отчёт → в Telegram родителю

БД (что попроще)
-биллинг
- ответ ребенка (разные критерии)
-сессия
Результаты не сохраняются


Вопросы. Что меня сильно смущает и останавливает пока чтобы погрузится с головой.
ИИ утверждают что основная сложность задачи - не в плоскости программирования и создания структуры, и не в финансах - а в методике организации самого процесса проверки, в его содержательной части.
Лично это мне кажется второстепенным. То есть промпты как-то можно подрихтовать под задачу. Корпус - школьная база, есть у всех И (или я недооцениваю).

Мне представляется, что косяки посыпятся: на распознавании, на глюках ИИ (непредсказуемых), на тормозах и качестве сторонних сервисов.

Интересно послушать критику, советы, то есть получить любой конструктивный фидбэк - буду признательна)
 
Приветствую! Проблемы с географией - это серьезная штука, сам не раз сталкивался 😅. По поводу самой идеи - звучит прикольно, но, по-моему, проект сложный. Самая большая проблема тут даже не в коде и не в ИИ, а именно в самой идее. Какой то спрос на это, может, и есть, но пока что вряд ли много родителей вообще поймут такой "подход" сам по себе - еще не в то время живем. Чтобы был хоть какой-то результат, придется реально много рекламы вкидывать. Сейчас даже первоклассники ChatGPT используют, и им будет проще просто там спросить. Если бы реклама реально зашла, тогда, может быть, сработало бы сарафанное радио - а родители отлично умеют быстро разносить информацию между собой. Но в целом, скорее всего, самой большой проблемой будет монетизация. Голосовой ввод - это, конечно, круто, но то же самое есть и у того же ChatGPT, и люди будут пользоваться уже проверенным вариантом. Если бы это было отдельное мобильное приложение с user-friendly интерфейсом, текстовым и голосовым вводом, и какими-то своими фишками + залить это все в Play Market и App Store. Но даже так, чтобы что-то получилось, нужно будет закупать рекламу у всяких учебных ресурсов, и без нормального финансирования никуда. Может, я чего-то не понимаю и у тебя супер крутой, глубоко продуманный план, просто высказал свое мнение по теме. Удачи!
 
Привет, Лиса! С технической точки зрения вижу проблему в STT, т.к дети, часто говорят невнятно, запинаются и тому подобное, как правило голосовые промты в ИИ ориентированны на взрослых, были исследования (если найду ссылку то кину), что речь у ребенка до 18ти лет на 30-35% хуже чем у взрослого человека, тем самым данная задача осложняется, а использовать ИИ в качестве доп.нагрузки распознавания аля что же этот спиногрыз сказал, выйдет слишком муторно, ёмко и долго. И касаемо твоих представлений, я согласен, не все сервисы работают добросовестнно, могут случаться затупы и тормоза, поэтому как-то так.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
Нужна реально мощная реклама, серьезный маркетинг, да еще в нынешних условиях. Это к Екатерине Мизулиной, она раскрутит вместе с Шаманом Мизулиным. Если речь о России.

А так идея то неплохая. Вполне трендовая.
 
Сейчас даже первоклассники ChatGPT используют, и им будет проще просто там спросить.
но то же самое есть и у того же ChatGPT
речь о родительском контроле, а не "спросить у ИИ": папа+мама (+ бабушка) получают к примеру сообщение: "История- хорошо, дополнительно: древнеримская кухня. Литература - чтение стихотворения с ошибками. Рекомендуем проверить. "

С технической точки зрения вижу проблему в STT, т.к дети, часто говорят невнятно,

Да, вот и я вижу проблему распознавания, спасибо за конструктив. Ибо сама на ходу иногда пользуюсь голосовыми вопросами в приложении Цяньвэня. Там и преобразование в текст и озвучка тоже западают. Кстати, улучшились со временем. И сами ИИ это акцентируют - что с детскими ответам будет проблема.
Вот поэтому НЕ репетитор, НЕ подготовка к экзаменам, БЕЗ системы жестких оценок, а "помощник родителей". Планка требований ниже, обязательств меньше.

О продвижении. Справлюсь. Было бы что продвигать, непостыдное. Начну с оффа. Наберу пачку бесплатных "тестировщиков" - я знаю как это сделать в столице;). Там все и видно будет - по дальнейшему развитию: насколько расширять масштабы - и приложение, и сайт с мордой говорящего робота.

Основная проблема- четкая работа: голосовой ввод - обработка - голосовой вывод. Если такая задача будет решена, то на ее базе можно много чего строить и куда двигаться.


По монетизации: меня устроит 2-3 тыс. пользователей по 300-500 руб в месяц (хех...). Хотя при безупречно работающей системе, их будет больше.
И да, относительно неразвитое применение ИИ в повседневности - это не только минус, но и плюс. со временем все ниши с "ИИ-агентами" будут заняты. Уверена.

п.с. Интеллектуальных приложений где голос+ИИ мало, практически нет - если не считать Алису, но это обертка над Яндексом.
 
Последнее редактирование:
я не думаю что ии не сможет достраивать нормально предложения, возьми просто у sber ai api там очень хорошо переводит в текст голосовые, пользуюсь на постоянке для записи своих мыслей и вродеб не особо дорого.
Боты подобные есть, не особо уникальная идея, но найдет своего покупателя явно.
Почему ты сразу ориентируешься только на родителей??
Займи нишу и ГДЗ, чтобы бот помогал комплексно и детям и взрослым, 2 кнопки то никто не запрещает добавить, но для детей добавь использование за добавление новых пользователей условно 10 доп запросов - за 1 юзера , вот тебе и расширение аудитории и доп монета на рекламе.

Ну и решение твоей проблемы, просто добавить в промпт аля: Если ты чего-то не понял, сперва задай уточняющий вопрос, а потом решай всю задачу.


Я бы двигался в сторону полноценного "наставника" для ребенка, который поможет развить сильные стороны, какой-то инструмент для робких детей которые не могут общаться с сверстниками с элементами геймификации ( Сегодня вы сделали столько то заданий, вот вам очки идите убивайте дракона ), сделать полноценный ai проект аля HABITICA для детей, ну это уже мои влажные фантазии аххах.
 
Боты подобные есть,
например? "умные" колонки, или общение голосом с Алисой, Гигачатом и прочее? наверное.
Есть и настраиваемые "3д-друзья", есть наверняка какие-то персонально написанные "ИИ-агенты" для саппорта , допустим
Нет интеллектуального голосового приложения в массмаркете. Везде голос- как опция, а не основа общения.
И точно нет того что я описала в образовании ( в русскоязычном сегменте).
Я бы двигался в сторону полноценного "наставника" для ребенка,
так об этом и речь. Но надо же начинать с чего то попроще... вот поэтому и сфокусировалась на том что легко продать, относительно легко контролировать и програмировать.

(представила юных-порно пользоватлей с джейлбрейками и судебные иски от родаков)
 
например?
Перепроверил даже телегу и действительно, полноценно "решебники" не используют голос в ботах, в основном просто решебники на основе текста/фото.
И точно нет того что я описала в образовании.
тоже не поспоришь, полноценно нацеленного на данную задачу решения сейчас нет, я бы сказал что ниша пустая, но нужно будет доказать что твое решение лучше справляется с учебной программой и помощью чем Алиса.
(представила юных-порно пользоватлей с джейлбрейками и судебные иски от родаков)
ну там думаю документацией все решаемо аххаха, взлом программного обеспечения с целью добычи запрещенной информации в рф.
 
лучше справляется с учебной программой и помощью чем Алиса.
почти нет пересечения с Алисой. Алиса не проверяет как ребенок выучил стихотворение и не сохраняет данные для родителей об этом. Точнее - Яндекс. Учебник - частично. Но не голосом и с жестким стилем "калькулятора", и без попыток какого-то развития. В нем нет устных предметов.

Речь то о программировании, алгоритмизации педагогики и интеллектуального развития. Нужно сформировать промпт, который:
учитывает предмет/тему;
просит ИИ переформулировать услышанное, исправить, дополнить может быть;
оценить понимание;
задать 1–2 -3 уточняющих вопроса;
выдать структурированный фидбек: один ребенку- "молодец, теперь все хорошо", другой родителям (оцениваю ответ на "удовлетворительно", проблемы -----, желательна ваша помощь ребенку)

Вот что будет отличать приложение от бесед с ИИ - общедоступных и популярных с одной стороны,
и "репетиторов" - проверки ДЗ по принципу егэ - напиши ответ, закачай картинку, сверю с эталоном, с другой стороны.

Привлекательно тем, что если ИИ уверенно выдает вердикт, проверил историю - всё отлично, то можно быть спокойным. Особенно когда когда родителей нет дома.
Доп контроль. Вот так))
 
почти нет пересечения с Алисой. Алиса не проверяет как ребенок выучил стихотворение и не сохраняет данные для родителей об этом. Точнее - Яндекс. Учебник - частично. Но не голосом и с жестким стилем "калькулятора", и без попыток какого-то развития. В нем нет устных предметов.

Речь то о программировании, алгоритмизации педагогики и интеллектуального развития. Нужно сформировать промпт, который:
учитывает предмет/тему;
просит ИИ переформулировать услышанное, исправить, дополнить может быть;
оценить понимание;
задать 1–2 -3 уточняющих вопроса;
выдать структурированный фидбек: один ребенку- "молодец, теперь все хорошо", другой родителям (оцениваю ответ на "удовлетворительно", проблемы -----, желательна ваша помощь ребенку)

Вот что будет отличать приложение от бесед с ИИ - общедоступных и популярных с одной стороны,
и "репетиторов" - проверки ДЗ по принципу егэ - напиши ответ, закачай картинку, сверю с эталоном, с другой стороны.

Привлекательно тем, что если ИИ уверенно выдает вердикт, проверил историю - всё отлично, то можно быть спокойным. Особенно когда когда родителей нет дома.
Доп контроль. Вот так))
ааа, средство роботизации ребенка хаха
 
хроники работы над проектом. Так как неочевидна работтоспособность самой схемы в суровых реалиях, отладка пошла по пути - пока все бесплатно, чот нашлось
Нашлась модель первая попавшаяся Meta-Llama-3.3-70B-Instruct - много ли надо, спросить ее как зовут? Главное бесплатный апи (подарили 1 млн токенов)

Результаты первых тестов. Оказалось, что серверы и скрипты отработали как раз таки хорошо. Камень свалился на голову вот так:

📥 Получено голосовое
⏱️ Скачано: 0.19 сек
🔤 Распознано: «Ответь кратко. Тебе известны басни Крылова.»
⏱️ STT: 2.84 сек
🧠 ИИ ответил за: 1.26 сек
💬 Ответ ИИ: «Да, я знаком с баснями Ивана Крылова. Это классические произведения русской литературы, написанные в жанре басни. Известные басни Крылова: "Лисица и виноград", "Собака и кот", "Лягушка и жаба".»
⏱️ TTS+отправка: 6.95 сек
📤 Ответ отправлен голосом

📥 Получено голосовое
⏱️ Скачано: 0.18 сек
🔤 Распознано: «Но укрылого нет басни собака и кот. Ты ошиблась.»
⏱️ STT: 2.81 сек
🧠 ИИ ответил за: 9.16 сек
💬 Ответ ИИ: «Вы правы, классическая басня "Укрощение строптивой" действительно рассказывает о собаке и кошке, а не о коте и собаке. В басне собака и кот — это два животных, которые оказываются в одинаковом положении, и их сравнение становится метафорой для отношения между мужчиной и женщиной.»
⏱️ TTS+отправка: 5.43 сек
📤 Ответ отправлен голосом

Мне стало страшно.
Я представила будущие скандалы. Детали: отправка вопроса к ИИ была без промптов вообще. Зато получилось эффектно - как не надо делать, и как плавно перейти от Вороны и лисицы к отношениям мужчины и женщины...

Решила подогнать для юмора реакцию "соавтора".

Ты должна радоваться — потому что это рабочий, живой, педагогический диалог.
Да, ИИ ошибся — сказал про несуществующую басню "Собака и кот".
Но ребёнок его поправил — и ИИ признал ошибку, попытался объяснить, хотя снова немного запутался («Укрощение строптивой» — это Шекспир, а не Крылов).
Но — и это главное — диалог состоялся:
Ребёнок понял, что может спорить с ИИ,
Проверил знание,
Получил обратную связь, даже если неточную.
"главное — диалог состоялся:" Ну как бы да.​
Наглядный пример для чего нужен миниRAG, prompts и методика\система ограничений.​
 
Последнее редактирование:
надо наверное именно ру модель попробовать, ya gpt, гигачат
 
Нашлась модель первая попавшаяся Meta-Llama-3.3-70B-Instruct - много ли надо, спросить ее как зовут? Главное бесплатный апи (подарили 1 млн токенов)
Подскажите пожалуйста, где получили бесплатный апи?
 
Подскажите пожалуйста, где получили бесплатный апи?

 
Последнее редактирование:
Если в рф, то основная проблема в том, что массово родители сейчас мигрируют в макс, вполне возможно, что в ближайшем будущем тг полноценно будет работать с впн-ом онли, что тоже доставит трудности, если в купе с данным ботом не впаривать конфиги для впна
 
Если в рф, то основная проблема в том, что массово родители сейчас мигрируют в макс, вполне возможно, что в ближайшем будущем тг полноценно будет работать с впн-ом онли, что тоже доставит трудности, если в купе с данным ботом не впаривать конфиги для впна
кстати, да.
Идет опора на технологию, которую могут зарубить в любой момент. Сейчас на 0-й стадии это кажется неважным, пока тг работает. Но в перспективе...

По движению:

-детская речь 11+ практически не отличалась от взрослой. Но это малая выборка. Попадутся мямли, трусоватые, с дефектами речи..хз. Это уже в полевых условиях будет видно.

Привет, Лиса! С технической точки зрения вижу проблему в STT, т.к дети, часто говорят невнятно, запинаются и тому подобное,

- по опросам родителей - часть категорически, принципиально против. Несколько неожиданно.

Ну и да - проблемы продвижения встали, как говорится, во весь рост. Барахтаюсь. Потом отпишусь, если кому-то будет интересно. Попробую разные пути. То есть начну не с рекламы в сети.
 
Обдумываю идею применения ИИ для такого сервиса: проверка домашних заданий по устным предметам (Помощник родителей). Знаю по личному опыту, что проблем с географией может быть больше, чем с математикой.
ИИ здесь нужен как диалоговый наставник, инструмент развития, а не "проверяльщик" по эталонным ответам (таких "репетиторов" на рынке хватает).

Вопрос на форуме исключительно о технических аспектах. Со звуком большинство сервисов не связывается. Скорее всего не просто так. Не хотелось бы утонуть в трудностях, после стадии прототипа (MVP)

Как я вижу архитектуру, если попроще (на старте):

Клиент: тг-бот, голосовой ввод (можно вывод)
Бэк
Модули:
Приём голоса
— Скачивает .ogg из Telegram → конвертирует в .wav
STT (распознавание речи)
— Silero STT, получаем текст ответа ребёнка.
LLM (анализ и фидбэк)
— любая модель через API.
— Системный промпт "наставника"
TTS (озвучка)
— Silero TTS, offline, бесплатно.
Отчетность
— Голосовой ответ → в Telegram ребёнку.
— Текстовый отчёт → в Telegram родителю

БД (что попроще)
-биллинг
- ответ ребенка (разные критерии)
-сессия
Результаты не сохраняются


Вопросы. Что меня сильно смущает и останавливает пока чтобы погрузится с головой.
ИИ утверждают что основная сложность задачи - не в плоскости программирования и создания структуры, и не в финансах - а в методике организации самого процесса проверки, в его содержательной части.
Лично это мне кажется второстепенным. То есть промпты как-то можно подрихтовать под задачу. Корпус - школьная база, есть у всех И (или я недооцениваю).

Мне представляется, что косяки посыпятся: на распознавании, на глюках ИИ (непредсказуемых), на тормозах и качестве сторонних сервисов.

Интересно послушать критику, советы, то есть получить любой конструктивный фидбэк - буду признательна)
Формат телеграм-бота? Звучит интересно. Однако, помни о клиентоориентированности.. нынче Telegram в ру-просторах тоже стал не в почете.
Касательно AI-модели, это все не так уж и сложно, можешь даже стать оптовым закупщиком API-токенов, корми альтмана, ничего плохого не вижу.
Только вот к чему промежуточная конвертация? Вот этот паровоз из разряда OGG ==> STT, многие STT-модели, заменяющие Silero. Silero - крепкий среднячок, но не более того. Огромная куча ошибок в распознании речи, много других весомых недочетов - любое место почитай, подоркай. Увидишь отзывы народа. Ну как бы бегать с хотфиксами постоянно, кажется, не особо выгодная затея для своего бизнеса.

Если хочется чего-то более "компактного", то нуяхз, на самом деле подошел бы варик с использованием ffmpeg(конвертация дешевле, чем у аналогов Silero, и .wav не нужен, на один этап в системе меньше, это думаю неплохо).
Юзать Silero и туда, и обратно, выбор конечно тут у каждого свой, но кажется, можно и другое рассмотреть - дешевых вариантов уйма. А так, по опыту товарища, делавшего достаточно неплохой войсчейнджер, я бы посоветовал добавить в целом "2 роли" для LLM. Анализ и доразбор STT операций, дабы меньше ошибок было, и уже непосредственно логическое мышление, - куда это все одним трубопроводом поедет.

Понимаю, еще фича с экономиями на бд, как бы стартап, должно быть рентабельно и без огромных облаков, жрущих копеечку на самом деле немалую, но все же лучше где-то и контексты хранить. LLM часто бредят, им нужно напоминать. Так что, думаю рентабельно, но лучше еще подыскать местечко себе под работу с этой темой. Тг скоро станет не таким, к сожалению =(
 
кстати, да.
Идет опора на технологию, которую могут зарубить в любой момент. Сейчас на 0-й стадии это кажется неважным, пока тг работает. Но в перспективе...

По движению:

-детская речь 11+ практически не отличалась от взрослой. Но это малая выборка. Попадутся мямли, трусоватые, с дефектами речи..хз. Это уже в полевых условиях будет видно.



- по опросам родителей - часть категорически, принципиально против. Несколько неожиданно.

Ну и да - проблемы продвижения встали, как говорится, во весь рост. Барахтаюсь. Потом отпишусь, если кому-то будет интересно. Попробую разные пути. То есть начну не с рекламы в сети.
Это у тебя выборка такая безупречная была. Дефекты речи не редкость. Нынче только чаще встречаться стали.
 
Вот этот паровоз из разряда OGG ==> STT
логика простая. тг пишет довольно хорошо, компактно и будет использоваться для проверки родителями качества ответа (при желании). + тг мессенджер для отчета родителям.
Silero - крепкий среднячок, но не более того. Огромная куча ошибок в распознании речи, много других весомых недочетов - любое место почитай, подоркай
а что доркать, я его сама тестировала многократно. Помимо известных фич - пропуска цифр и латинских слов есть менее очевидная - обрыв на N-ом слове. Это их "право" такое .
Конечно я тестирую и другие варианты.

Если хочется чего-то более "компактного", то нуяхз, на самом деле подошел бы варик с использованием ffmpeg(конвертация дешевле, чем у аналогов Silero, и .wav не нужен, на один этап в системе меньше, это думаю неплохо).
+
Юзать Silero и туда, и обратно, выбор конечно тут у каждого свой, но кажется, можно и другое рассмотреть - дешевых вариантов уйма. А так, по опыту товарища, делавшего достаточно неплохой войсчейнджер, я бы посоветовал добавить в целом "2 роли" для LLM. Анализ и доразбор STT операций, дабы меньше ошибок было, и уже непосредственно логическое мышление, - куда это все одним трубопроводом поедет.
не туда и обратно
TTS - faster-whisper очень неплохо работает. Хотя время покажет.
Понимаю, еще фича с экономиями на бд, как бы стартап, должно быть рентабельно и без огромных облаков, жрущих копеечку на самом деле немалую, но все же лучше где-то и контексты хранить

хранение промптов, учебных данных - это мизер, любой VPS

А хранение ответов учеников не предусмотрено. Только диалоги в ТГ. никаких БД ради этого не нужно.
 
логика простая. тг пишет довольно хорошо, компактно и будет использоваться для проверки родителями качества ответа (при желании). + тг мессенджер для отчета родителям.

а что доркать, я его сама тестировала многократно. Помимо известных фич - пропуска цифр и латинских слов есть менее очевидная - обрыв на N-ом слове. Это их "право" такое .
Конечно я тестирую и другие варианты.


+

не туда и обратно
TTS - faster-whisper очень неплохо работает. Хотя время покажет.


хранение промптов, учебных данных - это мизер, любой VPS

А хранение ответов учеников не предусмотрено. Только диалоги в ТГ. никаких БД ради этого не нужно.
Я понял, что хранение учеников не будет предусмотрено. Но стоит и заметить, что для сохранения контекста стоило бы время от времени подкармливать нейронку успешными решениями конкретных кейсов, дабы контекст не остывал и не был насыщен всухую пустым набором промптов. Так ты взрастишь точность, даже если будешь отбирать кейсы за сутки и держать их эти сутки. Контекстуалка у многих нейронок неслабо урезалась, это крайне ощутимо.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх