• XSS.stack #1 – первый литературный журнал от юзеров форума

AI ассистент в реальном времени

Jetske

floppy-диск
Пользователь
Регистрация
24.12.2022
Сообщения
1
Реакции
0
Есть ли готовые реальные решения, либо может идеи как закодить правильно? Что бы например во время звонка (не зависимо где), или считывая прямо с экрана все что происходит выводились ответы\рассуждения.
 
Есть ли готовые реальные решения, либо может идеи как закодить правильно? Что бы например во время звонка (не зависимо где), или считывая прямо с экрана все что происходит выводились ответы\рассуждения.

С экрана? Хз не слыхал о таком)
 
готового решения не видел, но теоретически такое накодить реально - отправлять "мультимодальным" моделям типа Gemma3 куски экрана и просить решить задачу с картинки.
получать данные из звонка тоже реально - Whisper https://github.com/openai/whisper очень быстрая модель для распознавания голоса, на мощном железе будет работать в реальном времени.
 
Есть ли готовые реальные решения, либо может идеи как закодить правильно? Что бы например во время звонка (не зависимо где), или считывая прямо с экрана все что происходит выводились ответы\рассуждения.
мб оно: https://github.com/Roy3838/Observer
 
с видеопотока либо с голоса? То можно в любой автоматизации от notion / n8n / make добавить вход языка и транскрипция сразу разговора вывод текста - передачи задачи и уже отрисовка. Зачем думать что-то сложнее?)
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх