Помогите, кто шарит за LLM

filipp4636 · 07.04.2025

В общем, я смотрю, очень быстро развиваются эти модели, даже следить не успеваю, буквально каждый день что-то новое происходит.
И недели не прошло в апреле - а тут уже выходит gemini 2.5 - turbo, а потом Scout от Meta с 4 млн. контекста и т.п.
Но, к сожалению, в тему я еще не успел въехать, а возможности этих моделей использовать очень сильно хочется.
В общем, я бы хотел найти человека, который имеет опыт или прям варится в этой теме, и за плату бы меня ориентировал по всей этой тематике.
Во-первых, я хочу понять, могу ли я захостить Scout от Meta с 4 млн. контекста на личном сервере. Я посмотрел на https://huggingface.co/, там вроде есть открытый исходный код, а если чатиться через провайдеров - то везде получается лимит на ответы, и как будто потенциал я не реализую почти что. Но при этом на это же huggingface.co как будто бы есть все кнопки, чтобы захостить это дело (и сервер там почасово представляется для аренды даже), но я никак не могу разобраться со всем этим, так как не в теме (и по сути сильным программистом не являюсь). И правильно ли я вообще понимаю, что если я размещу модель на арендованном сервере - то смогу получить от нее гораздо больше? Или это не совсем так работает? Все спасибо, жду обратной связи и сообщений в лс или на тг filipp4636. Вообще буду очень рад, если найду реально заинтересованных людей, поскольку нейросетки сейчас развиваются невероятно стремительно

Dread Pirate Roberts · 07.04.2025

filipp4636 сказал(а):

могу ли я захостить Scout от Meta с 4 млн. контекста на личном сервере

теоретически можешь, но практически это будет чрезвычайно дорого, пользоваться платными нейронками через апи в сотни раз дешевле.

filipp4636 сказал(а):

на это же huggingface.co как будто бы есть все кнопки, чтобы захостить это дело (и сервер там почасово представляется для аренды даже)

для 4 млн контекста нужно примерно 400 гигабайт видеопамяти. я не смотрел, что за сервера на huggingface.co, но сильно сомневаюсь, что там такие есть.

filipp4636 сказал(а):

если я размещу модель на арендованном сервере - то смогу получить от нее гораздо больше? Или это не совсем так работает?

не так. размещая БЯМ на своём сервере ты получаешь приватность, твои романтические беседы с нейронкой не попадут третьим лицам (при условии правильной настройки сервера и нейронки)

filipp4636 · 07.04.2025

Dread Pirate Roberts сказал(а):

теоретически можешь, но практически это будет чрезвычайно дорого, пользоваться платными нейронками через апи в сотни раз дешевле.

для 4 млн контекста нужно примерно 400 гигабайт видеопамяти. я не смотрел, что за сервера на huggingface.co, но сильно сомневаюсь, что там такие есть.

не так. размещая БЯМ на своём сервере ты получаешь приватность, твои романтические беседы с нейронкой не попадут третьим лицам (при условии правильной настройки сервера и нейронки)

спасибо за ответ, очень информативно

еще хотел узнать: что вообще означает этот "контекст"? вот заявлено, что условно модель поддерживает 100к контекста, но почему же на практике я не могу кинуть запрос на 40к токенов и получить ответ на 40-50к токенов, почему по факту всегда все урезается, а ответ редко превышает 1к слов? по сути, моя цель - это сделать так, чтобы в рамках одного ответа нейронка тянула тысяч 4-5 слов. Возможно ли это в рамках уже готовых решений?

NEMO · 07.04.2025

Смотри, контест это сколько в общем может быть токенов в чате,,, у джемини про контекст 1м, тоесть ты в теории можешь засунуть туда 900к токенов но у нее output только 60к токенов максимум тоесть за один ответ не сможет дать больше,,, у ламы он в разы меньше, я как человек который много работает с ними скажу что это пока что хрень, вайб кодинг только зараждаеться.... также насчет селф хоста,,, смысла нет последняя модель переоценена, лучше дипсик хостить но это пипец дорого и не эффективно его готовый api стоит копейки но умнее чем гпт 4 и прочии модельки

alex778 · 08.04.2025

filipp4636 сказал(а):

еще хотел узнать: что вообще означает этот "контекст"? вот заявлено, что условно модель поддерживает 100к контекста, но почему же на практике я не могу кинуть запрос на 40к токенов и получить ответ на 40-50к токенов, почему по факту всегда все урезается, а ответ редко превышает 1к слов? по сути, моя цель - это сделать так, чтобы в рамках одного ответа нейронка тянула тысяч 4-5 слов. Возможно ли это в рамках уже готовых решений?

Контекст связан с тем как обучают ЛЛМки, для пользователя это примерно соответствует памяти ЛЛМ о текущем разговоре. Точнее, должно соответствовать в идеале, на практике возможны различные приколы и баги, как с Ламой 4-й, где контекст заявлен гигантский, а в реальности его нет - модель забывает токены глубже 1000. Что значит "не могу кинуть запрос", ты через какое-то АПИ делаешь запросы или через сайт? Если через какой-то сайт, то скорей всего там просто лимиты подрезаны. Если через АПИ, то оно и должно выдавать причину тряски, так сказать. Лимиты у разных моделей разные, в целом все чуть-чуть поджуливают, даже если контекст заявлен как большой и даже если запросы формально проходят - в реальности модель может частично или полностью забывать более глубоко запрятанное. Признанного бенчмарка на удержание контекста кстати вроде бы и нет, то есть все производители моделей им хвалятся, а доказать - не хотят.

4-5к токенов в ответе должна уметь давать практически любая современная модель, вот тут можно посмотреть у какого провайдера какая модель сколько может выдать - https://models.litellm.ai/ .

Dread Pirate Roberts · 08.04.2025

filipp4636 сказал(а):

условно модель поддерживает 100к контекста, но почему же на практике я не могу кинуть запрос на 40к токенов и получить ответ на 40-50к токенов, почему по факту всегда все урезается

потому что все эти конторы обманывают, нет у них 100к контекста.
--->

alex778 сказал(а):

на практике возможны различные приколы и баги, как с Ламой 4-й, где контекст заявлен гигантский, а в реальности его нет - модель забывает токены глубже 1000

alex778 · 08.04.2025

alex778 сказал(а):

Признанного бенчмарка на удержание контекста кстати вроде бы и нет

Оказывается, кое-что всё же есть, нашёл! Вот он: https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

То есть указанный у моделей контекст он как бы есть, но все они в какой-то степени забывают ранее сказанное. И некоторые прямо как выжившие из ума бабки - новейшая Лама-4 помнит только 36% уже на 400 токенах. Хорошая модель из включённых в табличку получается на данный момент только одна - Джемини 2.5, она помнит 90% контекста на глубине 100к.

hackeryaroslav · 08.04.2025

alex778 сказал(а):

Оказывается, кое-что всё же есть, нашёл! Вот он: https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
Посмотреть вложение 105805
То есть указанный у моделей контекст он как бы есть, но все они в какой-то степени забывают ранее сказанное. И некоторые прямо как выжившие из ума бабки - новейшая Лама-4 помнит только 36% уже на 400 токенах. Хорошая модель из включённых в табличку получается на данный момент только одна - Джемини 2.5, она помнит 90% контекста на глубине 100к.

Гемини получает уж слишком мало общественного внимания

Просто великолепные ИИ, да еще и бесплатные

ktpm23 · 08.04.2025

Сервак стоит дорого, и нужны тех знания минимальные хотя бы, ну и да, у нейронок есть встроенные ограничения на токены, и ты это с помощью этих методов не обойдешь их.

Ограничения на токены — это лимиты на количество токенов, которые нейросети могут обрабатывать за одно взаимодействие ввода-вывода.

Некоторые примеры ограничений:

GPT-3 — 2049 токенов.
GPT-4 — до 8192 токенов.
Флагманские версии GPT-4o и o1-preview — до 128 000 токенов (почти 10 страниц текста формата А4).

Когда подсказки и вводимые данные превышают эти пределы, производительность нейросети заметно снижается.

Чтобы обойти ограничение, можно разбить задачу на несколько частей. Например, вместо того чтобы просить нейросеть выполнить рерайт очень длинного материала целиком, стоит разбить его на смысловые блоки и уникализировать по частям.

reydenm1 · 09.04.2025

Контекст больше 128к призван лишь снизить необходимость в RAG для энтерпрайз разработки и оставить standalone LLM.

Хостить такие громадные модели на собственных мощностях даже в квантизации на FP16, это огромные бабки на карты. Нужно четко понимать, что это быстро окупится и в этом есть смысл.

Помогите, кто шарит за LLM

filipp4636

floppy-диск

Dread Pirate Roberts

Премиум

filipp4636

floppy-диск

NEMO

(L3) cache

alex778

(L1) cache

Dread Pirate Roberts

Премиум

alex778

(L1) cache

hackeryaroslav

(L1) cache

ktpm23

(L1) cache

reydenm1

RAM

Помогите, кто шарит за LLM

floppy-диск

Премиум

floppy-диск

(L3) cache

(L1) cache

Премиум

(L1) cache

(L1) cache

(L1) cache

​

RAM