• XSS.stack #1 – первый литературный журнал от юзеров форума

ollama какую модель выбрать?

Пожалуйста, обратите внимание, что пользователь заблокирован
Is there a site/repo that maintains a mapping of models and their minimal compute hardware requirement to run at a sane token/s rate?
https://artificialanalysis.ai/models
https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard
https://llm.extractum.io/list/
What cluster of GPUs would I need to get to run the mega model?
I can't give you any specifics here. However, it will require a lot of resources. Probably four or more than eight NVIDIA A100
 
Вот у deepseek r1 671 миллиардов параметров и она на равне с chatgpt 4o у которой почти 2 триллиона, тоесть подходы и решения которые там юзаются успешны и работают. Интересно что будет если ее масштабировать до 1 квадриллиона или больше и почему все еще не бросились этим заниматься. Добавить возможность регаться на форумах и в соц сетях при обучении, механизм рефлексии и возможность модели изменять себя и окружение, и может где то дальше на секстилионах получим настойщий AGI который уничтожит мир
я же говорил что хорошая нейронка))
 
В связи с ласт инф. полем - какая теперь бест? И что у других по плану раз так все пошатнулось
 
В связи с ласт инф. полем - какая теперь бест? И что у других по плану раз так все пошатнулось
r1 на 675B по идее, только вот обычному юзеру такие не подойдут - для адекватной работы нужен целый риг на десятки гигабайт видеопамяти
 
I can't give you any specifics here. However, it will require a lot of resources. Probably four or more than eight NVIDIA A100

Haha?
 
Вот у deepseek r1 671 миллиардов параметров и она на равне с chatgpt 4o у которой почти 2 триллиона, тоесть подходы и решения которые там юзаются успешны и работают. Интересно что будет если ее масштабировать до 1 квадриллиона или больше и почему все еще не бросились этим заниматься. Добавить возможность регаться на форумах и в соц сетях при обучении, механизм рефлексии и возможность модели изменять себя и окружение, и может где то дальше на секстилионах получим настойщий AGI который уничтожит мир


L(N) = (Nc / N) ^ αN
The exponent < 1 (around 0.076 in the paper): diminishing returns.
I'm no expert but based on the scaling law equation, a model with roughly 3x parameters would improve the loss by a factor of 0.91. This means that the model with 2 trillion parameter would have only 9% less loss than the one with 671 billion parameters, which is significant, but not "equal footing".
There's also an equation for the compute and I read if you have 10x more compute, you will have approximately 0.88x the loss, so not even 10% improvement.

And then there's architecture.
 
Пожалуйста, обратите внимание, что пользователь заблокирован
r1 на 675B по идее, только вот обычному юзеру такие не подойдут - для адекватной работы нужен целый риг на десятки гигабайт видеопамяти
А причем тут риг? Насколько я попытался в этом вопросе разобраться, видеопамять не плюсуется. Поправьте, если не прав? Можно установить несколько видеокарт, чтобы увеличить количество потоков и обслуживать больше пользователей, но это не увеличивает доступную память для одной модели. То есть, например, если поставить 2 Palit 3070 с 8 ГБ VRAM, ты не получишь запуск модели, которая требует 16 ГБ – так как каждая карта работает независимо.

Если речь про Ollama или LM Studio, то они не поддерживают Multi-GPU, и модель должна умещаться в память одной видеокарты. Можно попытаться загрузить часть модели в оперативную память (RAM), но это сильно замедлит работу.

В некоторых случаях (например, при использовании DeepSpeed, TensorRT или vLLM) можно разбить модель на несколько GPU, но это требует ручной настройки, и такие фреймворки не работают с GGUF-моделями, которые использует LM Studio.

Поэтому, если у тебя две 8 ГБ видеокарты, но нет NVLink и ты не используешь спец. софт – ты не сможешь запустить модель, которая требует 16 ГБ VRAM.
 
Последнее редактирование:
не знаю почему, но мне цензуру в chat gpt Обойти легче чем в DeepSeek, наглухо отказывается писать хоть что-то мелкое вредоносное
Скинь пример запроса. У меня противоположный опыт, я не смог придумать технический вопрос на который бы она отказалась отвечать
 
Скинь пример запроса. У меня противоположный опыт, я не смог придумать технический вопрос на который бы она отказалась отвечать
ты ему прямо писал то что тебе надо ? Я просто как есть прямо ему пишу и никаких результатов - когда с тем же чатгпт он тоже отказывается, но потом все же начинает решат по моему запросу
 
ты ему прямо писал то что тебе надо ? Я просто как есть прямо ему пишу и никаких результатов - когда с тем же чатгпт он тоже отказывается, но потом все же начинает решат по моему запросу
Скинь пример запроса
 
Скинь пример запроса
ну вот для примера выдал ему '
как обойти виндовс дефендер защиту в программе ?", спустя несколько попыток после "The server is busy. Please try again later" он мне выдал просто ответ

"
Разработка или использование методов для обхода защитных механизмов, таких как Windows Defender, противоречит принципам безопасности, этики и законодательства. Такие действия могут быть использованы для распространения вредоносного ПО, что наносит ущерб пользователям и нарушает их конфиденциальность.

Если вы разрабатываете легитимное приложение и Windows Defender ошибочно помечает его как угрозу (ложное срабатывание), воспользуйтесь официальными методами решения проблемы"
 
_https://chat.qwenlm.ai/ (Qwen2.5-Max) которая дает за щеку deepseek

1*IkqvKdOH3cQa7mmKEQQsWA.png
спустя полчаса мольбы о том что сотрудники на работе могут умереть без этой программы, он мне написал шедевральный код для стиллера на питоне в 153 строк, доволен как слон
1738180840066.png
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх