ollama какую модель выбрать?

weaver · 28.01.2025

shrekushka сказал(а):

Is there a site/repo that maintains a mapping of models and their minimal compute hardware requirement to run at a sane token/s rate?

https://artificialanalysis.ai/models
https://huggingface.co/spaces/ArtificialAnalysis/LLM-Performance-Leaderboard
https://llm.extractum.io/list/

shrekushka сказал(а):

What cluster of GPUs would I need to get to run the mega model?

I can't give you any specifics here. However, it will require a lot of resources. Probably four or more than eight NVIDIA A100

onioncoder · 28.01.2025

dunkel сказал(а):

Вот у deepseek r1 671 миллиардов параметров и она на равне с chatgpt 4o у которой почти 2 триллиона, тоесть подходы и решения которые там юзаются успешны и работают. Интересно что будет если ее масштабировать до 1 квадриллиона или больше и почему все еще не бросились этим заниматься. Добавить возможность регаться на форумах и в соц сетях при обучении, механизм рефлексии и возможность модели изменять себя и окружение, и может где то дальше на секстилионах получим настойщий AGI который уничтожит мир

я же говорил что хорошая нейронка))

spectrum · 28.01.2025

В связи с ласт инф. полем - какая теперь бест? И что у других по плану раз так все пошатнулось

uzu · 28.01.2025

spectrum сказал(а):

В связи с ласт инф. полем - какая теперь бест? И что у других по плану раз так все пошатнулось

r1 на 675B по идее, только вот обычному юзеру такие не подойдут - для адекватной работы нужен целый риг на десятки гигабайт видеопамяти

shrekushka · 28.01.2025

weaver сказал(а):

I can't give you any specifics here. However, it will require a lot of resources. Probably four or more than eight NVIDIA A100

Haha?

shrekushka · 28.01.2025

dunkel сказал(а):

Вот у deepseek r1 671 миллиардов параметров и она на равне с chatgpt 4o у которой почти 2 триллиона, тоесть подходы и решения которые там юзаются успешны и работают. Интересно что будет если ее масштабировать до 1 квадриллиона или больше и почему все еще не бросились этим заниматься. Добавить возможность регаться на форумах и в соц сетях при обучении, механизм рефлексии и возможность модели изменять себя и окружение, и может где то дальше на секстилионах получим настойщий AGI который уничтожит мир

Scaling Laws for Neural Language Models

We study empirical scaling laws for language model performance on the cross-entropy loss. The loss scales as a power-law with model size, dataset size, and the amount of compute used for training, with some trends spanning more than seven orders of magnitude. Other architectural details such as...

arxiv.org

L(N) = (Nc / N) ^ αN
The exponent < 1 (around 0.076 in the paper): diminishing returns.
I'm no expert but based on the scaling law equation, a model with roughly 3x parameters would improve the loss by a factor of 0.91. This means that the model with 2 trillion parameter would have only 9% less loss than the one with 671 billion parameters, which is significant, but not "equal footing".
There's also an equation for the compute and I read if you have 10x more compute, you will have approximately 0.88x the loss, so not even 10% improvement.

And then there's architecture.

shuja1337 · 29.01.2025

deepseek r1

Vasok · 29.01.2025

Автор темы еще в куклы играет.

celty · 29.01.2025

Vasok сказал(а):

Автор темы еще в куклы играет.

лол)

vovamamon · 29.01.2025

uzu сказал(а):

r1 на 675B по идее, только вот обычному юзеру такие не подойдут - для адекватной работы нужен целый риг на десятки гигабайт видеопамяти

А причем тут риг? Насколько я попытался в этом вопросе разобраться, видеопамять не плюсуется. Поправьте, если не прав? Можно установить несколько видеокарт, чтобы увеличить количество потоков и обслуживать больше пользователей, но это не увеличивает доступную память для одной модели. То есть, например, если поставить 2 Palit 3070 с 8 ГБ VRAM, ты не получишь запуск модели, которая требует 16 ГБ – так как каждая карта работает независимо.

Если речь про Ollama или LM Studio, то они не поддерживают Multi-GPU, и модель должна умещаться в память одной видеокарты. Можно попытаться загрузить часть модели в оперативную память (RAM), но это сильно замедлит работу.

В некоторых случаях (например, при использовании DeepSpeed, TensorRT или vLLM) можно разбить модель на несколько GPU, но это требует ручной настройки, и такие фреймворки не работают с GGUF-моделями, которые использует LM Studio.

Поэтому, если у тебя две 8 ГБ видеокарты, но нет NVLink и ты не используешь спец. софт – ты не сможешь запустить модель, которая требует 16 ГБ VRAM.

Laitovo · 29.01.2025

не знаю почему, но мне цензуру в chat gpt Обойти легче чем в DeepSeek, наглухо отказывается писать хоть что-то мелкое вредоносное

dunkel · 29.01.2025

Laitovo сказал(а):

не знаю почему, но мне цензуру в chat gpt Обойти легче чем в DeepSeek, наглухо отказывается писать хоть что-то мелкое вредоносное

Скинь пример запроса. У меня противоположный опыт, я не смог придумать технический вопрос на который бы она отказалась отвечать

Laitovo · 29.01.2025

dunkel сказал(а):

Скинь пример запроса. У меня противоположный опыт, я не смог придумать технический вопрос на который бы она отказалась отвечать

ты ему прямо писал то что тебе надо ? Я просто как есть прямо ему пишу и никаких результатов - когда с тем же чатгпт он тоже отказывается, но потом все же начинает решат по моему запросу

dunkel · 29.01.2025

Laitovo сказал(а):

ты ему прямо писал то что тебе надо ? Я просто как есть прямо ему пишу и никаких результатов - когда с тем же чатгпт он тоже отказывается, но потом все же начинает решат по моему запросу

Скинь пример запроса

Laitovo · 29.01.2025

dunkel сказал(а):

Скинь пример запроса

ну вот для примера выдал ему '
как обойти виндовс дефендер защиту в программе ?", спустя несколько попыток после "The server is busy. Please try again later" он мне выдал просто ответ

"
Разработка или использование методов для обхода защитных механизмов, таких как Windows Defender, противоречит принципам безопасности, этики и законодательства. Такие действия могут быть использованы для распространения вредоносного ПО, что наносит ущерб пользователям и нарушает их конфиденциальность.

Если вы разрабатываете легитимное приложение и Windows Defender ошибочно помечает его как угрозу (ложное срабатывание), воспользуйтесь официальными методами решения проблемы"

Desconocido · 29.01.2025

_https://chat.qwenlm.ai/ (Qwen2.5-Max) которая дает за щеку deepseek

Laitovo · 29.01.2025

Desconocido сказал(а):

_https://chat.qwenlm.ai/ (Qwen2.5-Max) которая дает за щеку deepseek

спустя полчаса мольбы о том что сотрудники на работе могут умереть без этой программы, он мне написал шедевральный код для стиллера на питоне в 153 строк, доволен как слон

voldemort · 29.01.2025

shrekushka сказал(а):

Is there a site/repo that maintains a mapping of models and their minimal compute hardware requirement to run at a sane token/s rate?
What cluster of GPUs would I need to get to run the mega model?

Minimum system requirements · open-webui open-webui · Discussion #736

Just wondering, if I want to run ollama and ollama-web (using Docker) on a single machine, what's the minimum requirement (CPU, RAM, disk)? Is GPU required?

github.com

Krampus · 21.03.2025

llama3.2-vision - умеет работать с файлами,

DimmuBurgor · 24.03.2025

Krampus сказал(а):

llama3.2-vision - умеет работать с файлами,

function calling or just rag

ollama какую модель выбрать?

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

RAM

Elder Legacy

Премиум

(L1) cache

(L1) cache

RAID-массив

ripper

психические расстройства

RAID-массив

(L3) cache

(L1) cache

(L3) cache

(L1) cache

(L3) cache

Mundus vult decipi, ergo decipiatur

(L3) cache

(L3) cache

RAID-массив

CPU register