Ии на ПК llama

Dread Pirate Roberts · 20.05.2025

Krampus сказал(а):

и всё это относится к обсуждают, Реализация - это рабочий софт

так вот же он: https://github.com/ggml-org/llama.cpp/

Krampus сказал(а):

модель которая помещается в 24gb и работает на одной видеокарте отвечает шустрее, чем модели которые загружают и вторую, более медленную карту. Значит ответы квантованной модели на 48gb у тебя должны выскакивать как чёртик из табакерки , Скорость работы китайца и основана на прямом доступе gpu к памяти. Ты сравнивал ответы модели, которую можешь запустить локально и облачного дипсика ? Что не устраивает?

я ещё не пробовал запускать дикпик через ktransformers, а через llama.cpp скорость неюзабельная, там в районе 2 токенов в секунду генерация.

тем временем подоспел ещё один прорыв: в llama.cpp добавили какую-то фигню "Sliding Window Attention", которая резко понизила занимаемую контекстом память: у людей с 3 ГБ видеопамяти, занятой контекстом, стало тратиться меньше 1 ГБ, а у меня с мультимодальной моделью с контекстом 24к было занято 42186 МБ врам, после обновления стало 33450 МБ, а после увеличения контекста до 32к стало занято 34090 МБ.
скорость и качество генерации ещё не сравнивал, и в каментах ничего про это не видел, но если при использовании SWA ничего не ухудшается, то это действительно прорыв.

подробнее:
https://github.com/ggml-org/llama.cpp/pull/13194
https :// old.reddit.com/r/LocalLLaMA/comments/1kqye2t/sliding_window_attention_support_merged_into/

качайте эту версию https://github.com/ggml-org/llama.cpp/releases/tag/b5429 или новее.

NEMO · 20.05.2025

Ламма маленькая и тупая, лучше всего регать аккаунт гугл получать api key и через прокси и хорошим системным промтом работать

Krampus · 20.05.2025

Dread Pirate Roberts сказал(а):

так вот же он:

и сам пишешь, что это работает медленно, значит и смысла пробовать нет. При наличии 48 gb vram нет разницы занимает модель 42186 МБ или 33450
попробуй Lm Studio или Msty и сравни скорость и удобство

Dread Pirate Roberts · 21.05.2025

Krampus сказал(а):

и сам пишешь, что это работает медленно, значит и смысла пробовать нет.

в этом есть смысл если модель не влезает целиком в VRAM.

Krampus сказал(а):

При наличии 48 gb vram нет разницы занимает модель 42186 МБ или 33450

а это вообще другое - патч в несколько раз уменьшил использования памяти контекстом, теперь в маленькую карту вместо 2-4к получится засунуть 16-20к, а в моём случае раньше влезало только 24к, а в новой версии можно поднять объём контекста даже выше 32к.

Krampus сказал(а):

попробуй Lm Studio или Msty и сравни скорость и удобство

ты хотел сказать "попробуй vLLM"? в чём точно нет смысла, так это в использовании гламурных обёрток над llama.cpp типа LM Studio или Msty вместо оригинальной лламыцпп. обёртки может и удобнее, но точно не быстрее.

Ии на ПК llama

Dread Pirate Roberts

Премиум

NEMO

(L3) cache

Krampus

RAID-массив

Dread Pirate Roberts

Премиум