• XSS.stack #1 – первый литературный журнал от юзеров форума

Ии на ПК llama

и всё это относится к обсуждают, Реализация - это рабочий софт
так вот же он: https://github.com/ggml-org/llama.cpp/ :D

модель которая помещается в 24gb и работает на одной видеокарте отвечает шустрее, чем модели которые загружают и вторую, более медленную карту. Значит ответы квантованной модели на 48gb у тебя должны выскакивать как чёртик из табакерки , Скорость работы китайца и основана на прямом доступе gpu к памяти. Ты сравнивал ответы модели, которую можешь запустить локально и облачного дипсика ? Что не устраивает?
я ещё не пробовал запускать дикпик через ktransformers, а через llama.cpp скорость неюзабельная, там в районе 2 токенов в секунду генерация.

тем временем подоспел ещё один прорыв: в llama.cpp добавили какую-то фигню "Sliding Window Attention", которая резко понизила занимаемую контекстом память: у людей с 3 ГБ видеопамяти, занятой контекстом, стало тратиться меньше 1 ГБ, а у меня с мультимодальной моделью с контекстом 24к было занято 42186 МБ врам, после обновления стало 33450 МБ, а после увеличения контекста до 32к стало занято 34090 МБ.
скорость и качество генерации ещё не сравнивал, и в каментах ничего про это не видел, но если при использовании SWA ничего не ухудшается, то это действительно прорыв.

подробнее:
https://github.com/ggml-org/llama.cpp/pull/13194
https :// old.reddit.com/r/LocalLLaMA/comments/1kqye2t/sliding_window_attention_support_merged_into/

качайте эту версию https://github.com/ggml-org/llama.cpp/releases/tag/b5429 или новее.
 
так вот же он:
и сам пишешь, что это работает медленно, значит и смысла пробовать нет. При наличии 48 gb vram нет разницы занимает модель 42186 МБ или 33450
попробуй Lm Studio или Msty и сравни скорость и удобство
 
и сам пишешь, что это работает медленно, значит и смысла пробовать нет.
в этом есть смысл если модель не влезает целиком в VRAM.
При наличии 48 gb vram нет разницы занимает модель 42186 МБ или 33450
а это вообще другое - патч в несколько раз уменьшил использования памяти контекстом, теперь в маленькую карту вместо 2-4к получится засунуть 16-20к, а в моём случае раньше влезало только 24к, а в новой версии можно поднять объём контекста даже выше 32к.
попробуй Lm Studio или Msty и сравни скорость и удобство
ты хотел сказать "попробуй vLLM"? в чём точно нет смысла, так это в использовании гламурных обёрток над llama.cpp типа LM Studio или Msty вместо оригинальной лламыцпп. обёртки может и удобнее, но точно не быстрее.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх