так вот же он: https://github.com/ggml-org/llama.cpp/и всё это относится к обсуждают, Реализация - это рабочий софт
я ещё не пробовал запускать дикпик через ktransformers, а через llama.cpp скорость неюзабельная, там в районе 2 токенов в секунду генерация.модель которая помещается в 24gb и работает на одной видеокарте отвечает шустрее, чем модели которые загружают и вторую, более медленную карту. Значит ответы квантованной модели на 48gb у тебя должны выскакивать как чёртик из табакерки , Скорость работы китайца и основана на прямом доступе gpu к памяти. Ты сравнивал ответы модели, которую можешь запустить локально и облачного дипсика ? Что не устраивает?
тем временем подоспел ещё один прорыв: в llama.cpp добавили какую-то фигню "Sliding Window Attention", которая резко понизила занимаемую контекстом память: у людей с 3 ГБ видеопамяти, занятой контекстом, стало тратиться меньше 1 ГБ, а у меня с мультимодальной моделью с контекстом 24к было занято 42186 МБ врам, после обновления стало 33450 МБ, а после увеличения контекста до 32к стало занято 34090 МБ.
скорость и качество генерации ещё не сравнивал, и в каментах ничего про это не видел, но если при использовании SWA ничего не ухудшается, то это действительно прорыв.
подробнее:
https://github.com/ggml-org/llama.cpp/pull/13194
https :// old.reddit.com/r/LocalLLaMA/comments/1kqye2t/sliding_window_attention_support_merged_into/
качайте эту версию https://github.com/ggml-org/llama.cpp/releases/tag/b5429 или новее.