Ии на ПК llama

JamesKing · 19.03.2023

Всем привет. Кто нибудь уже ставил его https://github.com/cocktailpeanut/dalai?
Если да, то напишите немного об ограничениях вывода, есть ли они?
Если ответа не будет и появится возможность самому оценить, то сам отпишу в этой теме.
Всем пис.

P s. Llama*

ONION · 09.04.2023

ставил llama 7b глупая

ktpm23 · 09.04.2023

ONION сказал(а):

ставил llama 7b глупая

А в чем эта глупость заключается например?

ONION · 09.04.2023

ktpm23 сказал(а):

А в чем эта глупость заключается например?

недостаточно данных, и еще не всегда понимает что от него хотят
Он может сказать когда умер напалеон но не придумать рассказ про него

ktpm23 · 09.04.2023

ONION сказал(а):

недостаточно данных, и еще не всегда понимает что от него хотят
Он может сказать когда умер напалеон но не придумать рассказ про него

А как еще ее тестил? Получается модель очень сырая?

ONION · 09.04.2023

ktpm23 сказал(а):

А как еще ее тестил? Получается модель очень сырая?

это самая маленькая модель, там есть 65B но дл яэтого 40Гб RAMа нужно

Dread Pirate Roberts · 11.04.2023

тестил 65B, тоже глупенькая.
точнее, тексты генерит неплохо, даже русский язык умеет, но в плане кодинга - полный ноль, не смог добиться от неё даже самых простейших скриптов на пхп и педоне.
а и ещё, в некоторых случаях 13B и 30B выдают результат лучше, чем 65B, так что если вам надо что-то нагенерить, то прогоняйте сразу по трём моделям.
ну а 7B - совсем ниачом, можно не качать.

P.S. модель 65B жрёт 45 гигов оперативы, 30B - 25 GB, 13B - 12 GB.

alex778 · 21.04.2023

Попробуйте Vicuna. Это праздник какой-то. Месяц назад ничего не было - сейчас целый зоопарк моделей и к ним запускалок.

r/LocalLLaMA

r/LocalLLaMA: Subreddit to discuss about LLaMA, the large language model created by Meta AI.

www.reddit.com

Lazarus · 21.04.2023

https://xss.pro/threads/86272/post-600426

Welcome to LangChain — 🦜🔗 LangChain 0.0.146

Dread Pirate Roberts · 21.04.2023

Dread Pirate Roberts сказал(а):

P.S. модель 65B жрёт 45 гигов оперативы, 30B - 25 GB, 13B - 12 GB.

забыл добавить, что это "заархивированные" модели, квантизация 4 бит. если запускать "оригинальные" 16-битные модели, то 13B жрёт 30 гигабайт, а на 30B у меня оперативы не хватило, не говоря уже о 65B)

по слухам, квантизация ухудшает качество генерируемого текста, а также замедляет генерацию, оригинальные базы генерят чуть быстрее засчёт большего расхода памяти.
также очень важна скорость оперативной памяти - на DDR4-2666 лама.срр генерит бред примерно в полтора раза быстрее, чем с DDR4-2133

ktpm23 · 21.04.2023

Dread Pirate Roberts сказал(а):

тестил 65B, тоже глупенькая.
точнее, тексты генерит неплохо, даже русский язык умеет, но в плане кодинга - полный ноль, не смог добиться от неё даже самых простейших скриптов на пхп и педоне.
а и ещё, в некоторых случаях 13B и 30B выдают результат лучше, чем 65B, так что если вам надо что-то нагенерить, то прогоняйте сразу по трём моделям.
ну а 7B - совсем ниачом, можно не качать.

P.S. модель 65B жрёт 45 гигов оперативы, 30B - 25 GB, 13B - 12 GB.

Интересно, а если ее через гугл колаб запустить, то она будет работать нормально? Там вроде бы мощностей должно хватать для полноценного запуска на разных мощностях.

alex778 · 02.05.2023

ktpm23 сказал(а):

Интересно, а если ее через гугл колаб запустить, то она будет работать нормально? Там вроде бы мощностей должно хватать для полноценного запуска на разных мощностях.

И так нормально работает, даже без видеокарты. Размер модели не принципиален, 13b 4bit - достаточно как основа, там уже всё есть для понимания языка (спасибо человеку-ящерице). Именно поэтому и есть урезанные модели, что там заложена основа, за тренировку которой фейсбуком заплачены миллионы денег. Любую модель надо дообучать на конкретную предметную область. Например, скормить исходники всех учебных программ из всех книг Петзольда, Рихтера и Йосифовича за 20 лет, чтобы научить программировать под Винду. Или исходники всей малвари с вундегранунда скачать и туда внедрить. Но сейчас людей эротика больше интересует, по этой теме дообученные модели появляются, а по скучному программированию - пока нет. Кто умеет - делайте, есть шанс реально скакнуть из грязи в князи, озолотиться и прославиться.

ktpm23 · 15.05.2023

alex778 сказал(а):

И так нормально работает, даже без видеокарты. Размер модели не принципиален, 13b 4bit - достаточно как основа, там уже всё есть для понимания языка (спасибо человеку-ящерице). Именно поэтому и есть урезанные модели, что там заложена основа, за тренировку которой фейсбуком заплачены миллионы денег. Любую модель надо дообучать на конкретную предметную область. Например, скормить исходники всех учебных программ из всех книг Петзольда, Рихтера и Йосифовича за 20 лет, чтобы научить программировать под Винду. Или исходники всей малвари с вундегранунда скачать и туда внедрить. Но сейчас людей эротика больше интересует, по этой теме дообученные модели появляются, а по скучному программированию - пока нет. Кто умеет - делайте, есть шанс реально скакнуть из грязи в князи, озолотиться и прославиться.

Мне кажется тут дело не только в интересе, но и в том чтобы нейронку нормально кодить научить нужно много хлопот и она может реально писать ерунду чаще всего, так как эта сфера очень сложная порой

Dread Pirate Roberts · 15.08.2023

тихо и незаметно вышла LLaMA-2, качать тут: https://huggingface.co/TheBloke/
помимо простой модели, есть ещё LLaMA2-chat, оптимизированная для чата в стиле чатгопоты.

также я внезапно обнаружил, что изобрели какой-то новый метод квантизации, который работает на процессорах ещё быстре, чем старый q4, и жрёт намного меньше оперативы.

GGML_TYPE_Q2_K - "type-1" 2-bit quantization in super-blocks containing 16 blocks, each block having 16 weight. Block scales and mins are quantized with 4 bits. This ends up effectively using 2.5625 bits per weight (bpw)

GGML_TYPE_Q3_K - "type-0" 3-bit quantization in super-blocks containing 16 blocks, each block having 16 weights. Scales are quantized with 6 bits. This end up using 3.4375 bpw.

GGML_TYPE_Q4_K - "type-1" 4-bit quantization in super-blocks containing 8 blocks, each block having 32 weights. Scales and mins are quantized with 6 bits. This ends up using 4.5 bpw.

GGML_TYPE_Q5_K - "type-1" 5-bit quantization. Same super-block structure as GGML_TYPE_Q4_K resulting in 5.5 bpw

GGML_TYPE_Q6_K - "type-0" 6-bit quantization. Super-blocks with 16 blocks, each block having 16 weights. Scales are quantized with 8 bits. This ends up using 6.5625 bpw

GGML_TYPE_Q8_K - "type-0" 8-bit quantization. Only used for quantizing intermediate results. The difference to the existing Q8_0 is that the block size is 256. All 2-6 bit dot products are implemented for this quantization type.

примеры файлов:

Name Quant method Bits Size Max RAM required Use case

llama-2-70b.ggmlv3.q2_K.bin q2_K 2 28.59 GB 31.09 GB New k-quant method. Uses GGML_TYPE_Q4_K for the attention.vw and feed_forward.w2 tensors, GGML_TYPE_Q2_K for the other tensors.

llama-2-70b.ggmlv3.q3_K_L.bin q3_K_L 3 36.15 GB 38.65 GB New k-quant method. Uses GGML_TYPE_Q5_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K

llama-2-70b.ggmlv3.q3_K_M.bin q3_K_M 3 33.04 GB 35.54 GB New k-quant method. Uses GGML_TYPE_Q4_K for the attention.wv, attention.wo, and feed_forward.w2 tensors, else GGML_TYPE_Q3_K

llama-2-70b.ggmlv3.q3_K_S.bin q3_K_S 3 29.75 GB 32.25 GB New k-quant method. Uses GGML_TYPE_Q3_K for all tensors

llama-2-70b.ggmlv3.q4_0.bin q4_0 4 38.87 GB 41.37 GB Original quant method, 4-bit.

llama-2-70b.ggmlv3.q4_1.bin q4_1 4 43.17 GB 45.67 GB Original quant method, 4-bit. Higher accuracy than q4_0 but not as high as q5_0. However has quicker inference than q5 models.

llama-2-70b.ggmlv3.q4_K_M.bin q4_K_M 4 41.38 GB 43.88 GB New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q4_K

llama-2-70b.ggmlv3.q4_K_S.bin q4_K_S 4 38.87 GB 41.37 GB New k-quant method. Uses GGML_TYPE_Q4_K for all tensors

llama-2-70b.ggmlv3.q5_0.bin q5_0 5 47.46 GB 49.96 GB Original quant method, 5-bit. Higher accuracy, higher resource usage and slower inference.

llama-2-70b.ggmlv3.q5_K_M.bin q5_K_M 5 48.75 GB 51.25 GB New k-quant method. Uses GGML_TYPE_Q6_K for half of the attention.wv and feed_forward.w2 tensors, else GGML_TYPE_Q5_K

llama-2-70b.ggmlv3.q5_K_S.bin q5_K_S 5 47.46 GB 49.96 GB New k-quant method. Uses GGML_TYPE_Q5_K for all tensors

llama-2-70b.ggmlv3.q6_K.bin q6_K 6 56.59 GB 59.09 GB New k-quant method. Uses GGML_TYPE_Q8_K - 6-bit quantization - for all tensors

llama-2-70b.ggmlv3.q8_0.bin q8_0 8 73.23 GB 75.73 GB Original llama.cpp quant method, 8-bit. Almost indistinguishable from float16. High resource use and slow. Not recommended for most users.

- как видно, теперь даже 70B модель жрёт меньше, чем 65B со старой квантизацией "4 bit".

а ещё, по отзывам, фейсбук жёстко зацензурил оригинальную лламу-2, и поэтому вместо неё рекомендуется использовать модель "wizardLM".

я немного потестил 13B модели (30B ещё недоступны, а гонять 70B на процессоре - это боль), и вот результат:

квантизация q4_K_M грузится на 5 секунд быстрее, чем q4_1, и генерит текст на 0.13 слова в секунду быстрее, чем q4_1
wizardLM-13B грузится на 13 секунд быстрее, чем LLAMA2-chat-13B
wizardLM-13B и LLAMA2-chat-13B выдают одинаковую скорость генерации
(вроде бы при работе с wizardLM-13B проц на 2-3 градуса холоднее, чем с LLAMA2-chat-13B, тут не гарантирую)

по качеству генерации бреда: 13B лама и визард примерно одинаковы, бред генерят неплохо, студентам зайдёт.
по качеству генерации кода: просил написать простые скрипты на Python, генерили или совсем рандом не по теме, или сильно недоделанный код. кажется, что визард генерит код хуже, чем лама.

alex778 · 21.08.2023

Dread Pirate Roberts сказал(а):

тихо и незаметно вышла LLaMA-2, качать тут: https://huggingface.co/TheBloke/

Здрасте, она уже месяц как вышла: https://xss.pro/threads/81485/post-647909

Dread Pirate Roberts сказал(а):

по качеству генерации кода: просил написать простые скрипты на Python, генерили или совсем рандом не по теме, или сильно недоделанный код. кажется, что визард генерит код хуже, чем лама.

Не будет урезанное квантизированное поделие общего назначения хорошо кодить. Под кодинг надо специализированную сеть дотренировывать или файнтюнить, тем более инструкции как это делать уже есть:

Вообще, глядя на успех всяких "GPT для хакиров", возникает мысль сделать "Мусор-GPT" на базе учебников по криминалистике, ОРД и прочим мурсоким-чекистким наукам. Но работы тут конечно многовато для занятия этим в качестве "хобби".

Dread Pirate Roberts · 04.09.2023

тихо и незаметно вышел новый формат моделей, "GGUF": https://github.com/philpax/ggml/blob/gguf-spec/docs/gguf.md
теоретически он будет быстрее, чем GGML

GGUF is a new format introduced by the llama.cpp team on August 21st 2023. It is a replacement for GGML, which is no longer supported by llama.cpp.
The key benefit of GGUF is that it is a extensible, future-proof format which stores more information about the model as metadata. It also includes significantly improved tokenization code, including for the first time full support for special tokens. This should improve performance, especially with models that use new special tokens and implement custom prompt templates.

но есть один нюанс: новые версии llama-cpp больше не поддерживают GGML! со старыми файлами моделей придётся использовать старую версию llama-cpp.

также не менее тихо и незаметно вышла модель, натренированная для генерации кода на Python, C++, Java, PHP, JavaScript, TypeScript, C# и Bash: https://habr.com/ru/news/756798/
скачать файлы модели можно тут: https://huggingface.co/TheBloke

(только сейчас заметил, что её уже давно упомянули здесь: https://xss.pro/threads/89050/post-669720 )

как она генерит код я ещё не проверял, отпишу позже.

vadim0pv1 · 20.09.2023

Привет, я также интересуюсь проектом Dalai. Пока я не устанавливал его, но был бы признателен, если бы кто-то поделился информацией о любых ограничениях вывода. С нетерпением жду вашего опыта, чтобы понять, как этот инструмент работает

Dread Pirate Roberts · 20.09.2023

vadim0pv1 сказал(а):

Привет, я также интересуюсь проектом Dalai. Пока я не устанавливал его, но был бы признателен, если бы кто-то поделился информацией о любых ограничениях вывода. С нетерпением жду вашего опыта, чтобы понять, как этот инструмент работает

цензура в самих моделях, а не в программах для запуска моделей.

Dread Pirate Roberts · 06.03.2024

инструкция по установке локальной лламы(или аналогов) с картинками https://xss.pro/threads/109650/
я не проверял, но похоже на правду. сам пользуюсь консольной llamacpp

Whisper · 07.03.2024

Подкину про обучение кодингу, все далее написанное это мои фантазии и не более.

Модели надо учить через TDD(Test Driven Development) подход. И требовать от нее код надо в стиле тдд причем как для заранее написаных тесто так и от нее требовать тесты и код. Это основа, без этого ничего годного к использованию не получить, речь конечно же не о простейших программах.

Еще надо убедится что модель понимает SOLID и GRASP, а так же умеет им следовать при генерации. После этого от нее можно добиваться понимания более комплексных паттернов начиная с GOF, все это нам надо в основном для получения понятного для нас и легкочитаемого кода(паттерны это про контроль сложности, то есть это для того что бы нам легче было в этом ориентироватся). Это вот самый минимальный фундамент.

Далее сложный проект декомпозируем вплоть до классов, получаем подробный дизайн проекта, и идем самым простым путем.
Просим модель написать тесты для класса удовлетворяющего условие, потом просим написать сам класс и сделать проверку ранее написанными тестами. И так по нарастающей, уровни, модули.

Смысл в том что бы не просить у модели сложный проект а просить его составные части не большие чем класс, которые удовлетворяют условию единственной ответственности, при этом разрешать использовать ранее написанные классы.

Какой метод интеграции выбирать(восходящая, нисходящая, сендвич, риск)? Ну думаю тут нужно эксперементировать со всем кроме риска(это когда например есть условие что задача должна решаться не медленнее чем за х секунд, в таких случаях начинают с оптимизации кор части, что бы убедиться что проект вообще реально реализовать), остальные подходы скорее зависят от симпатий инженера.

Тема интересная но заниматься ей должен проф кодер у которого критерии качества шире чем просто работает код или нет. Все это мое имхо, с нейронками не я эксперементировал, но уверен что обучение должно быть инкрементальным и нейронка должна последовательно усвоить правила как строить код, и если в результате получится от нее добиваться кирпичиков(классов) а потом что бы она готовые кирпичики складывала в модули это уже будет большое дело. Как кодер скажу что "идеальный" код содержит много интерфейсов которые лень писать.

Вот еще что подумал, что модель надо тренить собесами, когда она уровне ответов начнет их проходить надо смотреть как она применяет все то что ответила на собесах.

Ии на ПК llama

RAID-массив

RAM

(L1) cache

RAM

(L1) cache

RAM

Премиум

(L1) cache

ripper

Премиум

(L1) cache

(L1) cache

(L1) cache

Премиум

(L1) cache

Премиум

floppy-диск

Премиум

Премиум

TPU unit