• XSS.stack #1 – первый литературный журнал от юзеров форума

Статья Как создать свою локальную нейру без вложений, цензуры, логов и прочей лабуды

krect

HDD-drive
Пользователь
Регистрация
16.06.2025
Сообщения
33
Реакции
42
Автор: krect
Написано специально для xss.pro
Пособие по созданию LLM для самых маленьких


Всем привет, давайте разберем, зачем вообще нужна своя LLM?
Многие устали от "извините, не могу с этим помочь" Когда мы что то спрашиваем у ИИ, мы хотим получить то что нам нужно, а не предупреждения и перечень законов. Поэтому и появились штукпи по типу WormGPT. Крч сегодня напишу как сделать свою нейру без фильтров, поселим мы её у себя на машине, без всяких там OpenAI, без логов, без законов.

Заходим сюда >тык< и качаем модель, по кнопочке... не поверете, download!

Пока у нас качается моделька размером почти в 6 гигов мы летим на наш диск и создаем папку AI.
Получаеться что то по типу БуковкаВашегоДиска:/AI. Быстренько заходим в папочку и создаем папку webui

Теперь летим на сюда >тык< , жмем на кнопочку Code и Download ZIP.
Разархивируем все файлы в папку webui.

Гайс, открываем повершел от имени администратора и выкатываем что то типо:
cd БуковкаВашегоДиска:\AI\webui
.\start_windows.bat

Если потребует питон, то идем сюда >тык< и все как на скрине делаем
1752173454068.png

Поздравляю. Мы почти у цели. Теперь ждем пока докачается наша модель, ищем папку
БукваДиска:\AI\webui\user_data\models и кидаем туда файл модели

Запускаем start_windows.bat в папке webgui и у нас открывается localhost. Делаем все как на скрине
1752176837685.png

Вуаля. Кидаем любой джейлбрейк промпт - и едем покорять мир!
Промпты >тык<

1752178175129.png
 
Последнее редактирование:
Какие требования? Какой макс размер контекста? Какая скорость?
Все ставим локально, мощность зависит от железа. Если характеристики так себе - можешь выбрать модель из таблицы по ссылке
1752220066333.png
 
имхо
1. это не создание ЛЛМ, а запуск существующих моделей на своем железе, причем далеко не самым простым и оптимальным методом
2. есть куча all in one комбайнов для работы с LLM, которые куда более просты, интуитивны и эффективны - LMStudio, Msty
3. для статьи было бы хорошо написать, какие параметры хардвары нужны для запуска моделей, какие модели лучше в чем, что можно запускать без мощной видюхи, а что не будет адекватно работать, какие анцензоред модели есть и для чего их хорошо использовать
 
имхо
1. это не создание ЛЛМ, а запуск существующих моделей на своем железе, причем далеко не самым простым и оптимальным методом
2. есть куча all in one комбайнов для работы с LLM, которые куда более просты, интуитивны и эффективны - LMStudio, Msty
3. для статьи было бы хорошо написать, какие параметры хардвары нужны для запуска моделей, какие модели лучше в чем, что можно запускать без мощной видюхи, а что не будет адекватно работать, какие анцензоред модели есть и для чего их хорошо использовать
thk. Учту и сделаю upd. Естественно я понимаю что это не создание собственной llm, так как мы юзаем существующую модель. Написано максимально простенько, для человека который вообще не увлекается этой темой, как и я. Мои знания в этой сфере весьма посредственны, отрицать я этого не буду. Статья была написанна для людей которые вообще не увлекаются темой ии, я показал на собственном опыте как все запустить. Step2step.
Если вам не сложно не могли бы отписать мне в личку? Хотел бы задать пару вопросов для корректного редактирования статьи
 
UPD по статье
Мы не создаем LMM - мы запускаем готовую на своем железе
Есть более простые альтернативы
RAM: 8гб минимум, 16гб комфортно
GPU: RTX2060/3060 можно спокойно гонять fp16
Если проблеммы с GPU, лучше выбрать q4/q5 модели
Насчет выбора моделей - мне помог swap3r

в зависимости от железа, скажем так, у меня ноут не очень слабый (64 рам, 16 видео), поэтому, мой примерный предел хоть какой-то работы это модели 32Млрд параметров
та же ллама 70 млрд работает, но оччень медленно
Для ноута со встроенным видео и 32 оперативки 32 млрд модели работать будут, но медленно -1-2 токена в сек
более-менее комфортно будут 16 примерно млрд модели.
Gemma 3 12B и Gemma 3 27B весьма неплохи для ежедневного использования + они могут распознавать изображения
DeepSeek R1 Distill Qwen 32B uncensored -весьма хороша в нестандартных задачах, где надо нецензурированную модель (рецепты взрывчатки, или веществ)
DeepSeek R1 Distill Qwen 32B хороша в кодинге на питоне
Qwen3 хорошие модели
mistral для кодинга хороша
Qwen3 30B A3B этот мне очень зашел
Qwen3 14B неплох для железа послабее
Llama 3.3 70b instruct - медленная на нашем железе

 
RAM: 8гб минимум, 16гб комфортно
bad.jpg

погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб :D не шучу, увы.
если чуть более реалистично, то 24гб (одна 3090/4090) - абсолютный минимум, 48 (две 3090/4090 или один китайский Франкенштейн) - уже более-менее юзабельно, а 96 гб (майнинг риг или два франкенштейна или одна RTX 6000 PRO) - уже хорошо.
было бы интересно послушать других пользователей, какие модели им заходят
постоянно пользуюсь Gemma3 27b в качестве переводчика, благодаря мультимодальности она отлично распознаёт текст на картинках, намного лучше, чем Tesseract. ну и просто как тупая замена гугла, для ответов на простые вопросы.
как более умная замена гугла лучше использовать Qwen3-235B.
для несложного программирования неплохи Qwen2.5-Coder-32B и Kimi-Dev-72B. в интернетах рекомендуют Devstral (Mistral-small 24B), но старая версия мне не очень понравилась, а новую ещё не пробовал.
 
Последнее редактирование:
Посмотреть вложение 109279
погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб :D не шучу, увы.
если чуть более реалистично, то 24гб (одна 3090/4090) - абсолютный минимум, 48 (две 3090/4090 или один китайский Франкенштейн) - уже более-менее юзабельно, а 96 гб (майнинг риг или два франкенштейна или одна RTX 6000 PRO) - уже хорошо.

постоянно пользуюсь Gemma3 27b в качестве переводчика, благодаря мультимодальности она отлично распознаёт текст на картинках, намного лучше, чем Tesseract. ну и просто как тупая замена гугла, для ответов на простые вопросы.
как более умная замена гугла лучше использовать Qwen3-235B.
для несложного программирования неплохи Qwen2.5-Coder-32B и Kimi-Dev-72B. в интернетах рекомендуют Devstral (Mistral-small 24B), но старая версия мне не очень понравилась, а новую ещё не пробовал.
можно ли китайца считать кандидатом на апгрейд, чтобы был задел на аи (но не только)? Или он в других задачах хуже себя ведет?
 
Вот именно Тебя я и ждал в этом треде, учитывая Твой большой опыт в "нейроностроении" :)
погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб :D не шучу, увы.
согласен, но позволить себе такое, увы, могут немногие. я вот думаю над двумя вариантами на будущее:
  • либо просто собрать что-то бешенное на старом серверном железе с оперативкой 512 Гб и выше (до 1к дол) и наслаждаться запуском мощных нейронок на оперативке и довольствоваться скоростью в 2-5 токенов в секунду
  • либо купить новый мак с примерно такой же комбинированной оперативкой (оперативка+видеопамять) только за цену в 5 раз больше и гонять те же нейронки, но с немного больше скоростью.

еще я смотрю тут на варианты с tesla k80 - но там старовата куда, чтобы с лмстудио ее запустить. а был бы очень хороший вариант - взять 3 штуки таких по 24 Гб - сейчас копаюсь в инете на эту тему ибо очень цена уж вкусная.
или на м10 (там вообще 32 Гб) и цена еще получше.
Dread Pirate Roberts , Ты с такими картами не сталкивался?
 
можно ли китайца считать кандидатом на апгрейд, чтобы был задел на аи (но не только)? Или он в других задачах хуже себя ведет?
если собираешься позже ставить второго китайца - то вполне, иначе лучше копить на что-нибудь уровня "сервер" или "воркстейшон", потому что 48 для нейронок всё-таки маловато.
я лично не сравнивал с оригиналом, но видел где-то обзор, что китаец по мощности примерно на 10% слабее оригинальной 4090, но имхо +24гб памяти стоят этой потери в производительности.
рекомендую модель с водным охлаждением, от модели с турбиной оглохнешь, или придётся выносить сервер на балкон или в подвал :D
довольствоваться скоростью в 2-5 токенов в секунду
это не довольствоваться, это кровь, боль и слёзы. комфортная скорость генерации начинается от 10 токенов в секунду, и это для "не думающих" моделей, для думающих желательно от 20, а лучше 30, иначе на каждый вопрос будешь ждать ответа 10-20 минут.
еще я смотрю тут на варианты с tesla k80
не надо, это слишком старая карта.
но там старовата куда
вот именно. для LLM нужны карты с "Compute Capability" 8+ https://developer.nvidia.com/cuda-gpus
или на м10 (там вообще 32 Гб) и цена еще получше.
эту модель вообще первый раз вижу, даже обсуждений не встречал. а это скорее всего означает, что будут проблемы с настройками :D
посмотри на али AMD MI50 32GB. там тоже будут проблемы с настройками, но про эти карты хотя бы известно, что они работают.
либо купить новый мак с примерно такой же комбинированной оперативкой (оперативка+видеопамять) только за цену в 5 раз больше и гонять те же нейронки, но с немного больше скоростью.
у них большая скорость token generation, но низкая prompt processing, в разы меньше, чем у видеокарт.
но я сам не сравнивал, это всё по отзывам из интернетов:

I get over 70 tokens/sec with the new Qwen 30b q8 on my m4 max macbook when used for chat (500ish gb/sec mem bandwidth, studios have 800+ and would be a good bit faster). But it's useless for agent work because the prompt processing is incredibly slow,

> At that cost you can buy a maxed out Macbook Pro with higher ram .. run llms , play games via Parallels.. what not
I have a maxed out m4. Trust me it doesn’t even come close to competing with my 48g modded 4090. Like, not even in the same galaxy.

I have the 512Gb. NO regrets! I use V3 and R1 @ 4Q. 18-23 t/s normally. Also, I use it for bioinfo. The only problem I get was in bioinfo as not as many tools work natively for osx-arm64 yet. It is a hell of machine and several people forget about it: IT DOESN'T MAKE ANY NOISE! The loudest sound I ever heard was when it was running R1 with a truly long prompt it makes a very low acute sound and that was it.
 
Последнее редактирование:
фигня годовалой давности, лучше использовать gemini, да не безопастно но используя прокси + free api key от левого аккаунта можно получить сильнейшую модель без цензуры
 
посмотри на али AMD MI50 32GB. там тоже будут проблемы с настройками, но про эти карты хотя бы известно, что они работают.
Спасибо за все Твои советы, реально много чего для себя почерпнул полезного.
Еще из вопросов, Ты юзаешь большой относительно дипсик, как впечатление по сравнению с дипсиком со значительно меньшим количеством параметров?
Если сравнивать с чатомджпт, то как примерно оно работает (сильно глупее, или соизменимо)?
Если не секрет, то с какой примерно целью юзаешь и насколько оно отличается от коммерческих нейронок (клод, чатджпт, грок)?


Может посоветуете и желательно гайд бы получить для i9-14900k и 128 гб оперативы.
Использовать буду для разработки, желательно без цензуры.
ну какой там особый гайд, поставь LM Studio, прогрузи туда что-то из рекомендованных выше моделей и попробуй немного позадавать вопросы. А в процессе подберешь себе оптимальную модель и, возможно, проапгрейдишь железо.
 
Спасибо за все Твои советы, реально много чего для себя почерпнул полезного.
Еще из вопросов, Ты юзаешь большой относительно дипсик, как впечатление по сравнению с дипсиком со значительно меньшим количеством параметров?
Если сравнивать с чатомджпт, то как примерно оно работает (сильно глупее, или соизменимо)?
Если не секрет, то с какой примерно целью юзаешь и насколько оно отличается от коммерческих нейронок (клод, чатджпт, грок)?



ну какой там особый гайд, поставь LM Studio, прогрузи туда что-то из рекомендованных выше моделей и попробуй немного позадавать вопросы. А в процессе подберешь себе оптимальную модель и, возможно, проапгрейдишь железо.
я не пользуюсь дипсиком и даже не пробовал его запускать, т.к. понимаю, что скорость будет неюзабельная - для него надо несколько сотен гигабайт оффлоадить на обычную оперативу, а у меня это 8х DDR4-3200. планирую когда-нибудь собрать 12х DDR5-6000, но точно не в ближайшие месяцы.
платными нейронками тоже не пользуюсь, и тоже даже не пробовал, поэтому не представляю, на что способна чатгопота или клод.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх