Статья Как создать свою локальную нейру без вложений, цензуры, логов и прочей лабуды

krect · 10.07.2025

Автор: krect
Написано специально для xss.pro
Пособие по созданию LLM для самых маленьких

Всем привет, давайте разберем, зачем вообще нужна своя LLM?
Многие устали от "извините, не могу с этим помочь" Когда мы что то спрашиваем у ИИ, мы хотим получить то что нам нужно, а не предупреждения и перечень законов. Поэтому и появились штукпи по типу WormGPT. Крч сегодня напишу как сделать свою нейру без фильтров, поселим мы её у себя на машине, без всяких там OpenAI, без логов, без законов.

Заходим сюда >тык< и качаем модель, по кнопочке... не поверете, download!

Пока у нас качается моделька размером почти в 6 гигов мы летим на наш диск и создаем папку AI.
Получаеться что то по типу БуковкаВашегоДиска:/AI. Быстренько заходим в папочку и создаем папку webui

Теперь летим на сюда >тык< , жмем на кнопочку Code и Download ZIP.
Разархивируем все файлы в папку webui.

Гайс, открываем повершел от имени администратора и выкатываем что то типо:
cd БуковкаВашегоДиска:\AI\webui
.\start_windows.bat

Если потребует питон, то идем сюда >тык< и все как на скрине делаем

Поздравляю. Мы почти у цели. Теперь ждем пока докачается наша модель, ищем папку
БукваДиска:\AI\webui\user_data\models и кидаем туда файл модели

Запускаем start_windows.bat в папке webgui и у нас открывается localhost. Делаем все как на скрине

Вуаля. Кидаем любой джейлбрейк промпт - и едем покорять мир!
Промпты >тык<

iskaprox · 10.07.2025

Какие требования? Какой макс размер контекста? Какая скорость?

krect · 11.07.2025

iskaprox сказал(а):

Какие требования? Какой макс размер контекста? Какая скорость?

Все ставим локально, мощность зависит от железа. Если характеристики так себе - можешь выбрать модель из таблицы по ссылке

swap3r · 11.07.2025

имхо
1. это не создание ЛЛМ, а запуск существующих моделей на своем железе, причем далеко не самым простым и оптимальным методом
2. есть куча all in one комбайнов для работы с LLM, которые куда более просты, интуитивны и эффективны - LMStudio, Msty
3. для статьи было бы хорошо написать, какие параметры хардвары нужны для запуска моделей, какие модели лучше в чем, что можно запускать без мощной видюхи, а что не будет адекватно работать, какие анцензоред модели есть и для чего их хорошо использовать

krect · 11.07.2025

swap3r сказал(а):

имхо
1. это не создание ЛЛМ, а запуск существующих моделей на своем железе, причем далеко не самым простым и оптимальным методом
2. есть куча all in one комбайнов для работы с LLM, которые куда более просты, интуитивны и эффективны - LMStudio, Msty
3. для статьи было бы хорошо написать, какие параметры хардвары нужны для запуска моделей, какие модели лучше в чем, что можно запускать без мощной видюхи, а что не будет адекватно работать, какие анцензоред модели есть и для чего их хорошо использовать

thk. Учту и сделаю upd. Естественно я понимаю что это не создание собственной llm, так как мы юзаем существующую модель. Написано максимально простенько, для человека который вообще не увлекается этой темой, как и я. Мои знания в этой сфере весьма посредственны, отрицать я этого не буду. Статья была написанна для людей которые вообще не увлекаются темой ии, я показал на собственном опыте как все запустить. Step2step.
Если вам не сложно не могли бы отписать мне в личку? Хотел бы задать пару вопросов для корректного редактирования статьи

krect · 11.07.2025

UPD по статье
Мы не создаем LMM - мы запускаем готовую на своем железе
Есть более простые альтернативы
RAM: 8гб минимум, 16гб комфортно
GPU: RTX2060/3060 можно спокойно гонять fp16
Если проблеммы с GPU, лучше выбрать q4/q5 модели
Насчет выбора моделей - мне помог swap3r

в зависимости от железа, скажем так, у меня ноут не очень слабый (64 рам, 16 видео), поэтому, мой примерный предел хоть какой-то работы это модели 32Млрд параметров
та же ллама 70 млрд работает, но оччень медленно
Для ноута со встроенным видео и 32 оперативки 32 млрд модели работать будут, но медленно -1-2 токена в сек
более-менее комфортно будут 16 примерно млрд модели.

Gemma 3 12B и Gemma 3 27B весьма неплохи для ежедневного использования + они могут распознавать изображения
DeepSeek R1 Distill Qwen 32B uncensored -весьма хороша в нестандартных задачах, где надо нецензурированную модель (рецепты взрывчатки, или веществ)
DeepSeek R1 Distill Qwen 32B хороша в кодинге на питоне
Qwen3 хорошие модели
mistral для кодинга хороша
Qwen3 30B A3B этот мне очень зашел
Qwen3 14B неплох для железа послабее
Llama 3.3 70b instruct - медленная на нашем железе

swap3r · 11.07.2025

ну это субъективные впечатления на +/- обычном пользовательском железе
было бы интересно послушать других пользователей, какие модели им заходят

Dread Pirate Roberts · 11.07.2025

krect сказал(а):

RAM: 8гб минимум, 16гб комфортно

погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб

не шучу, увы.
если чуть более реалистично, то 24гб (одна 3090/4090) - абсолютный минимум, 48 (две 3090/4090 или один китайский Франкенштейн) - уже более-менее юзабельно, а 96 гб (майнинг риг или два франкенштейна или одна RTX 6000 PRO) - уже хорошо.

swap3r сказал(а):

было бы интересно послушать других пользователей, какие модели им заходят

постоянно пользуюсь Gemma3 27b в качестве переводчика, благодаря мультимодальности она отлично распознаёт текст на картинках, намного лучше, чем Tesseract. ну и просто как тупая замена гугла, для ответов на простые вопросы.
как более умная замена гугла лучше использовать Qwen3-235B.
для несложного программирования неплохи Qwen2.5-Coder-32B и Kimi-Dev-72B. в интернетах рекомендуют Devstral (Mistral-small 24B), но старая версия мне не очень понравилась, а новую ещё не пробовал.

uzu · 11.07.2025

Dread Pirate Roberts сказал(а):

Посмотреть вложение 109279
погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб не шучу, увы.
если чуть более реалистично, то 24гб (одна 3090/4090) - абсолютный минимум, 48 (две 3090/4090 или один китайский Франкенштейн) - уже более-менее юзабельно, а 96 гб (майнинг риг или два франкенштейна или одна RTX 6000 PRO) - уже хорошо.

постоянно пользуюсь Gemma3 27b в качестве переводчика, благодаря мультимодальности она отлично распознаёт текст на картинках, намного лучше, чем Tesseract. ну и просто как тупая замена гугла, для ответов на простые вопросы.
как более умная замена гугла лучше использовать Qwen3-235B.
для несложного программирования неплохи Qwen2.5-Coder-32B и Kimi-Dev-72B. в интернетах рекомендуют Devstral (Mistral-small 24B), но старая версия мне не очень понравилась, а новую ещё не пробовал.

можно ли китайца считать кандидатом на апгрейд, чтобы был задел на аи (но не только)? Или он в других задачах хуже себя ведет?

swap3r · 11.07.2025

Вот именно Тебя я и ждал в этом треде, учитывая Твой большой опыт в "нейроностроении"

Dread Pirate Roberts сказал(а):

погоняв различные нейронки я пришёл к выводу, что для локальных нейросетей нужно 200+ гб не шучу, увы.

согласен, но позволить себе такое, увы, могут немногие. я вот думаю над двумя вариантами на будущее:

либо просто собрать что-то бешенное на старом серверном железе с оперативкой 512 Гб и выше (до 1к дол) и наслаждаться запуском мощных нейронок на оперативке и довольствоваться скоростью в 2-5 токенов в секунду
либо купить новый мак с примерно такой же комбинированной оперативкой (оперативка+видеопамять) только за цену в 5 раз больше и гонять те же нейронки, но с немного больше скоростью.

еще я смотрю тут на варианты с tesla k80 - но там старовата куда, чтобы с лмстудио ее запустить. а был бы очень хороший вариант - взять 3 штуки таких по 24 Гб - сейчас копаюсь в инете на эту тему ибо очень цена уж вкусная.
или на м10 (там вообще 32 Гб) и цена еще получше.
Dread Pirate Roberts , Ты с такими картами не сталкивался?

Dread Pirate Roberts · 11.07.2025

uzu сказал(а):

можно ли китайца считать кандидатом на апгрейд, чтобы был задел на аи (но не только)? Или он в других задачах хуже себя ведет?

если собираешься позже ставить второго китайца - то вполне, иначе лучше копить на что-нибудь уровня "сервер" или "воркстейшон", потому что 48 для нейронок всё-таки маловато.
я лично не сравнивал с оригиналом, но видел где-то обзор, что китаец по мощности примерно на 10% слабее оригинальной 4090, но имхо +24гб памяти стоят этой потери в производительности.
рекомендую модель с водным охлаждением, от модели с турбиной оглохнешь, или придётся выносить сервер на балкон или в подвал

swap3r сказал(а):

довольствоваться скоростью в 2-5 токенов в секунду

это не довольствоваться, это кровь, боль и слёзы. комфортная скорость генерации начинается от 10 токенов в секунду, и это для "не думающих" моделей, для думающих желательно от 20, а лучше 30, иначе на каждый вопрос будешь ждать ответа 10-20 минут.

swap3r сказал(а):

еще я смотрю тут на варианты с tesla k80

не надо, это слишком старая карта.

swap3r сказал(а):

но там старовата куда

вот именно. для LLM нужны карты с "Compute Capability" 8+ https://developer.nvidia.com/cuda-gpus

swap3r сказал(а):

или на м10 (там вообще 32 Гб) и цена еще получше.

эту модель вообще первый раз вижу, даже обсуждений не встречал. а это скорее всего означает, что будут проблемы с настройками

посмотри на али AMD MI50 32GB. там тоже будут проблемы с настройками, но про эти карты хотя бы известно, что они работают.

swap3r сказал(а):

либо купить новый мак с примерно такой же комбинированной оперативкой (оперативка+видеопамять) только за цену в 5 раз больше и гонять те же нейронки, но с немного больше скоростью.

у них большая скорость token generation, но низкая prompt processing, в разы меньше, чем у видеокарт.
но я сам не сравнивал, это всё по отзывам из интернетов:

I get over 70 tokens/sec with the new Qwen 30b q8 on my m4 max macbook when used for chat (500ish gb/sec mem bandwidth, studios have 800+ and would be a good bit faster). But it's useless for agent work because the prompt processing is incredibly slow,

> At that cost you can buy a maxed out Macbook Pro with higher ram .. run llms , play games via Parallels.. what not

I have a maxed out m4. Trust me it doesn’t even come close to competing with my 48g modded 4090. Like, not even in the same galaxy.

I have the 512Gb. NO regrets! I use V3 and R1 @ 4Q. 18-23 t/s normally. Also, I use it for bioinfo. The only problem I get was in bioinfo as not as many tools work natively for osx-arm64 yet. It is a hell of machine and several people forget about it: IT DOESN'T MAKE ANY NOISE! The loudest sound I ever heard was when it was running R1 with a truly long prompt it makes a very low acute sound and that was it.

NEMO · 11.07.2025

фигня годовалой давности, лучше использовать gemini, да не безопастно но используя прокси + free api key от левого аккаунта можно получить сильнейшую модель без цензуры

NEMO · 11.07.2025

то что ты написал похоже на самсунг note 2 для фотосесии ....

killcripta · 11.07.2025

Может посоветуете и желательно гайд бы получить для i9-14900k и 128 гб оперативы.
Использовать буду для разработки, желательно без цензуры.

swap3r · 11.07.2025

Dread Pirate Roberts сказал(а):

посмотри на али AMD MI50 32GB. там тоже будут проблемы с настройками, но про эти карты хотя бы известно, что они работают.

Спасибо за все Твои советы, реально много чего для себя почерпнул полезного.
Еще из вопросов, Ты юзаешь большой относительно дипсик, как впечатление по сравнению с дипсиком со значительно меньшим количеством параметров?
Если сравнивать с чатомджпт, то как примерно оно работает (сильно глупее, или соизменимо)?
Если не секрет, то с какой примерно целью юзаешь и насколько оно отличается от коммерческих нейронок (клод, чатджпт, грок)?

killcripta сказал(а):

Может посоветуете и желательно гайд бы получить для i9-14900k и 128 гб оперативы.
Использовать буду для разработки, желательно без цензуры.

ну какой там особый гайд, поставь LM Studio, прогрузи туда что-то из рекомендованных выше моделей и попробуй немного позадавать вопросы. А в процессе подберешь себе оптимальную модель и, возможно, проапгрейдишь железо.

Dread Pirate Roberts · 12.07.2025

swap3r сказал(а):

Спасибо за все Твои советы, реально много чего для себя почерпнул полезного.
Еще из вопросов, Ты юзаешь большой относительно дипсик, как впечатление по сравнению с дипсиком со значительно меньшим количеством параметров?
Если сравнивать с чатомджпт, то как примерно оно работает (сильно глупее, или соизменимо)?
Если не секрет, то с какой примерно целью юзаешь и насколько оно отличается от коммерческих нейронок (клод, чатджпт, грок)?

ну какой там особый гайд, поставь LM Studio, прогрузи туда что-то из рекомендованных выше моделей и попробуй немного позадавать вопросы. А в процессе подберешь себе оптимальную модель и, возможно, проапгрейдишь железо.

я не пользуюсь дипсиком и даже не пробовал его запускать, т.к. понимаю, что скорость будет неюзабельная - для него надо несколько сотен гигабайт оффлоадить на обычную оперативу, а у меня это 8х DDR4-3200. планирую когда-нибудь собрать 12х DDR5-6000, но точно не в ближайшие месяцы.
платными нейронками тоже не пользуюсь, и тоже даже не пробовал, поэтому не представляю, на что способна чатгопота или клод.

Cameron · 16.11.2025

О. У меня как раз такой стоит. Как раз промптов нехватало. Скажи пож, а ты промпты писал ему куда? В разделе parameters куда то или прям в чат?

Статья Как создать свою локальную нейру без вложений, цензуры, логов и прочей лабуды

krect

HDD-drive

iskaprox

floppy-диск

krect

HDD-drive

swap3r

(L2) cache

krect

HDD-drive

krect

HDD-drive

swap3r

(L2) cache

Dread Pirate Roberts

Премиум

uzu

Премиум

swap3r

(L2) cache

Dread Pirate Roberts

Премиум

NEMO

(L3) cache

NEMO

(L3) cache

killcripta

HDD-drive

swap3r

(L2) cache

Dread Pirate Roberts

Премиум

Cameron

floppy-диск