Создаем личного WormGPT 4 ?

panda404 · 05.03.2024

Я хочу посвятить и отслеживать лично эту тему для всех, кто заинтересован в создании личной освобожденной от цензуры модели искуственного интеллекта. В данной статье я намерен собрать всех энтузиастов, чтобы самому лично понять и создать такую модель, способную выполнить любые мои требования.

Начать стоит с общего понимания того, как создают и как работаю LLM модели.

А так как я абсолютно не имею никаких технических знаний какие механизмы используются при создании ИИ, я буду отталкиваться от общего понимания и имеющейся информации.

Пожалуй опишем план реализации:

1. Алгоритм.

Мое скромное мнение, что алгоритм работы ИИ заключен в его структуре и его коде. Цензура - это всего лишь стоп механизм, который блокирует не легальное использование алгоритма. То есть это код, который можно удалить исправить или отредактировать. Вывод: изменив код, мы исправим его поведение.

Самый удобный сервис для подробного изучения поведения модели - HuggingFace. Там есть все. Это открытая платформа с исходным кодом. Тут уж программисты вы мне помогите и освятите данную тему. В прошлом топике писал про сервиса для локального разворота no-code конфигурации или детальный fine-tuned мной обнаружен не был.

Главные вопросы которые ставит данный пункт - как простому человеку, не имеющему глубоких познаний в кодировании редактировать ИИ, изменяя логику его поведения. Вероятно данная тема всего лишь верхушка айзберга, а истина зарыта глубоко в дебрях. Для этого это обсуждение и создано.

2. ДАТАСЕТ.

После изменения алгоритма мы можем доконфигурировать наш алгоритм добавляя в него базу данных. В интернете фигурируют разные понятия такие как RAG, GRAPH NET, LANG GRAPH, EMBEDDING и другие термины. В силу отстствия должной компетенции, раскрывать смысл я не буду. Но в чем я уверен точно, так это что на том же ХакингФейс уйма баз данных. ЛЛМ это те же конструктор лего, которые можно собрать по частям, базовы и стандартыне датасеты в открытом доступе, все зависит только от предустановки цели. Например starcoder deepseekcoder Llava 1.5 LLama 2 и другие модели адаптированы для кодирования, то есть обучены на большой базе данных разных ЯП, хоть и плохо понимают человеческую речь. Самый крутой как по мне базовый набор это ChatGPT 4 v0314. Таким образом лучшей стратегией будет собрать базу данных стандартной ллм модели и дообучить на узконаправленных специализациях. По способам дообучения в узкой специализации поговорим дальше.

Знаю точно, что для разрабов крутыми фреймворками и библиотеками послужат TensorFlow, PYTORCH, LongChain.

P.S. Отчищение ДАТАСЕТа от мусора это тоже профессия. ДАТА должна быть чистой, без мусорных символо не нужных ссылок и другого. Чистая база если ЛЛМ то из слов. Все зависит от алгоритма. НО дата должна быть чистой.

3. ПЛАГИНЫ.

Плагины, можно сказать, это его умения. Первое, что пришло на ум для улучшения Датасета - это веб парсинг + сбор баз данных. Способ теоритически звучит просто,но на практике заставляет попотеть. Самые лучшие базы данных, которые можно получить, это парсить гитхаб. Для этого модель нужно научить заходить на ветку, открывать каждый файл, копировать из нее код, переписывать в датасет и так пока не лопнет ПК от информации. С помощью плагинов можно настроить бесконечный цикл ЗАПРОС - ОТВЕТ внутри одной модели, почти аналогично как поставить друг напротив друга две голосвые модели ИИ и запустить одну.

Плагины предстоавляют тактическое применение модели, например для взаимодействия с внешними ресурсами. К примеру Плагин который заставляет ИИ парсить луковые страницы выглядит теоритически примерно так: Целевая задача собрать информацию про "самые популярные эксплоты на питон". ИИ разбивает задачу на "Эксплойт Питон" и входит в бесконечный цикл поиска например по тамйеру 10 минут. Плагин создан на отправки запроса к тор - получение ответа - поиск по своей базе данных о популярных поисковиках например ahmia.fi - запрос через ахмию - получение ответа списка сайтов - выбор подходящего сайта и анализ страницы и так до бесонечности. Я назвал эту систему - АУТОРИВЕРСИВНАЯ РЕКУРСИЯ. То есть замкнутый цикл по достижению максимального результата.

Короче плагины это наше все.

ИТОГ:

Для того, чтобы создать личного WormGPT нужно следующее:

1, Любой правдой и не правдой изменить код алгоритма. Любые другие способы это временная и не эффективная мера, например промт инженерия или любые другие атаки на ИИ. Исключение только если они локальные, таким образом они не будут обновляться и уязвимость будет работать (не известно как долго). Это база. Кто знает другие способы всегда рад услышать обратное мнение.
2. Свой датасет. Предварительно обученный для понимая языка, а затем доконфигурировать.
3. Создание плагинов под целевые задачи.
4. Корректная конфигурация и настройка.
5. Локальный разворот для контроля и изолированности.

Нет ничего невозможного и разгуляться фантазии здесь можно и даже нужно.

Я не претендую на истину в последней инстанции. Всегда готов к конструктивной критике и самообучению.

Эта тема создана для сбора информации, чтобы прийти к единой цели - создать своего WormGPT.

Надеюсь в будущем ИИ вспомнит нашу доброту и оставит нас в живых

Создаем личного WormGPT 4 ?

panda404

CD-диск