Как работает AI?

Russian_Coder · 03.03.2024

Как работает AI?

DOBrovolec · 07.03.2024

Попробуй и узнаешь,есть много вариаций логики ии.привет кст

alex778 · 09.03.2024

Собирается корпус текста, чистится, токенизируется хитрым способом, например BPE (это как ленивый чертила студент-математик придумал бы замену разбивки слов на слоги, потому что ему было влом заниматься фонетикой-лингвистикой, но оно работает). Дальше токены векторизуются в многомерный контекстный вектор, размер которого это и есть то, чем понтуются друг перед другом разработчики нейронок. Первый рабочий метод векторизации назывался word2vec, сейчас может использоваться скажем BERT. Обобщённо вся эта наука называется seq2seq - трансляция последовательности в подследовательность. В этом вся суть "мышления". Так вот, на этом этапе уже можно срать предложениями, примерно как дорвеегенератор в 2002-м году, работающий на марковских цепях. Но в отличие от дорвейщиков, учоные допёрли до этого уровня только к 2013-му году. Дальше лет 5 пытались вылечить проблему, что нейронка быстро забывала, что там у неё уже написано, придумали даже "память" для нейронок, типа LSTM и GRU. На этом этапе уже работал нормально перевод текстов и распознавание речи в гуглах-яндексах. Дальше вместо "памяти", придумали как маскировать часть нагенерённого текста (умножать часть матрицы на ноль) и эту маску использовать при генерации, это называется attention - "внимание". Это уровень 2017-го года - GPT-1. А дальше поверх уже нагенерённого текста придумали делать проверку "агентами", то есть нейросеть сама у себя как бы спрашивает, насколько хорош текст и выбирает лучший вариант. Это 2023-й год, в ChatGPT-3 этих агентов около сотни-двух. Примерно вот так сейчас работает AI. Тот что есть в паблике.

smuggling · 14.03.2024

alex778 сказал(а):

Собирается корпус текста, чистится, токенизируется хитрым способом, например BPE (это как ленивый чертила студент-математик придумал бы замену разбивки слов на слоги, потому что ему было влом заниматься фонетикой-лингвистикой, но оно работает). Дальше токены векторизуются в многомерный контекстный вектор, размер которого это и есть то, чем понтуются друг перед другом разработчики нейронок. Первый рабочий метод векторизации назывался word2vec, сейчас может использоваться скажем BERT. Обобщённо вся эта наука называется seq2seq - трансляция последовательности в подследовательность. В этом вся суть "мышления". Так вот, на этом этапе уже можно срать предложениями, примерно как дорвеегенератор в 2002-м году, работающий на марковских цепях. Но в отличие от дорвейщиков, учоные допёрли до этого уровня только к 2013-му году. Дальше лет 5 пытались вылечить проблему, что нейронка быстро забывала, что там у неё уже написано, придумали даже "память" для нейронок, типа LSTM и GRU. На этом этапе уже работал нормально перевод текстов и распознавание речи в гуглах-яндексах. Дальше вместо "памяти", придумали как маскировать часть нагенерённого текста (умножать часть матрицы на ноль) и эту маску использовать при генерации, это называется attention - "внимание". Это уровень 2017-го года - GPT-1. А дальше поверх уже нагенерённого текста придумали делать проверку "агентами", то есть нейросеть сама у себя как бы спрашивает, насколько хорош текст и выбирает лучший вариант. Это 2023-й год, в ChatGPT-3 этих агентов около сотни-двух. Примерно вот так сейчас работает AI. Тот что есть в паблике.

А с рисунками и видео как? Музыкой? Спасибо

alex778 · 14.03.2024

smuggling сказал(а):

А с рисунками и видео как? Музыкой? Спасибо

Чтобы нейронки научились видеть, сначала создали архитектуру, копирующую работу визуальной коры мозга - свёрточную нейросеть (CNN). И это было не так чтобы быстро, саму архитектуру аж в 1980м году придумал один японец, про которого сейчас никто не помнит, потом в 90-е появился такой мужичок - Ян Лекун, который и считается "батей" машинного зрения, именно он собрал все медальки и премии в отрасли. А запустилась "весна ии" ещё через 15 лет, только в 2010-х, когда машина превзошла человека в угадывании нарисованных цифр. Свёрточная сеть позволяет правильно читать изображения, выделять признаки, с которыми дальше можно работать - классифицировать их (это собственно всё то, чем занимаются классические нейронки). Для рисования картинок по описанию нужно как минимум две разные нейросети, одна это обученный на изображениях с описаниями энкодер текста (например, CLIP) в семантический вектор - "латентное пространство", который классифицирует любую картинку+описание в виде скрытых признаков. Тренируется это просто как архиватор-автоэнкодер из картинок с описаниями. Другая сеть это генеративная нейросеть (U-Net), которая постадийно создаёт картинку из результатов работы первой сети, заменяя на какой-то процент шум на пиксели и так формируя изображение. Этот процесс видно в некоторых рисовалках как появление картинки из мути. Аудио просто преобразуется из wav'а в изображение аудиоспектра и дальше с ним работают как с картинкой, например, замена голоса это тот же перенос стиля. Видео тупо разбивается на кадры, и с каждым кадром работают отдельно. Как создаются последовательности кадров в Sora и подобных штуках - пока не вникал, думаю для тренировки сети просто сначала печатаются кадрики на большом "холсте", а потом заставляют на выходе получить их же. То есть автоэнкодер натренирован не на 1 кадр, а на серию. Потому для работы этой штуки нужен суперкомпьютер с кучей памяти.

alex778 · 18.03.2024

alex778 сказал(а):

Это 2023-й год

Подъехали новости из 2024 - Илон Маск выложил в паблик Grok, модель на 314 миллиардов параметров без цензуры:

grok-1

Grok-1 is a 314B parameter Mixture of Experts model - Base model (not finetuned) - 8 experts (2 active) - 86B active parameters - Apache 2.0 license - Code: - Happy coding! p.s. we re hiring: , Info Hash: 5f96d43576e3d386c9ba65b883210a393b68210e

academictorrents.com

Устройство и как работает описывается тут:

here's your DEEP DIVE into @grok's architecture!
I just went through the https://t.co/8Y5cjeImg6, for this 314B open source behemoth with *no strings attached*.

👇🧵 pic.twitter.com/CraHKGqILe
— andrew gao (@itsandrewgao) March 17, 2024

Для запуска потребуется "комп" с 5 NVIDIA H100.

ЗЫ: я же писал, что нет смысла искать способы обдурить зацензуренные закрытые приблуды, что их утопят конкуренты, ну вот - это оно самое.

Как работает AI?

Russian_Coder

(L2) cache

DOBrovolec

HDD-drive

alex778

(L1) cache

smuggling

better be good

alex778

(L1) cache

alex778

(L1) cache

grok-1