Пожалуйста, обратите внимание, что пользователь заблокирован
Как работает AI?
А с рисунками и видео как? Музыкой? СпасибоСобирается корпус текста, чистится, токенизируется хитрым способом, например BPE (это как ленивый чертила студент-математик придумал бы замену разбивки слов на слоги, потому что ему было влом заниматься фонетикой-лингвистикой, но оно работает). Дальше токены векторизуются в многомерный контекстный вектор, размер которого это и есть то, чем понтуются друг перед другом разработчики нейронок. Первый рабочий метод векторизации назывался word2vec, сейчас может использоваться скажем BERT. Обобщённо вся эта наука называется seq2seq - трансляция последовательности в подследовательность. В этом вся суть "мышления". Так вот, на этом этапе уже можно срать предложениями, примерно как дорвеегенератор в 2002-м году, работающий на марковских цепях. Но в отличие от дорвейщиков, учоные допёрли до этого уровня только к 2013-му году. Дальше лет 5 пытались вылечить проблему, что нейронка быстро забывала, что там у неё уже написано, придумали даже "память" для нейронок, типа LSTM и GRU. На этом этапе уже работал нормально перевод текстов и распознавание речи в гуглах-яндексах. Дальше вместо "памяти", придумали как маскировать часть нагенерённого текста (умножать часть матрицы на ноль) и эту маску использовать при генерации, это называется attention - "внимание". Это уровень 2017-го года - GPT-1. А дальше поверх уже нагенерённого текста придумали делать проверку "агентами", то есть нейросеть сама у себя как бы спрашивает, насколько хорош текст и выбирает лучший вариант. Это 2023-й год, в ChatGPT-3 этих агентов около сотни-двух. Примерно вот так сейчас работает AI. Тот что есть в паблике.
Чтобы нейронки научились видеть, сначала создали архитектуру, копирующую работу визуальной коры мозга - свёрточную нейросеть (CNN). И это было не так чтобы быстро, саму архитектуру аж в 1980м году придумал один японец, про которого сейчас никто не помнит, потом в 90-е появился такой мужичок - Ян Лекун, который и считается "батей" машинного зрения, именно он собрал все медальки и премии в отрасли. А запустилась "весна ии" ещё через 15 лет, только в 2010-х, когда машина превзошла человека в угадывании нарисованных цифр. Свёрточная сеть позволяет правильно читать изображения, выделять признаки, с которыми дальше можно работать - классифицировать их (это собственно всё то, чем занимаются классические нейронки). Для рисования картинок по описанию нужно как минимум две разные нейросети, одна это обученный на изображениях с описаниями энкодер текста (например, CLIP) в семантический вектор - "латентное пространство", который классифицирует любую картинку+описание в виде скрытых признаков. Тренируется это просто как архиватор-автоэнкодер из картинок с описаниями. Другая сеть это генеративная нейросеть (U-Net), которая постадийно создаёт картинку из результатов работы первой сети, заменяя на какой-то процент шум на пиксели и так формируя изображение. Этот процесс видно в некоторых рисовалках как появление картинки из мути. Аудио просто преобразуется из wav'а в изображение аудиоспектра и дальше с ним работают как с картинкой, например, замена голоса это тот же перенос стиля. Видео тупо разбивается на кадры, и с каждым кадром работают отдельно. Как создаются последовательности кадров в Sora и подобных штуках - пока не вникал, думаю для тренировки сети просто сначала печатаются кадрики на большом "холсте", а потом заставляют на выходе получить их же. То есть автоэнкодер натренирован не на 1 кадр, а на серию. Потому для работы этой штуки нужен суперкомпьютер с кучей памяти.А с рисунками и видео как? Музыкой? Спасибо
Подъехали новости из 2024 - Илон Маск выложил в паблик Grok, модель на 314 миллиардов параметров без цензуры:Это 2023-й год
here's your DEEP DIVE into @grok's architecture!
— andrew gao (@itsandrewgao) March 17, 2024
I just went through the https://t.co/8Y5cjeImg6, for this 314B open source behemoth with *no strings attached*.
👇🧵 pic.twitter.com/CraHKGqILe