Обучаем ли ИИ по книгам, мануалам?

kindmapper · 03.08.2024

LLM учатся на огромном числе текстовых корпусов, размеченных данных. Возник вопрос, можно ли сделать fine tune(дообучение ) моделей с открытым доступом ,таких как, та или иная Mixstral или LLama, но unlabled то есть на не размеченных данных. Ну, допустим , хочу дообучить туже лламу какому-то языку программирования ,которого она не знает. Беру 5-10 книг в pdf или docx ,где описано как кодить на данном языке , впихиваю их в лламу и она уже "читая" начинает понимать как кодить на этом языке. После того как книжки были "прочитаны и усвоены" ,даю промт напиши на этом языке такой-то модуль. Иными словами есть ли способы или подходы пихать в модели тексты(не важно книги, статьи.....) и заставлять самостоятельно дообучаться модель по этим текстам , предварительно не размечая?

grandir · 03.08.2024

Есть RAG, есть просто дообучение. Дообучение почти всегда требует разметки данных или очень серьезный объем неразмеченных данных и ресурсов.

TOPCHEK · 03.08.2024

5-10 книг для "дообучения" очень мало. Надо как минимум 1000 книг/документов.

weaver · 03.08.2024

TOPCHEK сказал(а):

5-10 книг для "дообучения" очень мало. Надо как минимум 1000 книг/документов.

Угу.. Такое кол-во книг (5-10) и самому можно прочитать вызубрить.

ТС'у нужно разобраться как составляют датасет для обучения нейронок и как его подготовить. Далее выбрать метод обучения. Например через фантюнинг, когда берем уже готовую нейронку и дообучаем её.

kindmapper · 09.08.2024

Ну, я условно сказал 5-10 книг. Тут дело не в цифре книг. Понятно что их надо много. Я смотрел видео на ютубе ,где чел показывал как фаинтюнить llama 7b на примере языка OPL (древний и мало известный язык . на котором в 80ых кодили для органайзеров ). Там файнтюн был ввиде того, что он просто составлял промты, как работает язык. Для видео он показал образец 200 промтов. Видео достаточно простое и для новичка самое то, и даже ссыль была на его гитхаб. Понятно, что 200 промтов это ни о чем, это просто пример. чтобы уловили идею как тюнить. Если интересно скину сюда видоз. Следовательно эти промты того или иного языка, кто-то сделать должен , благо дело показан образец подачи на вход данных. А если нет исполнителя кто может составить промты, вот и возникла идея заставить модель "читать" книги. Про RAG я слышал, правда не мог найти видео,чтобы было внятно показано как работать с большим число книг. Если у кого есть простой пример, видео на том же ютубе, буду рад если поделитесь.

Обучаем ли ИИ по книгам, мануалам?

kindmapper

HDD-drive

grandir

(L3) cache

TOPCHEK

Bruteforce

weaver

31 c0 bb ea 1b e6 77 66 b8 88 13 50 ff d3

kindmapper

HDD-drive