LLM учатся на огромном числе текстовых корпусов, размеченных данных. Возник вопрос, можно ли сделать fine tune(дообучение ) моделей с открытым доступом ,таких как, та или иная Mixstral или LLama, но unlabled то есть на не размеченных данных. Ну, допустим , хочу дообучить туже лламу какому-то языку программирования ,которого она не знает. Беру 5-10 книг в pdf или docx ,где описано как кодить на данном языке , впихиваю их в лламу и она уже "читая" начинает понимать как кодить на этом языке. После того как книжки были "прочитаны и усвоены" ,даю промт напиши на этом языке такой-то модуль. Иными словами есть ли способы или подходы пихать в модели тексты(не важно книги, статьи.....) и заставлять самостоятельно дообучаться модель по этим текстам , предварительно не размечая?