Рейтинг открытости генеративных AI-моделей

Rehub · 28.06.2024

Исследователи из Университета Неймегена (Нидерланды) подготовили рейтинг открытости 40 больших языковых моделей и 7 моделей для генерации изображений по текстовому описанию, которые заявлены производителями как открытые. Из-за того, что критерии открытости моделей машинного обучения ещё только формируются, в настоящее время сложилась ситуация, когда под видом открытых распространяются модели, имеющие лицензию, ограничивающую область использования (например, многие модели запрещают применение в коммерческих проектах). Также часто производители не предоставляют доступ к используемым при обучении данным, не раскрывают детали реализации или не открывают полностью сопутствующий код.

Большинство моделей, позиционируемых как "открытые", на деле следует воспринимать как "открытые весовые коэффициенты" или точнее "доступные весовые коэффициенты", так как они распространяются под ограничивающими лицензиями, запрещающими использование в коммерческих продуктах. Сторонние исследователи могут экспериментировать с подобными моделями, но не имеют возможность адаптировать модель под свои нужды или проинспектировать реализацию. Более половины моделей не предоставляют детальные сведения о данных, используемых для обучения, а также не публикуют информацию о внутреннем устройстве и архитектуре.

Наиболее открытыми признаны модели BloomZ, AmberChat, OLMo, Open Assistant и Stable Diffusion, которые опубликованы под открытыми лицензиями вместе с исходными данными, кодом и реализацией API. Модели от Google (Gemma 7B), Microsоft (Orca 2) и Meta (Llama 3), позиционируемые производителями как открытые, оказались ближе к концу рейтинга, так как они не предоставляют доступ к исходным данным, не раскрывают технические детали реализации, а весовые коэффициенты модели распространяют под лицензиями, ограничивающими область использования. Популярная модель Mistral 7B оказалась примерно в середине рейтинга, так как поставляется под открытой лицензией, но лишь частично документирована, не раскрывает используемые при обучении данные и имеет не полностью открытый сопутствующий код.

Исследователями предложены 14 критериев открытости AI-моделей, охватывающих условия распространения кода, данных для обучения, весовых коэффициентов, вариантов данных и коэффициентов, оптимизированных при помощи обучения с подкреплением (RL), а также наличие готовых к использованию пакетов, API, документации и детального описания реализации.

В соответствии с предложенным организацией OSI (Open Source Initiative) черновым вариантом определения открытого AI, основными критериями открытости AI-системы является предоставление возможностей по использованию в любых целях без необходимости получения отдельного разрешения; изучению работы системы и инспектированию её компонентов; внесению изменений для любых целей; передаче другим лицам как исходного варианта, так и редакции после внесения изменений.

Для предоставления возможности внесения изменений AI-система должна включать:

• Детальную информацию о данных, использованных при обучении, и методологии обучения. Информации должно быть достаточно для того, чтобы профессиональный разработчик смог своими силами воссоздать эквивалентную AI-систему, используя для обучения те же самые или похожие данные.

• Наличие исходного кода, позволяющего как запустить AI-систему, так и выполнить процесс её обучения (в рассмотренной выше таблице, в графе "код" у многих моделей указано "~", что подразумевает частичное наличие кода, когда доступен код для запуска модели, но отсутствует код для обучения или создания модели). Код также должен охватывать такие области, как препроцессинг, проверка данных и токенизация. Кроме того, должно быть предоставлено детальное описание архитектуры модели.

• Параметры модели (весовые коэффициенты), подразумевающие наличие готового к использованию среза состояния после обучения или наличие финального оптимизированного варианта модели.

Рейтинг открытости генеративных AI-моделей

Rehub

LARVA-466