GPT-4 тупеет на глазах: исследователи фиксируют явную деградацию языковой модели

mlx · 21.07.2023

В минувший вторник исследователи из Стэнфордского университета и Калифорнийского университета в Беркли опубликовали совместную научную работу, в которой утверждается, что ответы модели GPT-4 меняются с течением времени. Эта работа подпитывает распространённое, но пока недоказанное мнение о том, что производительность популярной ИИ-модели естественного языка за последние несколько месяцев сильно ухудшилась во многих задачах.

В исследовании под названием «Как меняется поведение ChatGPT с течением времени?», опубликованном на arXiv, Линцзяо Чэнь, Матэй Захария и Джеймс Зоу выразили сомнение в постоянно высокой производительности крупных языковых моделей OpenAI, в частности GPT-3.5 и GPT-4.

Используя доступ через API, специалисты тестировали версии этих моделей за март и июнь 2023 года на таких заданиях, как решение математических задач, ответы на деликатные вопросы, генерация кода и визуальное мышление. В частности, способность GPT-4 определять простые числа, по данным исследователей, резко упала с точности 97,6% в марте до всего 2,4% уже в июне. Но вот что странно — модель GPT-3.5 в большинстве задач наоборот показала улучшенную производительность за тот же период.

Сравнение точности ответов GPT-3.5 и GPT-4 в марте и июне

Мотивация провести подобное исследование у учёных появилось вскоре после того, как люди начали массово жаловаться, что производительность GPT-4 якобы стала постепенно снижаться. Одна из популярных теорий о возможных причинах подразумевает искусственное ограничение производительности самой компанией OpenAI для снижения вычислительных затрат, повышенной скорости отклика и экономии ресурса графических процессоров. Ещё одна забавная теория заключается в том, что «тупым» GPT-4 сделали люди, которые просто часто задают ему глупые вопросы.

Между тем, OpenAI последовательно отрицает любые заявления о том, что возможности GPT-4 ухудшились. Только в прошлый четверг вице-президент OpenAI по продуктам Питер Велиндер написал в своём Twitter *: «Нет, мы не делали GPT-4 глупее. Скорее наоборот: мы делаем каждую новую версию умнее предыдущей».

Хотя новое исследование может показаться убедительным доказательством догадок критиков GPT-4, другие эксперты уверены, что не стоит делать поспешных выводов. Профессор информатики Принстонского университета Арвинд Нараянан считает, что результаты проведённого исследования не доказывают однозначно снижение производительности GPT-4. По его мнению, вполне вероятно, что OpenAI просто провела тонкую настройку модели, в результате чего в ряде задач модель стала вести себя лучше, а в некоторых хуже. Но и это неточно.

Так или иначе, повсеместные заявления о снижении производительности GPT-4 заставили OpenAI провести собственное расследование. «Команда знает о сообщаемом регрессе и изучает этот вопрос», — сообщил в эту среду Логан Килпатрик, глава отдела разработки OpenAI.

Возможно, светлые умы на стороне смогли бы помочь разработчикам OpenAI выяснить причину регресса их системы, однако исходный код GPT-4 закрыт для сторонних разработчиков, за что компанию порицают при каждом удобном случае.

OpenAI не раскрывает источники обучающих материалов для GPT-4, исходный код или даже описание архитектуры модели. С закрытым «чёрным ящиком» вроде GPT-4 исследователи остаются «блуждать в темноте», пытаясь определить свойства системы, которая может иметь дополнительные неизвестные компоненты. Кроме того, модель может измениться в любое время без предупреждения.

Исследователь ИИ доктор Саша Лусьони из Hugging Face также считает непрозрачность OpenAI проблематичной: «Любые результаты на закрытых моделях невоспроизводимы и непроверяемы. Следовательно, с научной точки зрения мы сравниваем енотов и белок».

Лусьони также отметила отсутствие стандартизированных критериев в этой области, которые облегчили бы исследователям сравнение разных версий одной и той же языковой модели: «Они должны фактически предоставлять исходные результаты, а не только общие метрики, чтобы мы могли посмотреть, где они хороши и как они ошибаются».

Исследователь искусственного интеллекта Саймон Уиллисон согласился с Лусьони: «Честно говоря, отсутствие заметок о выпуске и прозрачности, возможно, является самой большой проблемой здесь. Как мы должны создавать надёжное программное обеспечение на основе платформы, которая меняется совершенно недокументированными и таинственными способами каждые несколько месяцев?».

Таким образом, хотя вышеописанная исследовательская работа может быть неидеальной и даже содержать какие-то огрехи в способе тестирования моделей от OpenAI, она поднимает важные вопросы о необходимости большей прозрачности и воспроизводимости результатов при выпуске обновлений крупных языковых моделей. Без этого разработчики и исследователи будут продолжать сталкиваться с неопределённостью и трудностями при работе с этими быстро меняющимися «чёрными ящиками» с искусственным интеллектом.

raphmalek · 21.07.2023

ИИ же, сам допер, что тупеть можно, ну как люди

dynstr · 21.07.2023

У ИИ сразу «логцепи» в нужном порядке встанут, когда добавят функцию «ненавидеть» (Геев, небинарных существ, мигрантов, мусульман, негров)

shuriken0x1 сказал(а):

После общения с "гениями" 24/7 любой отупеет.
Весомой причиной может быть то, что разрабы ломают логцепи из-за добавления функций "дружелюбия" (Толерантность к геям, небинарным существам, мигрантам, мусульманам, неграм).

Super Crypt · 21.07.2023

shuriken0x1 сказал(а):

После общения с "гениями" 24/7 любой отупеет.
Весомой причиной может быть то, что разрабы ломают логцепи из-за добавления функций "дружелюбия" (Толерантность к геям, небинарным существам, мигрантам, мусульманам, неграм).

dynstr сказал(а):

У ИИ сразу «логцепи» в нужном порядке встанут, когда добавят функцию «ненавидеть» (Геев, небинарных существ, мигрантов, мусульман, негров)

вы сделали мой день

stepany4 · 21.07.2023

Хм... Это как с поисковой выдачей Google. Частично это маркетплейс, игроки, товары, позиции. Но если бы люди не читали эти порожняки блядь продающих текстов контента, их перестали бы писать, уникализировать контент. Не алгоритмы поисковых систем примитивны, зачем усложнять? Устраивать конкурс поиска смысла, когда в массе своей поведенчески люди чуть умнее обезьян себя ведут в переходе по ссылкам?
Но вопрос интересен.
Я как нибудь соберу книг, после 1960, 1966 год, напишу краткую статью без ебучей кибернетики, что двигало к этому и кто подтолкнул к ai и gui и многому и когда. Потому что люди не понимают сути. Физику не нужно понимать. Нужно понимать что и зачем и для чего. И почему.

lollyfun · 21.07.2023

shuriken0x1 сказал(а):

Весомой причиной может быть то, что разрабы ломают логцепи из-за добавления функций "дружелюбия" (Толерантность к геям, небинарным существам, мигрантам, мусульманам, неграм).

https://xss.pro/threads/92929/post-649422

в первом абзаце яркий пример того, что толерантность у нейросетей действительно есть. (а если вы считаете что степаныч человек - бог вам судья

)

Super Crypt · 21.07.2023

stepany4 сказал(а):

Хм... Это как с поисковой выдачей Google. Частично это маркетплейс, игроки, товары, позиции. Но если бы люди не читали эти порожняки блядь продающих текстов контента, их перестали бы писать, уникализировать контент. Не алгоритмы поисковых систем примитивны, зачем усложнять? Устраивать конкурс поиска смысла, когда в массе своей поведенчески люди чуть умнее обезьян себя ведут в переходе по ссылкам?
Но вопрос интересен.
Я как нибудь соберу книг, после 1960, 1966 год, напишу краткую статью без ебучей кибернетики, что двигало к этому и кто подтолкнул к ai и gui и многому и когда. Потому что люди не понимают сути. Физику не нужно понимать. Нужно понимать что и зачем и для чего. И почему.

почему мне так сложно читать твои сообщения?

lollyfun · 21.07.2023

Super Crypt сказал(а):

почему мне так сложно читать твои сообщения?

Это всё потому-что

stepany4 · 21.07.2023

Super Crypt сказал(а):

почему мне так сложно читать твои сообщения?

Потому что кроме написания левой рукой этих сообщений, я занят и другой работой. Да и потому что я не маркетолог и не интертейментер, которому нужно представить нечто для спроса и приятия. Иначе я писал бы иначе. )
Еще, вероятно, потому что ты либо сфокусирован на другом, возможно напряженно, либо не привык много читать, искать и находить без перегрузок и тебя это парит. Я ХЗ. Если ниже схема для тебя сложна, не читай мои сообщения. Не нужно неверных предпосылок к выводам.
СССР, профессор Сергеев, схема становления идеологии интеграции модели ai :

.

Super Crypt · 21.07.2023

stepany4 сказал(а):

Потому что кроме написания левой рукой этих сообщений, я занят и другой работой. Да и потому что я не маркетолог и не интертейментер, которому нужно представить нечто для спроса и приятия. Иначе я писал бы иначе. )
Еще, вероятно, потому что ты либо сфокусирован на другом, возможно напряженно, либо не привык много читать, искать и находить без перегрузок и тебя это парит. Я ХЗ. Если ниже схема для тебя сложна, не читай мои сообщения. Не нужно неверных предпосылок к выводам.
СССР, профессор Сергеев, схема становления идеологии интеграции модели ai :

.Посмотреть вложение 61676

Сама схема вполне понятна, отдельные её фрагменты вызывают вопросы ввиду отсутствия частичных знаний в области о которой эта схема. Так что да, вероятно, я просто переработал

stepany4 · 21.07.2023

lollyfun сказал(а):

Это всё потому-что

Ладно. х#й вам а не знания. Буду проще. Сообразно уровню твоего и прочих тугодумов развития.
Как мне кажется, не то что GPT тупеет, а публика не умнеет. Поэтому уровень этого форума обсуждения новостей, возможно анализ некоего материала. А что-то эдакое чего не знают даже те, кто этот ебанный ai изучают в рамках курса, факультативно, на кафедре, потому что извините не все имеют материал и возможность сопоставления дат, влияний для некоторых выводов. Ну здесь реально его не будет.
На х#й мне время тратить, написать статью простую, но достаточно важную для анализа влияний. Или может кто-то сможет дать экспресс анализ кто и на кого влиял в концепции логики ссылок, линкования, в чем трудности были, кто предсказал сложности, кто их скрыл? Кроме скучных точных наук, как и что развивалось? Вот именно что х#й кто вам это будет писать. Ваш удел наебать каких-нибудь лохов, ai для вредоносов и креатива в объебосе. Какие там знания на х#й. Это так, обозрение интернета. ))
GPT у них тупеет видите ли. ))) Ребята, проблема в том, что вы вряд ли умнеете и к огромному сожалению лишены самокритики. Поэтому лучшая коммуникационная модель общения это слать вас всех к хуям и изъяснятся отборнейшим высокоэтажным матом.

WellDone · 21.07.2023

shuriken0x1 сказал(а):

Весомой причиной может быть то, что разрабы ломают логцепи из-за добавления функций "дружелюбия" (Толерантность к геям, небинарным существам, мигрантам, мусульманам, неграм).

Добавили толерантности и он стал писать хуже код.Так это и работает.

alex778 · 21.07.2023

mlx сказал(а):

Ещё один 1001-й аргумент не пользоваться закрытыми поделками.

Builder0 · 21.07.2023

stepany4 сказал(а):

Хм... Это как с поисковой выдачей Google. Частично это маркетплейс, игроки, товары, позиции. Но если бы люди не читали эти порожняки блядь продающих текстов контента, их перестали бы писать, уникализировать контент. Не алгоритмы поисковых систем примитивны, зачем усложнять? Устраивать конкурс поиска смысла, когда в массе своей поведенчески люди чуть умнее обезьян себя ведут в переходе по ссылкам?
Но вопрос интересен.
Я как нибудь соберу книг, после 1960, 1966 год, напишу краткую статью без ебучей кибернетики, что двигало к этому и кто подтолкнул к ai и gui и многому и когда. Потому что люди не понимают сути. Физику не нужно понимать. Нужно понимать что и зачем и для чего. И почему.

Меньше 10000 слов? Я не верю

Mora12 · 21.07.2023

Довольно сомнительное "исследование" из-за отсутствия критериев определения точности ответов нейронки. Прям, подожгло одно место

Особенно, в сфере этических вопросов. Для какого-нибудь папуаса, умывающегося мочою коровы и пьющего кровь змеи для эрекции, ответы чат-бота в сфере этики могут показаться полным бредом сумасшедшего. Каков критерий точности в этике различных культур? Какова корреляция? В сфере программирования тоже непонятны эти критерии. Главная цель программирования - решение поставленной задачи, а решить её, в свою очередь, можно различными способами. В контексте достижения этой цели, все способы будут правильными и точными. И, как мне кажется, чат-бот одинаково не справился с вопросами по программированию в этом контексте. Касаемо сферы математики, так это вообще хохма. Каков вопрос, таков и ответ. Что обозначает символы "ls" перед числом? Число относится к арифметике, программированию, тригонометрии или ещё к чему-нибудь? Разные сферы - разные атрибуты числа. Эти символы не уточняют контекст, а наоборот, "растворяют" его. Что-то мне подсказывает, что глупеет не ИИ, а его исследователи

feathercoin · 21.07.2023

Mora12 сказал(а):

что глупеет не ИИ, а его исследователи

или среднестатистический юзер?

Mora12 · 21.07.2023

feathercoin сказал(а):

или среднестатистический юзер?

Что в принципе, одно и тоже) В этом вопросе мы сталкиваемся с возможными завышенными ожиданиями людей из-за шумной пиар-кампании этого действа. Потому что, GPT не является искусственным интеллектом, а значит, в нём и нет функции становиться умнее и точнее всех. Это всего лишь декодировщик языковых моделей для определения тональности и взаимоотношений, а значит, обучается на текстах пользователей. Я не удивлюсь, если через несколько лет, GPT будет использоваться в качестве цензора и инквизитора для отслеживания, исправления и пресекания различных "неправильных" слов и мыслей. Он же должен себя окупить когда-нибудь?

gliderexpert · 22.07.2023

Она и так никогда не была сильно "умной", а тут еще и деградировала

2 задачи - прямая и обратная . Результат отличается на 10^33 степени!
Ну и на...й она тогда нужна, спрашивается? Как ядрену бомбу проектировать, если этот ваш супер-gpt даже электронные пучки не знает как сфокусировать?

jsaw · 23.07.2023

Бойтесь не того, что искин пройдет тест Тюринга, а того что он его завалит.

GrafHass · 23.07.2023

Простой спад, дальше будет расти и это очевидно! ИИ будет пробовать много вариаций)

GPT-4 тупеет на глазах: исследователи фиксируют явную деградацию языковой модели

(L3) cache

CD-диск

RAID-массив

(L3) cache

TPU unit

(L2) cache

(L3) cache

(L2) cache

TPU unit

(L3) cache

TPU unit

(L3) cache

(L1) cache

HDD-drive

floppy-диск

CD-диск

floppy-диск

CPU register

HDD-drive

floppy-диск