• XSS.stack #1 – первый литературный журнал от юзеров форума

⚡️ Grok-4 вышел!

NEMO

(L3) cache
Пользователь
Регистрация
06.02.2024
Сообщения
237
Реакции
55
Гарант сделки
1
Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.

Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.

Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.

Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).



1752127009122.png

1752127006213.png

Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц 😐
1752127002988.png
 
Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.

Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.

Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.

Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).



Посмотреть вложение 109123
Посмотреть вложение 109122
Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц 😐Посмотреть вложение 109121
1752127580429.png

Сравнение конечно странное
ведь cursor поддерживает много моделей
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх