⚡️ Grok-4 вышел!

NEMO · 10.07.2025

Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.

Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.

Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.

Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).

Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц

ondatra227 · 10.07.2025

NEMO сказал(а):

Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.

Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.

Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.

Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).

Посмотреть вложение 109123
Посмотреть вложение 109122
Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц Посмотреть вложение 109121

Сравнение конечно странное
ведь cursor поддерживает много моделей

NEMO · 10.07.2025

ondatra227 сказал(а):

Посмотреть вложение 109124
Сравнение конечно странное
ведь cursor поддерживает много моделей

Курсор это всего лишь агрегатор моделей, а Илон говорил что грок > всех моделей в курсор ....

ondatra227 · 10.07.2025

NEMO сказал(а):

Курсор это всего лишь агрегатор моделей, а Илон говорил что грок > всех моделей в курсор ....

это хорошо

⚡️ Grok-4 вышел!

NEMO

(L3) cache

ondatra227

(L3) cache

NEMO

(L3) cache

ondatra227

(L3) cache