Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.
Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.
Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.
Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).
Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц
Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.
Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.
Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.
В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).
Все модели и даже API доступны (https://x.com/i/grok) уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц
