• XSS.stack #1 – первый литературный журнал от юзеров форума

Windsurf запускает ИИ-модели для кодеров

MaFio

(L2) cache
Пользователь
Регистрация
23.02.2021
Сообщения
324
Реакции
321
Гарант сделки
2
benchmark.png


Они сразу бросают вызов Claude!

Стартап Windsurf, известный своим мощным форком AI-нативного редактора кода (ранее Codeium), выкатил семейство моделей SWE-1, созданных для задач полного цикла разработки ПО. Это не просто очередной инструмент для автодополнения - Windsurf делает шаг в сторону полноценного переосмысления софт-инжиниринга, и их бенчмарки говорят сами за себя.

Windsurf Editor - это AI-нативный IDE, который изначально проектировался с упором на "flow state" (тут просто не перевести, типа "быть в потоке"). Представьте: вы пишете код, а редактор сам прогнозирует ваши действия, фиксит тесты еще до того, как вы их запустили, и держит контекст всего проекта, даже если это миллион строк кода. Их фича Cascade - это комбинация глубокого понимания кодовой базы, real-time анализа действий разработчика и инструментов для мультифайлового редактирования. А теперь они добавили к этому свои собственные модели - SWE-1, SWE-1-lite и SWE-1-mini.

Недавно их пытались купить OpenAI, которая готова была выложить $3 млрд за стартап, чтобы усилить свои позиции в AI-кодинге и конкурировать с Cursor. Но сделка, похоже, не состоялась. Windsurf остался независимым, и вместо того чтобы стать частью экосистемы OpenAI, они сами запустили свои frontier-модели. Это огромный плюс для комьюнити: независимость дает им свободу экспериментировать и двигаться быстрее, чем если бы они были скованы тупым корпоратом.

Windsurf не просто похвастался новой моделью - они сразу выложили данные. SWE-1 тестировался на их внутреннем бенчмарке, который построен на реальных продакшен-репозиториях и задачах (аналог SWE-bench). SWE-1 идет нога в ногу с топовыми моделями: Claude 3.5 Sonnet (Anthropic), GPT-4.1 (OpenAI) и Gemini 2.5 Pro (Google). На этом бенчмарке SWE-1 показал результаты, близкие к 62-63% (для сравнения, Gemini 2.5 Pro — 63.8%, Claude 3.5 Sonnet — 62.3%). Но что еще интереснее — SWE-1 значительно обходит все non-frontier модели, что делает его реальным игроком на поле.

Windsurf делает ставку на взаимодействие человека и AI на всех уровнях. SWE-1 обучали с акцентом на работу с неполными состояниями и долгими задачами, что критично для реального софт-инжиниринга. Обычные модели, вроде тех же GPT или ранних Claude, заточены под быстрые тактические задачи: написал промпт - получил сниппет. Но в больших проектах тебе нужно держать в голове кучу контекста, работать с неоднозначностями и планировать на месяцы вперед. SWE-1, по словам Windsurf, справляется с этим лучше за счет интеграции с их редактором и подхода к обучению.

Больше конкуренции - больше инноваций. Если вы еще не пробовали Windsurf Editor, сейчас самое время - заодно и SWE-1 затестите.
 


Напишите ответ...
  • Вставить:
Прикрепить файлы
Верх