GPT-5.5: Код пишет, Anthropic отдыхает
GPT-5.5 лидирует в бенчмарке SWE-rebench
Компания Nebius обновила бенчмарк SWE-rebench, добавив 110 новых задач и включив в тестирование Codex и Claude Code. GPT-5.5 medium показал значительно лучшую эффективность, чем Anthropic Opus 4.8 high, при этом Opus 4.8 стал более оптимизированным и дешевым по сравнению с Opus 4.6, но без существенного прироста качества относительно Opus 4.7. Модели OpenAI также демонстрируют повышенную надёжность (pass^5), а опенсорсные решения значительно отстают.