Opus 4.6 и Codex 5.3
Вчера с разницей в 10-15 минут OpenAI и Anthropic зарелизили свои новые модели.
Сильно в технические детали я погружаться не буду, об этом вы уже наверняка знаете из других источников, но вот что интересного могу сказать.
Opus 4.6 наконец получил 1M context window: тут мы с вами помним, что важен не размер, а умение им пользоваться. Антропики заявляют, что в тесте, где нужно найти ответы на 8 вопросов из огромного текста (256k и 1m tokens), opus 4.6 набирает 93/100 и 76/100 соответственно.
Неплохо!
Для сравнения, Sonnet 4.5 в этом же тесте набирает 10/100 и 18/100.
Gemini 3 Pro набирает 45/100 и 24/100 в этом же тесте.
Ещё один бенчмарк, который победил Claude Opus 4.6, стал Terminal-bench 2.0 – этот бенчмарк показывает, насколько хорошо агенты выполняют задачи в терминалах: от администрирования систем и отладки кода до научных вычислений и конфигурации устаревшего ПО.
Прошлым лидером был GPT 5.2 Codex, набрав 64.7/100, теперь Opus 4.6 его обогнал и набрал 65.4/100!
Ура! Новый мировой лидер!
Теперь, про Codex 5.3
Примерно через 10-15 минут после релиза Opus 4.6, ребята из OpenAI релизят новую модель для кодинга - GPT-5.3-Codex.
Результаты в Terminal-bench 2.0 - 77.3/100.
Да, вы всё правильно поняли.
Новый Claude Opus 4.6 побыл примерно 10-15 минут мировым лидером в этом бенчмарке.
Помимо этого, Codex 5.3 теперь тратит ещё меньше токенов, набирает ещё больше баллов в бенчмарках, работает примерно на ~50% быстрее своих собратьев.
Кодекса сделали ещё более умным и более болтливым – он теперь комментирует каждый свой шаг (ранее он просто делал всё молча).
---
Помимо обновлений модели, в Claude Code ещё завезли новую фичу – agent team. Это что-то вроде симуляции работы в команде – есть тим лид и есть подчинённые, со всеми вытекающими ("агент X почему то не выполнил работу.. надо выяснить почему", "не удалось заставить агента Y выполнить работу, сделаю её сам")
Зачем?
Чтобы выполнять работу ещё быстрее, потому что Claude сам будет оркестрировать агентов и параллелить задачи на них, а вы будете тратить ещё больше токенов за минуту времени))
Я решил провести тест новых моделей и фичи agent team
У меня есть один очень небольшой проект (примерно 2k loc), который состоит из 3-х бэкендов на nodejs и одного telegram mini app. Я попросил GPT-5.2 High описать проект в виде обычной ТЗшки, а затем, дать её в работу агентам и потом с помощью этого же gpt провести ревью и дать импровизированную оценку по 10-ти балльной шкале
1. gpt-5.3-codex high в codex app – выполнил задачу за 9 мин, по мнению GPT-5.2 High набрал 8/10. Из минусов - упустил пару моментов из ТЗ, но не сильно критичных. Не продумал безопасность (из ТЗ это было упущено).
Написал 1.7k строк кода
2. claude code с agent team под управлением opus 4.6 – выполнили задачу за 9 мин, по мнению нашего ревьювера набрали 5/10)) Допустили несколько критичных ошибок – расхождение в контрактах, упустили несколько нюансов из ТЗ.
Написали 1.6k строк кода
3. claude code с opus 4.6 без агентов – выполнил задачу за 7 минут, получил оценку 5/10)) Но я бы ещё балл от себя накинул, потому что прям критичных проблем было меньше, по сравнению с командой балбесов
Вот такие результаты!
Я думал, Ant'ы уже пощёлкали проблему с оркестратором, но оказывается что нет! Мой plan&act, оказывается, работает надёжнее. Надеюсь, agent team ещё допилят. Ну и жду теперь ответку на оркестратор от OpenAI.
А вы уже попробовали обновления? Что понравилось больше? Рассказывайте!
#ai_coding@the_ai_architect
Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Вчера с разницей в 10-15 минут OpenAI и Anthropic зарелизили свои новые модели.
Сильно в технические детали я погружаться не буду, об этом вы уже наверняка знаете из других источников, но вот что интересного могу сказать.
Opus 4.6 наконец получил 1M context window: тут мы с вами помним, что важен не размер, а умение им пользоваться. Антропики заявляют, что в тесте, где нужно найти ответы на 8 вопросов из огромного текста (256k и 1m tokens), opus 4.6 набирает 93/100 и 76/100 соответственно.
Неплохо!
Для сравнения, Sonnet 4.5 в этом же тесте набирает 10/100 и 18/100.
Gemini 3 Pro набирает 45/100 и 24/100 в этом же тесте.
Ещё один бенчмарк, который победил Claude Opus 4.6, стал Terminal-bench 2.0 – этот бенчмарк показывает, насколько хорошо агенты выполняют задачи в терминалах: от администрирования систем и отладки кода до научных вычислений и конфигурации устаревшего ПО.
Прошлым лидером был GPT 5.2 Codex, набрав 64.7/100, теперь Opus 4.6 его обогнал и набрал 65.4/100!
Ура! Новый мировой лидер!
Теперь, про Codex 5.3
Примерно через 10-15 минут после релиза Opus 4.6, ребята из OpenAI релизят новую модель для кодинга - GPT-5.3-Codex.
Результаты в Terminal-bench 2.0 - 77.3/100.
Да, вы всё правильно поняли.
Новый Claude Opus 4.6 побыл примерно 10-15 минут мировым лидером в этом бенчмарке.
Помимо этого, Codex 5.3 теперь тратит ещё меньше токенов, набирает ещё больше баллов в бенчмарках, работает примерно на ~50% быстрее своих собратьев.
Кодекса сделали ещё более умным и более болтливым – он теперь комментирует каждый свой шаг (ранее он просто делал всё молча).
---
Помимо обновлений модели, в Claude Code ещё завезли новую фичу – agent team. Это что-то вроде симуляции работы в команде – есть тим лид и есть подчинённые, со всеми вытекающими ("агент X почему то не выполнил работу.. надо выяснить почему", "не удалось заставить агента Y выполнить работу, сделаю её сам")
Зачем?
Чтобы выполнять работу ещё быстрее, потому что Claude сам будет оркестрировать агентов и параллелить задачи на них, а вы будете тратить ещё больше токенов за минуту времени))
Я решил провести тест новых моделей и фичи agent team
У меня есть один очень небольшой проект (примерно 2k loc), который состоит из 3-х бэкендов на nodejs и одного telegram mini app. Я попросил GPT-5.2 High описать проект в виде обычной ТЗшки, а затем, дать её в работу агентам и потом с помощью этого же gpt провести ревью и дать импровизированную оценку по 10-ти балльной шкале
1. gpt-5.3-codex high в codex app – выполнил задачу за 9 мин, по мнению GPT-5.2 High набрал 8/10. Из минусов - упустил пару моментов из ТЗ, но не сильно критичных. Не продумал безопасность (из ТЗ это было упущено).
Написал 1.7k строк кода
2. claude code с agent team под управлением opus 4.6 – выполнили задачу за 9 мин, по мнению нашего ревьювера набрали 5/10)) Допустили несколько критичных ошибок – расхождение в контрактах, упустили несколько нюансов из ТЗ.
Написали 1.6k строк кода
3. claude code с opus 4.6 без агентов – выполнил задачу за 7 минут, получил оценку 5/10)) Но я бы ещё балл от себя накинул, потому что прям критичных проблем было меньше, по сравнению с командой балбесов
Вот такие результаты!
Я думал, Ant'ы уже пощёлкали проблему с оркестратором, но оказывается что нет! Мой plan&act, оказывается, работает надёжнее. Надеюсь, agent team ещё допилят. Ну и жду теперь ответку на оркестратор от OpenAI.
А вы уже попробовали обновления? Что понравилось больше? Рассказывайте!
#ai_coding@the_ai_architect
Лайк, репост,