Opus 4.6 и Codex 5.3Вчера с разницей в 10-15 минут OpenAI и Anthropic зарелизили свои новые модели.Сильно в технические детали я погружаться не буду, об этом вы уже наверняка знаете из других источников, но вот что интересного могу сказать.Opus 4.6 наконец получил 1M context window: тут мы с вами помним, что важен не размер, а умение им пользоваться. Антропики заявляют, что в тесте, где нужно найти ответы на 8 вопросов из огромного текста (256k и 1m tokens), opus 4.6 набирает 93/100 и 76/100 соответственно. Неплохо! Для сравнения, Sonnet 4.5 в этом же тесте набирает 10/100 и 18/100. Gemini 3 Pro набирает 45/100 и 24/100 в этом же тесте.Ещё один бенчмарк, который победил Claude Opus 4.6, стал Terminal-bench 2.0 – этот бенчмарк показывает, насколько хорошо агенты выполняют задачи в терминалах: от администрирования систем и отладки кода до научных вычислений и конфигурации устаревшего ПО.Прошлым лидером был GPT 5.2 Codex, набрав 64.7/100, теперь Opus 4.6 его обогнал и набрал 65.4/100! Ура! Новый мировой лидер!Теперь, про Codex 5.3Примерно через 10-15 минут после релиза Opus 4.6, ребята из OpenAI релизят новую модель для кодинга - GPT-5.3-Codex.Результаты в Terminal-bench 2.0 - 77.3/100.Да, вы всё правильно поняли. Новый Claude Opus 4.6 побыл примерно 10-15 минут мировым лидером в этом бенчмарке.Помимо этого, Codex 5.3 теперь тратит ещё меньше токенов, набирает ещё больше баллов в бенчмарках, работает примерно на ~50% быстрее своих собратьев.Кодекса сделали ещё более умным и более болтливым – он теперь комментирует каждый свой шаг (ранее он просто делал всё молча).---Помимо обновлений модели, в Claude Code ещё завезли новую фичу – agent team. Это что-то вроде симуляции работы в команде – есть тим лид и есть подчинённые, со всеми вытекающими ("агент X почему то не выполнил работу.. надо выяснить почему", "не удалось заставить агента Y выполнить работу, сделаю её сам")Зачем?Чтобы выполнять работу ещё быстрее, потому что Claude сам будет оркестрировать агентов и параллелить задачи на них, а вы будете тратить ещё больше токенов за минуту времени))Я решил провести тест новых моделей и фичи agent teamУ меня есть один очень небольшой проект (примерно 2k loc), который состоит из 3-х бэкендов на nodejs и одного telegram mini app. Я попросил GPT-5.2 High описать проект в виде обычной ТЗшки, а затем, дать её в работу агентам и потом с помощью этого же gpt провести ревью и дать импровизированную оценку по 10-ти балльной шкале1. gpt-5.3-codex high в codex app – выполнил задачу за 9 мин, по мнению GPT-5.2 High набрал 8/10. Из минусов - упустил пару моментов из ТЗ, но не сильно критичных. Не продумал безопасность (из ТЗ это было упущено).Написал 1.7k строк кода2. claude code с agent team под управлением opus 4.6 – выполнили задачу за 9 мин, по мнению нашего ревьювера набрали 5/10)) Допустили несколько критичных ошибок – расхождение в контрактах, упустили несколько нюансов из ТЗ. Написали 1.6k строк кода3. claude code с opus 4.6 без агентов – выполнил задачу за 7 минут, получил оценку 5/10)) Но я бы ещё балл от себя накинул, потому что прям критичных проблем было меньше, по сравнению с командой балбесовВот такие результаты! Я думал, Ant'ы уже пощёлкали проблему с оркестратором, но оказывается что нет! Мой plan&act, оказывается, работает надёжнее. Надеюсь, agent team ещё допилят. Ну и жду теперь ответку на оркестратор от OpenAI.А вы уже попробовали обновления? Что понравилось больше? Рассказывайте!#ai_coding@the_ai_architectЛайк, репост,✔️ Тимур Хахалев про AI Coding, подписывайтесь!

Opus 4.6 и Codex 5.3

Вчера с разницей в 10-15 минут OpenAI и Anthropic зарелизили свои новые модели.

Сильно в технические детали я погружаться не буду, об этом вы уже наверняка знаете из других источников, но вот что интересного могу сказать.

Opus 4.6 наконец получил 1M context window: тут мы с вами помним, что важен не размер, а умение им пользоваться. Антропики заявляют, что в тесте, где нужно найти ответы на 8 вопросов из огромного текста (256k и 1m tokens), opus 4.6 набирает 93/100 и 76/100 соответственно.

Неплохо!

Для сравнения, Sonnet 4.5 в этом же тесте набирает 10/100 и 18/100.
Gemini 3 Pro набирает 45/100 и 24/100 в этом же тесте.

Ещё один бенчмарк, который победил Claude Opus 4.6, стал Terminal-bench 2.0 – этот бенчмарк показывает, насколько хорошо агенты выполняют задачи в терминалах: от администрирования систем и отладки кода до научных вычислений и конфигурации устаревшего ПО.
Прошлым лидером был GPT 5.2 Codex, набрав 64.7/100, теперь Opus 4.6 его обогнал и набрал 65.4/100!

Ура! Новый мировой лидер!

Теперь, про Codex 5.3

Примерно через 10-15 минут после релиза Opus 4.6, ребята из OpenAI релизят новую модель для кодинга - GPT-5.3-Codex.

Результаты в Terminal-bench 2.0 - 77.3/100.

Да, вы всё правильно поняли.

Новый Claude Opus 4.6 побыл примерно 10-15 минут мировым лидером в этом бенчмарке.

Помимо этого, Codex 5.3 теперь тратит ещё меньше токенов, набирает ещё больше баллов в бенчмарках, работает примерно на ~50% быстрее своих собратьев.

Кодекса сделали ещё более умным и более болтливым – он теперь комментирует каждый свой шаг (ранее он просто делал всё молча).

---

Помимо обновлений модели, в Claude Code ещё завезли новую фичу – agent team. Это что-то вроде симуляции работы в команде – есть тим лид и есть подчинённые, со всеми вытекающими ("агент X почему то не выполнил работу.. надо выяснить почему", "не удалось заставить агента Y выполнить работу, сделаю её сам")

Зачем?

Чтобы выполнять работу ещё быстрее, потому что Claude сам будет оркестрировать агентов и параллелить задачи на них, а вы будете тратить ещё больше токенов за минуту времени))

Я решил провести тест новых моделей и фичи agent team

У меня есть один очень небольшой проект (примерно 2k loc), который состоит из 3-х бэкендов на nodejs и одного telegram mini app. Я попросил GPT-5.2 High описать проект в виде обычной ТЗшки, а затем, дать её в работу агентам и потом с помощью этого же gpt провести ревью и дать импровизированную оценку по 10-ти балльной шкале

1. gpt-5.3-codex high в codex app – выполнил задачу за 9 мин, по мнению GPT-5.2 High набрал 8/10. Из минусов - упустил пару моментов из ТЗ, но не сильно критичных. Не продумал безопасность (из ТЗ это было упущено).
Написал 1.7k строк кода

2. claude code с agent team под управлением opus 4.6 – выполнили задачу за 9 мин, по мнению нашего ревьювера набрали 5/10)) Допустили несколько критичных ошибок – расхождение в контрактах, упустили несколько нюансов из ТЗ.
Написали 1.6k строк кода

3. claude code с opus 4.6 без агентов – выполнил задачу за 7 минут, получил оценку 5/10)) Но я бы ещё балл от себя накинул, потому что прям критичных проблем было меньше, по сравнению с командой балбесов

Вот такие результаты!

Я думал, Ant'ы уже пощёлкали проблему с оркестратором, но оказывается что нет! Мой plan&act, оказывается, работает надёжнее. Надеюсь, agent team ещё допилят. Ну и жду теперь ответку на оркестратор от OpenAI.

А вы уже попробовали обновления? Что понравилось больше? Рассказывайте!

#ai_coding@the_ai_architect

Лайк, репост,

✔️

Тимур Хахалев про AI Coding, подписывайтесь!