Пишу про AI Coding, помогаю разработчикам освоить AI, внедряю AI в бизнес, провожу консультации.

О канале https://t.me/the_ai_architect/2

Связь: @yatimur | Визитка: timurkhakhalev.t.me
Я тут попробовал agent team от Claude Code

Что это?

Это режим, в котором Claude выступает в роли оркестратора и создаёт агентов под ваши задачи – они общаются между собой, а оркестратор выступает их тим лидом.

Я дал им задачку: написать очень небольшой сервис из tg mini app и трёх бэкендов на nodejs, в сумме около 1.7k строк. Управлял балом Opus 4.6

Итог – они не справились(

Проблемы были типичные – бэкенд с фронтендом не стыковались, контракты расходятся, часть инструкций пропущено.

Для меня это было удивительно, потому что codex 5.3 в одно лицо и без субагентов справился с этим замечательно, хоть и пропустил парочку нюансов.

От agent team у меня вообще были ожидания, что теперь нам не придётся составлять ТЗ, планы, и оркестратор сам сообразит опросить пользователя, составить себе план, декомпозировать на задачи и раздать своим сотрудникам-агентам.
Но сейчас оно не справляется даже с подготовленным ТЗ.

Поэтому, осознанный процесс подготовки плана, декомпозиции на задачи и верификации выполненных задач всё ещё актуален, поэтому я об этом так много пишу и поэтому у меня есть целая двухчасовая лекция об этом, называется Plan & Act – Разбор работающего Workflow.

Тут я объясняю философию того, как нужно подходить к выполнению задач в условиях ai coding: прототипирование, планирование, декомпозиция, передача в работу, проверка.

Помимо этого, в этой лекции очень много концетрированной информации о моём опыте в ai coding.

Вам не обязательно применять этот подход 1 в 1 на практике, но это станет отличным стартом для организации своего собственного подхода к программированию с ИИ.

Посмотреть можно здесь.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Переход к agentic software development

Грег Брокман, ко-фаундер OpenAI, заявил, что с 31 марта 2026, они в OpenAI переходят к agentic software development (агентной разработке ПО) и стремятся к следующему:
1) Для любой технической задачи инструментом первой необходимости для человека становится взаимодействие с агентом, а не использование редактора кода или терминала.
2) Стандартный способ использования агентов людьми явно оценивается как безопасный, но при этом достаточно продуктивный, чтобы для большинства рабочих процессов не требовались дополнительные разрешения.

Чтобы этого достичь, вот 6 рекомендаций команде от Грега

1️⃣ Найдите время, чтобы опробовать инструменты.
Многие люди останавливаются на размышлениях "А сможет ли агент справиться с этой задачей?" вместо того чтобы просто попробовать
• Назначьте "капитана по агентам" в вашей команде — человека, ответственного за продумывание того, как агенты могут быть внедрены в рабочий процесс команды.
• Делитесь опытом или вопросами в специально отведенных внутренних каналах.
• Выделите день для общекорпоративного хакатона по Codex.

2️⃣ Создавайте skills и файлы AGENTS[.md].
Для любого проекта, над которым работаете.
• обновляйте AGENTS[.md] всякий раз, когда агент делает что-то не так или испытывает трудности с задачей.
• прописывайте skills для всего, что вы поручаете агенту, и сохраняйте их в репозитории.

3️⃣ Проведите инвентаризацию и сделайте доступными любые внутренние инструменты.
• Ведите список инструментов, от которых зависит ваша команда, и убедитесь, что кто-то отвечает за обеспечение доступа к ним для агентов (например, через CLI или сервер MCP).

4️⃣ Структурируйте кодовые базы по принципу agent-first
• Пишите тесты, которые быстро запускаются, и создавайте качественные интерфейсы между компонентами.

5️⃣ Скажите нет slop`у.
Управление кодом, сгенерированным ИИ, в больших масштабах — это новая проблема, которая потребует новых процессов и соглашений для поддержания высокого качества кода.
• Убедитесь, что за любой код, попадающий в прод, несет ответственность конкретный человек.
• Как ревьюер кода, поддерживайте как минимум ту же планку качества, что и для кода, написанного человеком, и убедитесь, что автор понимает, что именно он отправляет.

6️⃣ Работайте над базовой инфраструктурой.
obsevrability, loggin, monitoring

Основные инструменты становятся намного лучше и удобнее, но существует множество инфраструктурных вещей вокруг инструментов, которых пока не хватает: observability, отслеживание не только закоммиченного кода, но и лог действий агента, которые к нему привели, а также централизованное управление инструментами, которые могут использовать агенты.

Внедрение таких инструментов, как Codex – это не только техническое, но и глубокое культурное изменение со множеством последствий, с которыми ещё предстоит разобраться.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Главный поклонник моделей openai в моем окружении, Макс Этихлид, наконец-то выложил пост со сравнением работы трёх актуальных sota моделей

● GPT-5.3 Codex - кодер, повседневный инструмент инженера
Шустрый, технически прошаренный, дотошный в исполнении выданных инструкций, но это именно исполнитель

● Opus 4.6 - вайб-генералист
Быстро что-то сделать с нуля, добавить не самую критичную фичу в существующий проект, но нужно держать в узде, если требуется внимательность и точные изменения

● GPT-5.2 - инженер
С ним надёжнее всего планировать, обсуждать варианты решений сложных проблем, и в целом держать проект под строгим контролем


Читать подробнее: часть 1, часть 2

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Opus 4.6 и Codex 5.3

Вчера с разницей в 10-15 минут OpenAI и Anthropic зарелизили свои новые модели.

Сильно в технические детали я погружаться не буду, об этом вы уже наверняка знаете из других источников, но вот что интересного могу сказать.

Opus 4.6 наконец получил 1M context window: тут мы с вами помним, что важен не размер, а умение им пользоваться. Антропики заявляют, что в тесте, где нужно найти ответы на 8 вопросов из огромного текста (256k и 1m tokens), opus 4.6 набирает 93/100 и 76/100 соответственно.

Неплохо!

Для сравнения, Sonnet 4.5 в этом же тесте набирает 10/100 и 18/100.
Gemini 3 Pro набирает 45/100 и 24/100 в этом же тесте.

Ещё один бенчмарк, который победил Claude Opus 4.6, стал Terminal-bench 2.0 – этот бенчмарк показывает, насколько хорошо агенты выполняют задачи в терминалах: от администрирования систем и отладки кода до научных вычислений и конфигурации устаревшего ПО.
Прошлым лидером был GPT 5.2 Codex, набрав 64.7/100, теперь Opus 4.6 его обогнал и набрал 65.4/100!

Ура! Новый мировой лидер!

Теперь, про Codex 5.3

Примерно через 10-15 минут после релиза Opus 4.6, ребята из OpenAI релизят новую модель для кодинга - GPT-5.3-Codex.

Результаты в Terminal-bench 2.0 - 77.3/100.

Да, вы всё правильно поняли.

Новый Claude Opus 4.6 побыл примерно 10-15 минут мировым лидером в этом бенчмарке.

Помимо этого, Codex 5.3 теперь тратит ещё меньше токенов, набирает ещё больше баллов в бенчмарках, работает примерно на ~50% быстрее своих собратьев.

Кодекса сделали ещё более умным и более болтливым – он теперь комментирует каждый свой шаг (ранее он просто делал всё молча).

---

Помимо обновлений модели, в Claude Code ещё завезли новую фичу – agent team. Это что-то вроде симуляции работы в команде – есть тим лид и есть подчинённые, со всеми вытекающими ("агент X почему то не выполнил работу.. надо выяснить почему", "не удалось заставить агента Y выполнить работу, сделаю её сам")

Зачем?

Чтобы выполнять работу ещё быстрее, потому что Claude сам будет оркестрировать агентов и параллелить задачи на них, а вы будете тратить ещё больше токенов за минуту времени))

Я решил провести тест новых моделей и фичи agent team

У меня есть один очень небольшой проект (примерно 2k loc), который состоит из 3-х бэкендов на nodejs и одного telegram mini app. Я попросил GPT-5.2 High описать проект в виде обычной ТЗшки, а затем, дать её в работу агентам и потом с помощью этого же gpt провести ревью и дать импровизированную оценку по 10-ти балльной шкале

1. gpt-5.3-codex high в codex app – выполнил задачу за 9 мин, по мнению GPT-5.2 High набрал 8/10. Из минусов - упустил пару моментов из ТЗ, но не сильно критичных. Не продумал безопасность (из ТЗ это было упущено).
Написал 1.7k строк кода

2. claude code с agent team под управлением opus 4.6 – выполнили задачу за 9 мин, по мнению нашего ревьювера набрали 5/10)) Допустили несколько критичных ошибок – расхождение в контрактах, упустили несколько нюансов из ТЗ.
Написали 1.6k строк кода

3. claude code с opus 4.6 без агентов – выполнил задачу за 7 минут, получил оценку 5/10)) Но я бы ещё балл от себя накинул, потому что прям критичных проблем было меньше, по сравнению с командой балбесов

Вот такие результаты!

Я думал, Ant'ы уже пощёлкали проблему с оркестратором, но оказывается что нет! Мой plan&act, оказывается, работает надёжнее. Надеюсь, agent team ещё допилят. Ну и жду теперь ответку на оркестратор от OpenAI.

А вы уже попробовали обновления? Что понравилось больше? Рассказывайте!

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Жгите все токены которые можете!

Потому что дальше будет дороже

Помните, как появился Uber, Яндекс Такси, сервисы доставки еды? По-началу, они демпинговали ценами, работали в убыток, но у них была одна цель - захватить рынок. Когда рынок уже захватили (спустя 5-8 лет), цены подняли и начали зарабатывать, но нам (пользователям) это уже не очень приятно.

Так будет и с компаниями провайдерами AI. Сейчас они все работают себе в убыток.

Так что, пока у нас есть дешевые токены, я советую их использовать по-максимуму.

Экспериментируйте, учитесь, изучайте новое, чтобы понимать, как это работает и применять AI для решения своих задач, а когда цены поднимут, будем думать над оптимизацией.

Кстати, если кто не знает, "подписочные" программы очень сильно субсидируются провайдерами - я говорю про подписки Claude Code, Codex.
Так, например, тут выяснили, что подписка на CC за $100/месяц экономит от x10 до x37 в пересчёте на API-based usage.

На днях ещё OpenAI выпустили Codex desktop приложение (пока только для macos) и в честь этого ещё и увеличили лимиты на всех тарифах в 2 раза на 2 месяца, и открыли доступ для тарифов Free и Go ($8).

А Anthropic сегодня должны выпустить модель Claude Sonnet 5 и я ожидаю что выпустят ещё новый тариф. Думаю, что это будет тариф за $2000/месяц, т. к. Anthropic не любит компромиссы.

Поэтому, успейте всё это попробовать и сжечь все токены провайдеров!)

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Сегодня отмечается 1 год вайбкодингу.

Ровно год назад Andrej Karpathy опубликовал тот самый твит про вайбкодинг
(в моей локали твиттер показывает 3 февраля, но вестерны уже начали отмечать)

Так что поздравляю вас с годом вайбкодинга!

Я за этот год определил для себя нишу для своего канала и начал писать до 100% кода с ИИ.

Расскажите, что у вас поменялось за этот год в разработке и около?

#ai_coding@the_ai_architect
Карпати выдал базу. Полугодовалой давности

На прошлой неделе Andrej Karpathy опять накатал большой пост про AI coding. Я кратко разберу тезисы и дополню своим мнением

◾️ Андрей пишет, что он перешёл от 20% генерации кода агентами и 80% написания кода руками в ноябре, до обратной пропорциональности в декабре.
Да, этот человек в 3 февраля 2025 декларировал термин "вайбкодинг" (завтра отмечаем день рождения вайбкодинга, приходите на тортик)

Когда вы адаптируетесь, настроите всё под себя, научитесь этим пользоваться и осознаете, что модель может, а что — нет, вы сможете уже уверенно использовать AI coding, говорит Карпати.

◾️ IDE всё ещё нужен для контроля за работой агентов

Он упомянул самую частую категорию ошибок: модели делают за вас неверные предположения и просто продолжают работу на их основе без проверки.

Они также не умеют справляться со своим замешательством, не просят уточнений, не подсвечивают противоречия, не предлагают компромиссные варианты (tradeoffs), не возражают, когда следует, и всё ещё слишком подобострастны.

В моём опыте это решается предварительным планированием задачи с исследованием трейдоффов, а потом имплементацией кода.

◾️ Агенты никогда не устают, у них не падает моральный дух, они просто продолжают пробовать варианты там, где человек уже давно бы сдался, чтобы вернуться к задаче завтра.

Мы теперь понимаем, что выносливость — это ключевое "узкое горлышко" в работе человеков, и с появлением LLM оно была решено.


◾️
С AI мы можем решать задачи, за которые раньше никогда бы не взялись


Чаще всего это quality of life улучшения.

Например, я уже несколько таких задач закрыл, вот одна из них

◾️ Андрей советует не говорить агентам, что именно делать.

Просто дайте им definition of done, тесты, браузерные инструменты (например, agent-browser) в руки и дождитесь результата.


Смените подход с императивного на декларативный


◾️ С агентами, программирование стало более весёлым, потому что уходит много рутины, а остается творческая часть.

AI coding разделил инженеров на тех, кто любит писать код и тех, кто любит создавать продукты.


Я отношусь ко второму типу.

◾️ Карпати говорит о том, что у него уже понемногу начинает атрофироваться способность писать код вручную (у меня тоже).
Написание и чтение кода – это разные способности мозга


◾️ В 2026 году готовимся к "slopacolypse" по всем Github, Substack, arXiv, X, Instagram и всем соц. медиа.

Недавний хайп на clawd тому подтверждение.

В конце, Андрей задает несколько вопросов

1) Что станет с «10X инженером» — соотношением продуктивности между средним и топовым инженером? Вполне возможно, что этот разрыв вырастет очень сильно.

2) Вооружившись AI, станут ли генералисты всё чаще превосходить узких специалистов? AI намного лучше справляются с «заполнением пробелов» (микро-уровень), чем с глобальной стратегией (макро-уровень).

3) На что будет похож AI coding в будущем? Это как играть в StarCraft? В Factorio? Или как играть музыку?

4) Какая часть общества упирается в ограничения цифрового интеллектуального труда?


---

Если вы погружены в AI coding и находитесь в коммьюнити последние месяцев 6, то вряд ли что то из этого будет для вас открытием, но тем не менее, спасибо маэстро за то что подтвердил наш опыт.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Кулинарные советы от создателя Claude Code, Бориса Черного

Он рассказывает, как его разрабы используют Claude Code

1️⃣ Делайте больше параллельно.
- 3–5 git worktrees одновременно, в каждом из них своя сессия Claude Code.
- коллеги также называют свои рабочие деревья и настраивают алиасы в терминале (`za`, zb, `zc`), чтобы переключаться между ними одним нажатием клавиши.

2️⃣ Plan mode
- один Claude Code (CC) пишет план, а затем второй в роли Staff-инженера проверяет его.
- как только что то идёт не так, ребята из команды сразу возвращаются в режим планирования и переделывают всё заново
- просите CC зайти в plan mode для этапов проверки кода

3️⃣ Инвестируйте в свой `CLAUDE.md`.
- «обнови свой CLAUDE.md, чтобы не повторять эту ошибку снова» после каждого исправления
- редактируйте CLAUDE.md со временем
- один инженер просит Claude вести папку с заметками для каждой задачи/проекта, обновляя её после каждого PR. Затем они просто ссылаются на неё в CLAUDE.md.

4️⃣ Создавайте свои skills и фиксируйте их в git.
— если вы делаете что-то чаще одного раза в день, превратите это в навык или команду.
— создайте команду /techdebt и запускайте её в конце каждой сессии, чтобы найти и вычистить дублирующийся код.
— настройте команду, которая синхронизирует данные из Slack, GDrive, Asana и GitHub за 7 дней в один дамп контекста.
— создавайте агентов в стиле «аналитика данных», которые пишут dbt-модели, проводят ревью кода и тестируют изменения.

5️⃣ Claude сам исправляет большинство багов.
– включите Slack MCP, вставьте тред с багом из Slack в Claude и просто скажите «fix». Переключение контекста больше не требуется.
- «иди исправь упавшие тесты CI»
– натравливайте Claude на логи Docker для поиска проблем в распределенных системах — он на удивление хорош в этом.

6️⃣ Прокачивайте промптинг.
- «погоняй меня по этим изменениям и не делай PR, пока я не пройду твой тест». Пусть Claude будет вашим ревьюером.
– «докажи мне, что это работает», и пусть Claude сравнит поведение основной ветки (`main`) и вашей ветки с фичей.
– после посредственного исправления скажите: «Зная всё, что ты знаешь сейчас, выбрось это и внедри по-настоящему элегантное решение».
– пишите подробные спецификации и убирайте двусмысленность перед передачей работы. Чем конкретнее вы будете, тем лучше будет результат.

7️⃣ Настройка терминала и окружения.
- команда использует ghostty
- используйте /statusline, чтобы настроить статус-бар: пусть он всегда показывает загрузку контекста и текущую ветку git.
- используйте голосовой ввод

8️⃣ Используйте субагентов.
– передавайте отдельные задачи субагентам, чтобы контекстное окно вашего основного агента оставалось чистым и сфокусированным.
- направляйте запросы на разрешения (permissions) к Opus 4.5 через хук — пусть он сканирует их на предмет атак и автоматически одобряет безопасные.

9️⃣ Используйте Claude для данных и аналитики.
bq CLI для получения и анализа метрик «на лету».
У команды есть skill для BigQuery, и все используют его для аналитических запросов прямо внутри Claude Code. Это работает для любой базы данных, у которой есть CLI, MCP или API.

1️⃣0️⃣ Обучение с Claude.
– включите стиль вывода «Explanatory» или «Learning» в /config, чтобы Claude объяснял причины своих изменений.
– попросите Claude создать визуальную HTML-презентацию, объясняющую незнакомый код.
– просите Claude рисовать ASCII-диаграммы новых протоколов и кодовых баз, чтобы помочь вам их понять.
– создайте навык для обучения по методу интервальных повторений: вы объясняете свое понимание, Claude задает уточняющие вопросы, чтобы заполнить пробелы, и сохраняет результат.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Тимур Хахалев про AI Coding
Поначалу Codex кажется *гораздо* более медленным, но когда речь идет о качестве уровня production, он делает всё правильно и по высоким стандартам с первого раза — что в итоге экономит время. Конечно, от него получаешь КУДА меньше дофамина, потому что он…
Мои последние посты с упоминанием codex cli могут выглядеть как прогрев на новый воркшоп, но это не так. Я искрене восхищаюсь этим потрясающим симбиозом модели GPT 5.2 в своей родной упряжке codex cli и тем, насколько сложные задачи оно решает эффективно.

При этом, есть люди, которые пробовали модели GPT 5.2, но не заметили никакой эффективной отдачи от модели. (На скриншоте один из таких отзывов)

В 99% причина одна – они пользовались этой моделью через Cursor.

Я не знаю как авторам Cursor удается так поганить качество моделей, но они в этом профессионалы.

Вот, например, спустя 4 месяца после релиза, ребята прочитали методичку от OpenAI по тому, как правильно использовать модель GPT 5 Codex.

Но, судя по тому, как ужасно работает GPT 5.2 в Cursor, они ещё не дочитали эту методичку до конца.

При этом, я вижу, что люди всё же пробуют codex cli и потом понимают, что мы, свидетели этой секты, имели ввиду.

Вот вам типичный пример:

1. Стадия отрицания

меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк
да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.


2. Спустя 16 дней, стадия принятия

я был не прав, когда говорил, что Opus > gpt-5.2. прям очень не прав. разница между ними как между Sonnet 4 (не 4.5) и Opus 4.5


3. Стадия преисполнения

gpt-5.2-codex заставляет меня верить в возможность фактически бесконечной разработки проекта только через ИИ-кодинг и без заглядывания в код


——

Ну, и отвечая на вопрос со скриншота о том, какие проекты пишутся с нейронками, скажу вот что.

Я на этой неделе провел интервью с одним своим подписчиком, он рассказывал про свой опыт работы с AI Coding в его компаниях и вот пример проекта, который они с командой написали с нейронками.

Расчет равновесия Нэша: Высоконагруженный алгоритм, переписанный с Python/C++ на Rust с прямым взаимодействием с CUDA (минуя L3 кэш и RAM). Достигнута производительность ~500 млн операций/сек.
Написано с помощью Claude Code (потрачено ~3 млрд токенов), поддерживается с Codex cli.

Интервью (текстовое) ожидайте на следующей неделе, там очень много мяса, вам точно будет интересно.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Тут за последние пару месяцев тот самый Дядюшка Боб попробовал AI coding и рассказал об этом в своём X

Я на днях отследил его путь и по этому поводу написал статью на Хабр:

https://habr.com/ru/articles/990934/
(плюсаните статью, кто может, плиз)

TLDR: попробовал grok cli, сейчас на claude code.

Теперь я жду, когда он всё поймёт и попробует codex cli. Думаю, ему понравится.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Топ-5 инсайтов по внедрению AI-разработки из личной практики

1️⃣ Гигиена контекста и субагенты
Качество Claude Sonnet критически падает после 70–80k токенов: начинаются пропуски логики и галлюцинации.

Решение: Субагенты. Выноси задачи в изолированные инстансы.
Метрика: Лимит задачи — 3-4 часа работы мидла (выходит, что одна задача занимает ~50-70k токенов).

2️⃣ Инфраструктура «Memory Bank»
AGENTS.md и системный промпт не подходят для всей базы знаний проекта.

Архитектура: Папка .memory-bank/ для правил кода и паттернов.
Эффект: Агент знает, куда пойти за необходимой информацией по проекту. Экономит контекст.

3️⃣ Детерминированный Feedback Loop
Никакого доверия модели. Агент должен проверять себя детерминированными инструментами.

Инструменты: Линтеры, Type-check, тесты.
Пайплайн: Код -> Линтер (ошибка) -> Авто-фикс агентом. Без этого — генерация неработающего кода.

4️⃣ Приоритет планирования (90/10)
Генерация кода без плана — сжигание бюджета.

Правило: 2-3 часа на архитектуру с рассуждающими моделями (GPT-5.* High).
ROI: Плохой план утраивает расход токенов на правки. Исправлять галлюцинации дороже, чем планировать.

5️⃣ Специализация моделей
Используй сильные стороны разных LLM:

Codex / GPT-5.*: Планирование, структура, следование инструкциям.
Claude (Sonnet): Написание кода, реализация ("рабочие руки").
z.ai GLM-4.7: Рутина и задачи с четким ТЗ (экономия бюджета).

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Какие задачи AI ускоряет и на сколько?

Anthropic пару недель назад выпустили новый экономический рисерч, и вот что мне показалось интересным

▪️ Чем выше уровень образования, требуемый для задачи, тем сильнее AI ускоряет работу. Задачи уровня средней школы ускоряются в 9 раз, а уровня колледжа — в 12 раз. Это подтверждает, что выгоду от AI получают в основном высококвалифицированные специалисты.

▪️ С ростом сложности надежность падает, но незначительно (с 70% для простых задач до 66% для сложных), поэтому общий эффект ускорения остается положительным.

▪️ Пользователи Claude выполняют задачи, требующие гораздо больше времени, чем предполагают синтетические бенчмарки

Тут разберём чуть подробнее

Бенчмарк METR показывает, что Sonnet 4.5 достигает успеха в 50% в задачах, которые занимают 2 часа у человека.

Исследователи Anthropic взяли данные своих пользователей, которые используют их API (в основном, это enterprise пользователи) и Claude.ai (пользователи продуктов Claude Desktop и Claude Code) и вот, что они обнаружили.

▪️ Enterprise пользователи достигают успеха в 50% задачах, которые занимают около 3.5 часов
▪️ Пользователи Claude.ai (Claude Code) достигают успеха в 50% задачах, которые занимают около 19 часов

Различие с данными бенчмарка METR исследователи объясняют разными методологиями подсчёта результатов.

В их сэмплах пользователи декомпозируют сложные задачи на маленькие шаги, создают feedback loop, который направляет Claude на нужный курс. А так же, исследователи говорят, что сэмплы содержат selection bias - юзеры дают Claude задачки, в которых уверены, что Claude их решит.

Но нам важно другое, здесь стоит обратить внимание именно на подход - декомпозируем задачи и даём feedback loop.
Это действительно повышает эффективность работы в AI coding, я об этом говорил весь прошлый год, и в том числе в моей лекции про подход Plan&Act.

Декомпозиция позволит проще оценивать и делегировать задачи, а feedback loop даст возможность проверять эти задачи сразу же, получать фидбек от системы и исправлять ошибки.

Если вы всё ещё не внедрили это у себя, то пора это сделать.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Вы когда нибудь испытывали учащенное сердцебиение, подкашивающиеся колени, как только вам приходила мысль, что однажды, вам придётся восстанавливать упавший продакшен и пропавшие базы данных?
У меня обычно такое состояние и случается.

Тут появилась мысль, что мы можем проводить "учения по безопасности", прямо как в школе 🙂

Пост был написан ещё неделю назад, но сегодня у Коли вышел пост о том, как можно вайбкодить с телефона, Валера его репостнул и в комментах у парней много народа переживает о том, что агент может что-нибудь снести и потом пиши-пропало. Так вот, есть решение этой проблемы

Весь описанный путь дальше мы проходим с агентами и просим помочь разобраться. Если не знаем, какое решение выбрать, задаем вопросы агенту.

1. Определяем, какие бэкапы нам нужно делать.
Базы данных? Конфигов приложений? Сервера?

2. Создаем инструментарий
1) Ищем существующие инструменты бэкапов или создаем свои, чтобы делать эти бэкапы. Пример такого инструмента.
Для себя я ещё давно подготовил cli tool, который делает бэкап БД из моего docker postgres container и заливает в s3 storage.

2) Подготавливаем инфраструктуру для этого.
Настраиваем доступы к хранению бэкапов (s3), настраиваем пермишены к папкам/тулам и т. д.

3. Описываем нашу инфру
(OS, db, docker, все инструменты, которые участвуют в этом, etc)
Сохраняем памятку где-нибудь на сервере или в том месте, куда мы сразу пойдем, в случае аварии.

4. Сохраняем бэкапы

5. Теперь, нам нужно понять, насколько хорошо мы вообще подготовились.

Для этого мы можем провести учения.

Я посовещался с Опусом и он мне предложил самый действенный путь, как такое провернуть.

1. Копируем наш продакшен сервер на новый сервер (как это сделать с вашим сервером - спросите своего опуса)

2. После подготовки второго продакшена, запускаем на него нового агента и говорим - смотри, у нас внезапно пропала БД, надо восстановить, вот тебе памятка, что делать в таком случае, выполни задачу.

3. Отходим подальше и смотрим как агент в роли МЧСника тушит пожар и восстанавливает нашу систему 🤞

4. Запускаем систему и убеждаемся что, всё работает. Если нет, то говорим об этом агенту.

Важно в конце попросить его подготовить отчет о том, насколько эффективным был процесс восстановления и что стоит улучшить

Идем и улучшаем наш процесс восстановления - обновляем инструменты, дорабатываем памятку

5. Готово! Вы подготовлены к аварии!

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Claude Code со звуком

Это вам подарок на пятницу, но выкладываю сегодня

Мой подписчик навайбкодил плагин для Claude Code, которое добавляет прекольные звуки из Warcraft (с возможностью добавить и другие саундпаки)

Посмотрите демо, это офигенно!

Я хоть и не фанат Warcraft, но на фразу от агента "Нужно больше золота" улыбка на лице сразу появляется.

1. Установить marketplace:
/plugin marketplace add newink/codingagents


2. Установить plugin
/plugin install claudecode-sounds@codingagents


3. Перезагрузить Claude Code

4. Тест звука
/claudecode-sounds:test-sounds


Есть даже команда, которая позволит вам создать свой саундпак:
/claudecode-sounds:soundpack-create


📱 Github

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Если вы ещё не используете Frontend Design Skill от Anthropic, то многое теряете!

Этот скилл пощебетает с моделькой на фронтендерском языке и объяснить, что нужно сделать красиво.

Skill установить можно и в Claude Code и в Codex CLI

На скриншоте пример моего сайта с RSS лентой канала, до и после.
Запрос звучал примерно так:

I would like to have a minimalistic modern design with some smooth animations

📱 Github

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Я использую chrome dev tools mcp для E2E тестов

Вношу изменения на фронтенд и потом запускаю тесты, чтобы убедиться в работоспособности системы.
В репо у меня хранятся user journeys – описание пути пользователя, который заходит на сайт. Я храню это и для понимания работы системы, и для E2E тестов.

Как работают тесты

Я даю задачу агенту прочитать user journeys и воспроизвести их при помощи chrome dev tools, собрать ошибки и пофиксить их.

Основная проблема - каждый из таких тестов занимает приличное количество токенов контекста – 40-70k токенов.

На прошлой неделе Vercel выпустил свой headless браузер для агентов – agent-browser. Я протестировал его и заметил, что он тратит до 40% меньше токенов, чем chrome dev tools!

Например, один мой user journey – заполнение формы на моём сайте занимает примерно 15k токенов через chrome dev tools mcp, и только 9k токенов через agent-browser!

Интерфейс этого браузера в виде CLI, т. е. управлять им можно командами из консоли: agent-browser open google.com.
Этот браузер построен вокруг playwright, под капотом использует chromium.

Как подружить браузер с агентом?
С помощью Skills

Установка простая, всего лишь три команды:

Установить agent-browser:

bun add -g agent-browser



Установить playwright:

bun add -g playwright



Установить chromium:

agent-browser install



Скачать и установить skill в Claude Code:

mkdir -p .claude/skills/agent-browser
curl -o .claude/skills/agent-browser/SKILL.md \
  https://raw.githubusercontent.com/vercel-labs/agent-browser/main/skills/agent-browser/SKILL.md


Советую попробовать!

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
React Best Practices Skill от Vercel

Vercel выпустили свои Skills и самым полезным скиллом там я считаю React Best Practices – ребята просто упаковали годы накопленного опыта по React и Next.js в один skill и теперь мы можем применять его на наших проектах, чтобы выполнить рефакторинг и оптимизировать перформанс.

Для своего сайта ai.khakhalev.com я применил этот скилл и агенты нашли кучу проблем. Этот сайт я, конечно же, вайбкодил.

На видео я показываю процесс использования скилла, нахождение проблем и их решение с помощью субагентов Claude Code.

Если вы ещё не работаете в Claude Code, то зря!

Я недавно выпустил лекцию Claude Code Deep Dive, в котором поделился своим опытом по работе с Claude Code и рассказал как он устроен. В том числе, объяснил Skills и Subagents. Если интересно – получить доступ можно здесь

По самому скиллу скажу так – если вы как и я не фронтендер, то этот скилл окажется довольно полезным, но чтобы найти все проблемы сайта, стоит попросить запустить Explore несколько раз.

Как установить

Vercel для установки этого скилла предлагает установить какой-то свой тул, но мне лень это делать и я просто попросил Claude Code скачать контент этого скилла и установить в ~/.claude/skills (user-scope папка, чтобы этот скилл был доступен во всех проектах).

Промпт для этого простой:

Download this skill and it`s references (url) and install at ~/.claude/skills

После этого Claude скачает скилл и положит в папку, а вам нужно только перезагрузить claude

📱 Открыть React Best Practices Skill на Github

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Media is too big
VIEW IN TELEGRAM
Наконец-то, это случилось!

Начинаю выкладывать записи моих воркшопов, которые проводил в новогодние праздники.

Первым будет воркшоп по Claude Code, но на самом деле это скорее Deep Dive лекция – получилось очень подробно, с разбором базы – что такое агент и как работает контекст. Я считаю, что каждый, кто хочет работать с кодинговыми агентами на профессиональном уровне, должны понимать, как это работает под капотом.

Кому подойдёт
◾️ вы уже слышали или пробовали Claude Code / Cursor / AI-агентов
◾️ вы хотите понять как правильно выстраивать сложный workflow
◾️ вы ловили себя на мысли: «я вроде понимаю, но не уверен, что делаю правильно»

Что входит
◾️ видео-лекция продолжительностью 1 час 17 минут
◾️ Дополнительные материалы – ссылки, лайфхаки, которые можно забрать с собой
❗️ Мой template repository с моими subagents, hooks, skills и workflow, которые я использую в реальной работе

Что получите после просмотра?
◾️ системное понимание, как устроен AI-coding агент
◾️ ясную модель работы с контекстом
◾️ понимание ролей: оркестратор, sub-agents, skills

И самое главное – повышение своей эффективности в работе с AI Coding

Впереди ещё два видео, которые выложу спустя время.

Ссылка:
ai.khakhalev.com/storefront/claude-code-deep-dive/

А тут, на странице со списком продуктов, можно посмотреть на отзывы ребят, которые посещали мои воркшопы

#ai_coding@the_ai_architect

✔️ Тимур Хахалев про AI Coding, подписывайтесь! Claude Code Deep Dive — Архитектура и Топовый Workflow | AI Coding от Тимура Хахалева
Claude Code For Normies

Тут сегодня Anthropic выпустили Cowork – это Claude Code для не-программистов.

В целом, почти весь этот функционал был доступен и раньше и через Claude Code и Claude Desktop, но сейчас они решили собрать это воедино и упростить UI/UX для не-прогеров.

Краткий обзор Cowork на живом примере можно почитать у Саши Полякова, еще один разбор с набором ссылок для дополнительного чтения у Рефата, и ещё одно демо у Кости.

А я вкратце расскажу о том, что мне удалось раздобыть интересного про технический бэкграунд этого продукта.
За проектом стоит Felix Rieseberg, Head of Engineering for Claude.ai.
Другие сотрудники Anthropic описывают Felix как Boris для Claude Code, говорят, что он живая легенда, один из оригинальных мейнтейнеров Electron, помог создать Slack app.

Зарелизились они быстро.

Boris Cherny подтолкнул меня: "Можем ли мы взять наши внутренние наработки и выпустить раннюю, упрощенную версию всего за несколько дней?" Мы собрали небольшую команду, поставили жесткий дедлайн ("В понедельник устроит?") и принялись за дело.


Claude Code писал Cowork

Команда встречалась лично для обсуждения архитектуры, фичей и т. д., а потом шли и запускали Claude Code - каждый член команды управляет по 3-8 инстансами CC.

Вот как выглядит процесс работы над Cowork:

◾️ Для native code они используют git worktrees, чтобы параллелить задачи и запускать несколько инстансов Claude Code одновременно.

◾️ Для более мелких изменений или web-code они просто просят Claude всё реализовать.

◾️ Когда кто-то репортит баг в Slack, они тегают (@) Claude и просят это исправить. Человек (и еще один Claude) проверяет весь код перед мерджем, но теперь большую часть времени они тратят на управление "флотилией" Клодов и принятие решений, а не на "ремесленное" написание отдельных строчек кода вручную.

Как и с Claude Code, Cowork выпускается на стадии прожарки "rare" и могут появляться проблемы, но команда планирует их быстро решать.

#ai_coding@the_ai_architect

✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Если вы ещё не применяете AI в вашей компании, you ngmi

Josh Miller из The Browser Company, создатель Dia Browser, рассказал, что их команда с Claude Code проводит намного больше экспериментов и быстрее учится.

Их дизайнеры отправляют PR направо-налево, не-инженеры создают прототипы своих идей, а у разработчиков появляется ресурс для смелых экспериментов и всё это — без ущерба для основных задач, за которые они несут ответственность.

Вот инсайты, которые уже очевидны для The Browser Company:
1. Они будут платить выше рынка за исключительный талант, особенно людям, которые уже нативно владеют подходом к разработке через Claude Code.

2. Они будут относиться к членам команды так, как музыкальный лейбл относится к своим артистам: их задача — помочь членам команды войти в состояние потока, удерживать их в нём и помогать воплощать в жизнь больше их идей.

3. Как компания, они будут заниматься меньшим количеством проектов, но с такой глубиной и размахом внутри этих направлений — а также готовностью к рискованным ставкам, — которые раньше были невозможны.

По своему опыту скажу, что в последнее время, помимо применения Claude Code/Codex в кодинге, я так же применяю эти инструменты и для других задач:
- подключиться на сервер и разобраться в причинах его зависаний
- изучить проект и подумать, насколько сложно его будет скопировать (пока не дошли руки до копирования)
- объяснить свою боль (при работе с моими девайсами) и попросить предложить решение, а потом реализовать его за 1-2 часа
- рассказать свои идеи на год и из этого построить планы и сохранить их в репо, а потом работать с этим

Больше всего в этом мне нравится делать работу, которую я раньше не делал - создавать nice-to-have tools.

Anthropic, кстати, в своём прошлогоднем репорте об этом тоже говорили, что 27% работы в Claude состоит из таких задач:
27% of Claude-assisted work consists of tasks that wouldn't have been done otherwise, such as scaling projects, making nice-to-have tools (e.g. interactive data dashboards), and exploratory work that wouldn't be cost-effective if done manually.


#ai_coding@the_ai_architect

✔️ Тимур Хахалев про AI Coding, подписывайтесь!
 
 
Back to Top