Anthropic выпустили статью о том как их разраб создал себе harness для выполнения длительных задач по кодингу.Harness design for long-running application developmentДумаю, те кто находятся на таком же уровне владения ai coding как я, уже сталкивались с проблемами, описанными в статье.Автор рассказывает о том, как он пришёл к такому сетапу выполнения больших задач: planner (создает спеки по задаче из промпта пользователя), generator (пишет код) и evaluator (проводит независимое тестирование предыдущего шага).Вот что мне показалось примечательным:◾️ Out of the box, Claude is a poor QA agent. In early runs, I watched it identify legitimate issues, then talk itself into deciding they weren't a big deal and approve the work anyway. It also tended to test superficially, rather than probing edge cases, so more subtle bugs often slipped throughАвтор статьи признает, что Claude из коробки склонен сглаживать углы, поэтому даже evaluator (у которого свой контекст!) пропускал многие баги.Кто бы мог подумать! А мог бы просто пересесть на codex с GPT 5.4 ))◾️ Автор говорит, что в начале ему приходилось сильно декомпозировать задачи (с поколением 4.5), а с выходом Opus 4.6 надобность в этом отпала.Тут соглашусь - даже с предыдущим поколением GPT 5.2-5.3 необходимость в сильной декомпозиции задач действительно отпала◾️ Ну и конечно же сам факт того, что ребята пришли к той системе, с которой я работаю примерно с сентября 🙂 В декабре видос об этом записывал.Сейчас я уже на второй версии этого подхода — собрал в skill для codex, результат шикарный, каждая задача выполняется ровно так, как было задумано!#aicoding@the_ai_architectЛайк, репост,✔️ Тимур Хахалев про AI Coding, подписывайтесь!

Anthropic выпустили статью о том как их разраб создал себе harness для выполнения длительных задач по кодингу.

Harness design for long-running application development

Думаю, те кто находятся на таком же уровне владения ai coding как я, уже сталкивались с проблемами, описанными в статье.

Автор рассказывает о том, как он пришёл к такому сетапу выполнения больших задач: planner (создает спеки по задаче из промпта пользователя), generator (пишет код) и evaluator (проводит независимое тестирование предыдущего шага).

Вот что мне показалось примечательным:
◾️

Out of the box, Claude is a poor QA agent. In early runs, I watched it identify legitimate issues, then talk itself into deciding they weren't a big deal and approve the work anyway. It also tended to test superficially, rather than probing edge cases, so more subtle bugs often slipped through

Автор статьи признает, что Claude из коробки склонен сглаживать углы, поэтому даже evaluator (у которого свой контекст!) пропускал многие баги.

Кто бы мог подумать! А мог бы просто пересесть на codex с GPT 5.4 ))

◾️ Автор говорит, что в начале ему приходилось сильно декомпозировать задачи (с поколением 4.5), а с выходом Opus 4.6 надобность в этом отпала.
Тут соглашусь - даже с предыдущим поколением GPT 5.2-5.3 необходимость в сильной декомпозиции задач действительно отпала

◾️ Ну и конечно же сам факт того, что ребята пришли к той системе, с которой я работаю примерно с сентября 🙂 В декабре видос об этом записывал.
Сейчас я уже на второй версии этого подхода — собрал в skill для codex, результат шикарный, каждая задача выполняется ровно так, как было задумано!

#aicoding@the_ai_architect

Лайк, репост,

✔️

Тимур Хахалев про AI Coding, подписывайтесь!