Какие задачи AI ускоряет и на сколько?

Anthropic пару недель назад выпустили новый экономический рисерч, и вот что мне показалось интересным

▪️ Чем выше уровень образования, требуемый для задачи, тем сильнее AI ускоряет работу. Задачи уровня средней школы ускоряются в 9 раз, а уровня колледжа — в 12 раз. Это подтверждает, что выгоду от AI получают в основном высококвалифицированные специалисты.

▪️ С ростом сложности надежность падает, но незначительно (с 70% для простых задач до 66% для сложных), поэтому общий эффект ускорения остается положительным.

▪️ Пользователи Claude выполняют задачи, требующие гораздо больше времени, чем предполагают синтетические бенчмарки

Тут разберём чуть подробнее

Бенчмарк METR показывает, что Sonnet 4.5 достигает успеха в 50% в задачах, которые занимают 2 часа у человека.

Исследователи Anthropic взяли данные своих пользователей, которые используют их API (в основном, это enterprise пользователи) и Claude.ai (пользователи продуктов Claude Desktop и Claude Code) и вот, что они обнаружили.

▪️ Enterprise пользователи достигают успеха в 50% задачах, которые занимают около 3.5 часов
▪️ Пользователи Claude.ai (Claude Code) достигают успеха в 50% задачах, которые занимают около 19 часов

Различие с данными бенчмарка METR исследователи объясняют разными методологиями подсчёта результатов.

В их сэмплах пользователи декомпозируют сложные задачи на маленькие шаги, создают feedback loop, который направляет Claude на нужный курс. А так же, исследователи говорят, что сэмплы содержат selection bias - юзеры дают Claude задачки, в которых уверены, что Claude их решит.

Но нам важно другое, здесь стоит обратить внимание именно на подход - декомпозируем задачи и даём feedback loop.
Это действительно повышает эффективность работы в AI coding, я об этом говорил весь прошлый год, и в том числе в моей лекции про подход Plan&Act.

Декомпозиция позволит проще оценивать и делегировать задачи, а feedback loop даст возможность проверять эти задачи сразу же, получать фидбек от системы и исправлять ошибки.

Если вы всё ещё не внедрили это у себя, то пора это сделать.

#ai_coding@the_ai_architect

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Открыть в Telegram
 
 
Back to Top