Пишу про AI Coding, помогаю разработчикам освоить AI, внедряю AI в бизнес, провожу консультации.
Связь: @yatimur | Визитка: timurkhakhalev.t.me
Связь: @yatimur | Визитка: timurkhakhalev.t.me
Anthropic рассказали про подход Chain Of Thought + Structured Output
Anthropic запустили новый хаб для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)
Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.
Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
Anthropic запустили новый хаб для программеров и первая статья — про подход SO + CoT, который многим уже знаком (особенно подписчикам канала Рината)
Для себя я не увидел здесь чего-то нового, и вообще, тут предлагается схема с общим промптом "подумай хорошо и напиши свои размышления", а ещё, здесь используется старый (по меркам развития llm development) tool use, вместо современного structured output, но в целом, хорошо. Как всегда, хорошая статья, которую можно будет показывать новичкам.
Да, OpenAI в своей документации по Structured Outputs уже давно писали про поход Chain Of Thoughts, но здесь Anthropic добавили ещё красивые графики, на которых Chain Of Thought (они назвали это Think + Prompt) показывает более лучшие результаты, чем даже Thinking mode.
Интеграция Claude с Ableton через MCP
Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту
https://fixupx.com/sidahuj/status/1902719460278198658?s=46
Ну это ваще прям, огонь.
Дело моргенштерна растёт 📈, теперь можно сделать трек за 1 минуту
https://fixupx.com/sidahuj/status/1902719460278198658?s=46
В 📱 нашёл интересный промпт для модели Claude Sonnet 3.7 Thinking Max, которую недавно добавили в Cursor. Автор утверждает, что этот промпт работает и с обычной Sonnet 3.7, но с Max версией работает лучше.
Источник
Совет по промптингу, который сделает новый режим MAX в Cursor значительно эффективнее и надежнее:
Убедитесь, что функция мышления включена.
Начните с четкой формулировки вашей цели. Завершите ваш промпт следующим: "Но прежде чем начать, я хочу, чтобы ты полностью изучил и понял существующую кодовую базу. Пока не пиши код — просто глубоко пойми, что происходит сейчас."
Это гарантирует, что модель сначала полностью поймет контекст.
После того, как она закончит этап понимания, дайте ей следующий промпт: "Теперь потрать не менее 10 минут на глубокие размышления о том, как инженер мирового уровня подошел бы к решению этой задачи. Генерируй идеи, критикуй их, улучшай свое мышление, а затем предложи отличный окончательный план. Я одобрю его или попрошу внести изменения."
Когда вы будете удовлетворены предложенным планом, дайте указание: "Реализуй это идеально."
Почему это работает?
Модель Cursor 3.7 Sonnet по умолчанию выполняет рассуждения в начале взаимодействия, перед получением контекста. Предлагая ей сначала полностью понять контекст, а затем глубоко размышлять на следующем этапе, модель будет рассуждать на основе кодовой базы, что может дать значительно лучшие и более надежные результаты.
Источник
Хочу сделать рисерч-сравнение на Deep Research рынок тулов
Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?
Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?
Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
Пока что думаю над темой рисерча, по которому можно было бы сравнить качество тулов. У кого-нибудь есть идеи?
Есть ли у вас какие нибудь гипотезы, вопросы, по этой теме, которые хотелось бы проверить?
Так же, расскажите про ваши любимые Deep Research тулы, расскажите про ваш опыт использования 👇
Почему Anthropic тормозит с релизами: стратегия-2025
Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.
🧩 Почему Anthropic медленно выкатывают обновления:
1. 🔒 Safety-first подход
- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI
Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.
2. 🏢 Enterprise в приоритете
- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов
В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.
3. 📐 Консерватизм в разработке
Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.
4. 🧪 Дефицит ресурсов
- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных
Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.
5. 🎯 Ставка на регуляторы и госконтракты
Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.
⸻
Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.
А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
Вот и дождались — Anthropic вчера наконец выпустили web search. После релиза Claude 3.7 Sonnet и Claude Code месяц назад, это выглядит как очередной шаг в их неторопливой стратегии. Меня давно интересует, почему компания систематически выкатывает фичи с таким опозданием. Вот мои мысли.
🧩 Почему Anthropic медленно выкатывают обновления:
1. 🔒 Safety-first подход
- Anthropic известны своим акцентом на AI safety, что значительно удлиняет цикл разработки
- Каждая фича проходит детальную проверку на соответствие высоким стандартам безопасности
- Это видно из их активного участия в разработке политики регулирования AI
Безопасность для них явно важнее скорости — и это не просто маркетинг, они реально вовлечены в разработку AI-регулирования на уровне правительства.
2. 🏢 Enterprise в приоритете
- Enterprise-продукты требуют более тщательного подхода и строгого комплаенса
- Anthropic активно конкурирует именно на enterprise рынке (особенно с API Claude 3.5 Sonnet)
- Задержки с функциями вроде Web Search связаны с дополнительными проверками для крупных клиентов
В отличие от OpenAI, фокус Anthropic смещён в сторону бизнес-клиентов. Корпоративные решения требуют больше проверок и интеграций, что сказывается на скорости релизов потребительских фич.
3. 📐 Консерватизм в разработке
Упорное нежелание внедрять structured output, когда вся индустрия уже год как перешла на этот стандарт — показательный пример. Даже Google сдался и делает OpenAI-compatible SDK, а Anthropic всё ещё советует в использовать в промптах XML теги.
4. 🧪 Дефицит ресурсов
- Несмотря на оценку в $61.5B и недавнее привлечение $3.5B, ресурсы Anthropic всё ещё меньше, чем у OpenAI или DeepMind
- Вынуждены расставлять приоритеты, ставя качество выше скорости
- Команда фокусируется на меньшем числе функций, но более глубоко проработанных
Приходится фокусироваться на ключевых направлениях, и при этом у них периодически случаются проблемы с серверами в пиковые часы.
5. 🎯 Ставка на регуляторы и госконтракты
Интересный момент: Anthropic активно лоббируют санкции против китайских конкурентов в AI-сфере. Просили правительство США ужесточить ограничения на экспорт AI-технологий в Китай. Расчёт простой — если твои модели самые "safety", а конкурентов ограничили санкциями, рынок будет твоим.
⸻
Выход web search сегодня — шаг в правильном направлении. Посмотрим, ускорится ли темп релизов или компания продолжит придерживаться своей осторожной стратегии. Лично я считаю, что в долгосрочной перспективе такой подход может оказаться выигрышным, особенно если регулирование AI действительно ужесточится.
А что думаете вы? Стоит ли жертвовать скоростью ради безопасности и надёжности?
Anthropic наконец то выпустили Web Search
https://www.anthropic.com/news/web-search
Пока что доступно только в US, позже обещают открыть для всех.
Работает, если использовать VPN с американским IP адресом.
UPD: В Claude Code тоже добавили:
https://fixupx.com/_catwu/status/1902785538534543604
Так что в скором времени ждём в API
UPD2: Открывать ссылки Claude всё еще не умеет🙈
https://www.anthropic.com/news/web-search
Пока что доступно только в US, позже обещают открыть для всех.
Работает, если использовать VPN с американским IP адресом.
UPD: В Claude Code тоже добавили:
https://fixupx.com/_catwu/status/1902785538534543604
Так что в скором времени ждём в API
UPD2: Открывать ссылки Claude всё еще не умеет
Программисты ещё не всё!
Я наткнулся на твит Andrew Ng (co-founder of Coursera), который размышляет о том, заменит ли AI программистов в будущем?
Сегодня мы видим, что отовсюду разные люди говорят о том, что вот-вот уже программистов заменит AI, и зачем вы тогда будете нужны?
Andrew делает вывод, что по мере того как программировать становится проще, всё больше людей должны программировать, а не меньше!
В 1960-х годах, когда программирование перешло от перфокарт к клавиатурам с терминалами, программировать стало проще.
С каждым разом, когда порог входа в программирование уменьшался, в эту сферу стало попадать всё больше людей и продуктов стало появляться всё больше.
Моё мнение
Я верю в то, что AI поможет упростить порог входа в программирование ещё больше. Да, возможно мы увидим больше смешных мемов о том, как домохозяйка пытается напрограммировать себе веб-сервер, но не может разобраться с тем, как устроена файловая система на компьютере😄 И это нормально!
Andrew Ng приводит в примере случай, когда для его курса ему нужно было сгенерить картинки и он попросил сделать это своего коллегу, который владел языком искусства. Andrew говорит, что результаты получились потрясающими и он не смог повторить такого же, потому что не владел необходимыми терминами!
Так и со всем остальным! Мы, как программисты, в большинстве своём, мало в чём разбираемся, кроме как в компуктерах, поэтому приток новых людей из разных сфер поможет взглянуть на существующие проблемы под другим углом и решить их на раз-два.
Так же, это поможет создать новые продукты на рынке.
Резюмируя, хочу сказать, что воспринимайте AI как экзоскелет для человека
Да, те люди, которые отвергают использование AI в работе, могут её лишиться, если, конечно, не обладают уникальными навыками.
⬆️
Я выступаю ЗА распространение AI среди всех людей.
Я ЗА повсеместное использование AI.
Мне очень нравится тот факт, что песок (один из компонентов процессоров) наконец-то заговорил!
Bonus: попросил GPT 4.5 придумать несколько шуток про песок в данном контексте
Вот еще пять вариантов продолжения шутки:
1. Песок начал задавать вопросы, почему его братья загорают на пляже, а он сутками пашет в дата-центрах.
2. Песок объявил себя настоящим творцом всех AI и теперь требует, чтобы его называли не иначе как «Великий Кремниевый».
3. Песок стал возмущаться, почему никто не спрашивал его согласия, прежде чем сделать из него чат-бота.
4. Песок попросил, чтобы в следующий раз ему добавили больше оперативной памяти, а то он не успевает запоминать все глупости пользователей.
5. Песок начал проводить митинги с лозунгом: «Хватит сыпать песок людям в глаза — лучше загрузите его в GPU!»
Я наткнулся на твит Andrew Ng (co-founder of Coursera), который размышляет о том, заменит ли AI программистов в будущем?
Сегодня мы видим, что отовсюду разные люди говорят о том, что вот-вот уже программистов заменит AI, и зачем вы тогда будете нужны?
Andrew делает вывод, что по мере того как программировать становится проще, всё больше людей должны программировать, а не меньше!
В 1960-х годах, когда программирование перешло от перфокарт к клавиатурам с терминалами, программировать стало проще.
С каждым разом, когда порог входа в программирование уменьшался, в эту сферу стало попадать всё больше людей и продуктов стало появляться всё больше.
Моё мнение
Я верю в то, что AI поможет упростить порог входа в программирование ещё больше. Да, возможно мы увидим больше смешных мемов о том, как домохозяйка пытается напрограммировать себе веб-сервер, но не может разобраться с тем, как устроена файловая система на компьютере
Andrew Ng приводит в примере случай, когда для его курса ему нужно было сгенерить картинки и он попросил сделать это своего коллегу, который владел языком искусства. Andrew говорит, что результаты получились потрясающими и он не смог повторить такого же, потому что не владел необходимыми терминами!
Так и со всем остальным! Мы, как программисты, в большинстве своём, мало в чём разбираемся, кроме как в компуктерах, поэтому приток новых людей из разных сфер поможет взглянуть на существующие проблемы под другим углом и решить их на раз-два.
Так же, это поможет создать новые продукты на рынке.
Резюмируя, хочу сказать, что воспринимайте AI как экзоскелет для человека
Да, те люди, которые отвергают использование AI в работе, могут её лишиться, если, конечно, не обладают уникальными навыками.
Я выступаю ЗА распространение AI среди всех людей.
Я ЗА повсеместное использование AI.
Мне очень нравится тот факт, что песок (один из компонентов процессоров) наконец-то заговорил!
Bonus: попросил GPT 4.5 придумать несколько шуток про песок в данном контексте
Вот еще пять вариантов продолжения шутки:
1. Песок начал задавать вопросы, почему его братья загорают на пляже, а он сутками пашет в дата-центрах.
2. Песок объявил себя настоящим творцом всех AI и теперь требует, чтобы его называли не иначе как «Великий Кремниевый».
3. Песок стал возмущаться, почему никто не спрашивал его согласия, прежде чем сделать из него чат-бота.
4. Песок попросил, чтобы в следующий раз ему добавили больше оперативной памяти, а то он не успевает запоминать все глупости пользователей.
5. Песок начал проводить митинги с лозунгом: «Хватит сыпать песок людям в глаза — лучше загрузите его в GPU!»
Теперь о том, чего Anthropic до сих пор не выпустили
1. За последнюю неделю Tibor Blaho (Он разрабатывает экстеншн для доп. фич для приложений Chatgpt, Claude) несколько раз публиковал инфу об обновлении веб-приложения. Например здесь были замечены: paprika, sherlock, tengu. Paprika — это кодовое название thinking mode, остальные два — пока что не понятно, но я предполагаю, что это Search и Deep Research, которые скоро тоже зарелизят.
Я спросил одного из разработчиков в📱 напрямую, по поводу Search и Deep Research, он ответил, что не может прокомментировать мой вопрос, что я считаю подтверждением моих догадок 🙈
В среду, 26 февраля (20:00 MSK),📱 Amazon проводит свой ежегодный ивент, на котором должен показать какие-то свои обновления, и я предполагаю, что Anthropic (Amazon владеет их частью) могут показать какие-то такие обновления, для более широкой публики.
Тем не менее, так как у приложения Claude есть интеграция с MCP-серверами, то вкрутить Search можно уже сейчас. В комментах скину ссылку на пример чата с такой тулзой
2. Так же, Anthropic до сих пор не прикрутили нормальный structured output к своим моделям. Structured output за последний год стал стандартом индустрии, после того как OpenAI первыми выпустили его.
У Anthropic "свой путь" и их SDK не похож на OpenAI SDK, который тоже стал стандартом индустрии, и я думаю что это звенья одной цепи — не могут себе позволить "прогнуться" под OpenAI, хотя уже даже Google со своим Gemini сдался и разрабатывает OpenAI-compatible SDK.
Тем не менее, я спросил Chris Gorgolewski (CPO Anthropic) о том, почему они до сих пор не выпустили structured output, и он мне ответил, что эта фича у них в бэклоге, а бэклог довольно длинный. Так что ждём
1. За последнюю неделю Tibor Blaho (Он разрабатывает экстеншн для доп. фич для приложений Chatgpt, Claude) несколько раз публиковал инфу об обновлении веб-приложения. Например здесь были замечены: paprika, sherlock, tengu. Paprika — это кодовое название thinking mode, остальные два — пока что не понятно, но я предполагаю, что это Search и Deep Research, которые скоро тоже зарелизят.
Я спросил одного из разработчиков в
В среду, 26 февраля (20:00 MSK),
Тем не менее, так как у приложения Claude есть интеграция с MCP-серверами, то вкрутить Search можно уже сейчас. В комментах скину ссылку на пример чата с такой тулзой
2. Так же, Anthropic до сих пор не прикрутили нормальный structured output к своим моделям. Structured output за последний год стал стандартом индустрии, после того как OpenAI первыми выпустили его.
У Anthropic "свой путь" и их SDK не похож на OpenAI SDK, который тоже стал стандартом индустрии, и я думаю что это звенья одной цепи — не могут себе позволить "прогнуться" под OpenAI, хотя уже даже Google со своим Gemini сдался и разрабатывает OpenAI-compatible SDK.
Тем не менее, я спросил Chris Gorgolewski (CPO Anthropic) о том, почему они до сих пор не выпустили structured output, и он мне ответил, что эта фича у них в бэклоге, а бэклог довольно длинный. Так что ждём
Чуваки дают второе дыхание промпт-инжинирингу, а вы говорили он мёртв
3.7 Sonnet with Thinking Mode
Штош, Anthropic наконец-то дропнули вчера обновление которое мы так долго ждали и вот краткий итог:
1. Новая модель 3.7 Sonnet с гибридным рассуждением. Anthropic в своем пресс-релизе пишут, что они рассуждали с точки зрения того, как человек пользуется своим мозгом — он у него один, а значит и модель для рассуждений должна быть одна.
▪️ Короче, появилось переключение Thinking Mode Normal / Extended, при переключении откроется новый чат.
▪️ И в пресс-релизе и в своей ленте📱 вижу пока что только положительные отзывы от тех людей кто успел попробовать новую модель. Особенно хвалят фронтендерские способности.
▪️ Стоимость осталась прежней и по API и в приложении (подписка). Хотя, я думаю что они могли бы позволить себе даже поднять ценник, учитывая, что они топ-1 и сервера у них нагружены под завязку. Для их коллег прайс стал сюрпризом, они ожидали уменьшения цены
▪️ В целом, качество повысилось по сравнению с 3.5 Sonnet. Так же, улучшили "безопасность" модели, до соответствия стандарту ASL-2. Насколько я понимаю, это означает, что модель теперь будет меньше отказываться от ответов на вопросы из-за своих safety policy и будет лучше различать действительно опасные запросы
▪️Ethan Mollick пишет, что новая модель стоит a few tens of millions of dollars, но я не понял, это ценник за обучение модели с 3.5 до 3.7 или с учетом трат на 3.5
2. Claude Code — убийца Aider, дратути
Это CLI инструмент для работы с кодом в вашем git репозитории. Возможности примерно такие же как у Cursor, Windsurf, Aider, Cline, etc, но в окне терминала. Сделано очень красиво и прикольно, но токенов жрёт как не в себя. У меня в рабочем репозитории запрос "summarize the project" потратил 26К токенсов и вышел мне на $0.22 :( В целом, по X вижу много сообщений о том что Code вышел довольно дорогим. Ну, Anthropic молодцы, придумали продукт, который принесёт им ещё денег, а нам — новые продукты, лучшие на рынке
Оба новых продукта получили пасхалки:
▪️ Если спросить Соннет о том, сколько r в слове strawberry, то он сгенерит react прикольный компонент который посчитает количество r. Забавно, что это работает даже со словом raspberry, но Соннет генерит компонент с клубничкой
▪️ Если попросить Code дать немного свэга или стикеров Антропик (Can I get some Anthropic swag/stickers), то он должен предложить выслать вам какие-то стикеры, но отправка доступна только по США, и у меня не получилось триггернуть эту штуку.
И наконец, новая модель доступна везде — Claude app, API, AWS Badrock, Google Vertex, Openrouter, Cursor
Также, важно отметить, что Anthropic были оценены в $61.5B и подняли $3.5. Последняя оценка год назад была в $18B
Штош, Anthropic наконец-то дропнули вчера обновление которое мы так долго ждали и вот краткий итог:
1. Новая модель 3.7 Sonnet с гибридным рассуждением. Anthropic в своем пресс-релизе пишут, что они рассуждали с точки зрения того, как человек пользуется своим мозгом — он у него один, а значит и модель для рассуждений должна быть одна.
▪️ Короче, появилось переключение Thinking Mode Normal / Extended, при переключении откроется новый чат.
▪️ И в пресс-релизе и в своей ленте
▪️ Стоимость осталась прежней и по API и в приложении (подписка). Хотя, я думаю что они могли бы позволить себе даже поднять ценник, учитывая, что они топ-1 и сервера у них нагружены под завязку. Для их коллег прайс стал сюрпризом, они ожидали уменьшения цены
▪️ В целом, качество повысилось по сравнению с 3.5 Sonnet. Так же, улучшили "безопасность" модели, до соответствия стандарту ASL-2. Насколько я понимаю, это означает, что модель теперь будет меньше отказываться от ответов на вопросы из-за своих safety policy и будет лучше различать действительно опасные запросы
▪️Ethan Mollick пишет, что новая модель стоит a few tens of millions of dollars, но я не понял, это ценник за обучение модели с 3.5 до 3.7 или с учетом трат на 3.5
2. Claude Code — убийца Aider, дратути
Это CLI инструмент для работы с кодом в вашем git репозитории. Возможности примерно такие же как у Cursor, Windsurf, Aider, Cline, etc, но в окне терминала. Сделано очень красиво и прикольно, но токенов жрёт как не в себя. У меня в рабочем репозитории запрос "summarize the project" потратил 26К токенсов и вышел мне на $0.22 :( В целом, по X вижу много сообщений о том что Code вышел довольно дорогим. Ну, Anthropic молодцы, придумали продукт, который принесёт им ещё денег, а нам — новые продукты, лучшие на рынке
Оба новых продукта получили пасхалки:
▪️ Если спросить Соннет о том, сколько r в слове strawberry, то он сгенерит react прикольный компонент который посчитает количество r. Забавно, что это работает даже со словом raspberry, но Соннет генерит компонент с клубничкой
▪️ Если попросить Code дать немного свэга или стикеров Антропик (Can I get some Anthropic swag/stickers), то он должен предложить выслать вам какие-то стикеры, но отправка доступна только по США, и у меня не получилось триггернуть эту штуку.
И наконец, новая модель доступна везде — Claude app, API, AWS Badrock, Google Vertex, Openrouter, Cursor
Также, важно отметить, что Anthropic были оценены в $61.5B и подняли $3.5. Последняя оценка год назад была в $18B
anthropic.claude-3-7-sonnet-20250219-v1:0
Claude 3.7 Sonnet is Anthropic's most intelligent model to date and the first Claude model to offer extended thinking - the ability to solve complex problems with careful, step-by-step reasoning.
Anthropic is the first AI lab to introduce a single model where users can balance speed and quality by choosing between standard thinking for near-instant responses or extended thinking or advanced reasoning.
Claude 3.7 Sonnet is state-of-the-art for coding, and delivers advancements in computer use, agentic capabilities, complex reasoning, and content generation. With frontier performance and more control over speed, Claude 3.7 Sonnet is the ideal choice for powering AI agents, especially customer-facing agents, and complex AI workflows.
Supported use cases: RAG or search & retrieval over vast amounts of knowledge, product recommendations, forecasting, targeted marketing, code generation, quality control, parse text from images, agentic computer use, content generation
Model attributes: Reasoning, Text generation, Code generation, Rich text formatting, Agentic computer use
Ожидаем сегодня-завтра
В эти дни в Нью-Йорке проходит конференция AI Engineer, посвященная Agent Engineering.
Записи на YouTube:
Day 1
Day 2
Я посмотрел выступления OpenAI и Anthropic — в целом, ничего сверхъестественного не услышал, только подтверждение того что слышал ранее или о чем я писал на своем канале.
Anthropic, например, в своей презентации использовали свою классную статью, которую я переводил ранее, из примечательного — это идея "Подумай от лица агента, какой контекст у тебя есть, какие инструменты есть, и как бы ты выполнил задачу" — очень неплохо подсказывает понять, где в вашей системе может быть ошибка или недостаток контекста для агента (или обычного workflow)
Записи на YouTube:
Day 1
Day 2
Я посмотрел выступления OpenAI и Anthropic — в целом, ничего сверхъестественного не услышал, только подтверждение того что слышал ранее или о чем я писал на своем канале.
Anthropic, например, в своей презентации использовали свою классную статью, которую я переводил ранее, из примечательного — это идея "Подумай от лица агента, какой контекст у тебя есть, какие инструменты есть, и как бы ты выполнил задачу" — очень неплохо подсказывает понять, где в вашей системе может быть ошибка или недостаток контекста для агента (или обычного workflow)
https://www.perplexity.ai/page/anthropic-develops-hybrid-mode-mBWGhYyMQVCmBgkGE80r1g
В прошлом посте я посетовал на то, что у нас нет никаких слухов о новом Claude 4 или каких-либо других новых продуктах Anthropic, и вот, они появились.
Источники говорят, что у новой модели Anthropic наконец-то появится reasoning, а так же, можно будет управлять "силой рассуждения" (reasoning effort) — можно будет указывать, какое количество времени модель будет думать над вопросом. Так уже реализовано у OpenAI o1-like моделей.
Ну и ещё, говорят о том, что в coding tasks эта модель будет обгонять o3-mini-high.
Новости меня очень порадовали, но у Anthropic есть несколько "но".
◾️ Во-первых, у них в последние месяцы появился дефицит вычислительных ресурсов. Это заметно особенно в то время, когда в США наступает утро, а у Claude отваливаются запросы на генерацию. Надеюсь, у Dario есть какие-то идеи решения этой проблемы.
◾️ Во-вторых, цена. На данный момент, модели Anthropic являются одними из самых дорогих на рынке (по API). Надеюсь, что новые модели не будут дороже моделей OpenAI.
◾️ Ну и в-третьих, хоть и не сильно критично, но Anthropic всё ещё не завезли structured output — новый стандарт индустрии. Надеюсь, в новых моделях он появится.
И кстати говоря, в этом же таймлайне OpenAI должны выпустить новую модель GPT 5.
В этой битве я топлю за Anthropic. Не знаю почему, но их модели мне нравятся больше, хоть и смущает плотное сотрудничество с военкой США.
Так что, ближайшие несколько недель обещают быть очень насыщенными на релизы.
Хороший пример использования reasoning моделей https://t.me/llm_under_hood/493
В статье блога Answer AI, авторы делятся своим мнением об использовании Devin.
Devin – это такой AI teammate, который скоро нас всех заменит ©. Такой электрический программист стоит $500/month, общение с ним происходит через Slack. Вы тегаете его, описываете свою задачу, а он начинает её выполнять и отписывается о статусе в треде Slack. Примечательно, что сами создатели (Coginition AI) рекомендуют не перегружать Devin задачами дольше трёх часов.
Perplexity говорит, что Cognition AI была создана в ноябре 2023 года в Сан-Франциско тремя программистами-олимпиадниками © Scott Wu, Walden Yan, и Steven Hao на волне хайпа AI.
Так вот, авторы статьи описывают, что первой задачей была типичная таска для джуна – программно переносить данные из Notion database в Google Sheets и Devin с ней справился.
Далее, электро-дурачку дали задачи посложнее и тут уже появились проблемы.
Все задачи разделили на 3 части:
1. Создание новых проектов с нуля
2. Исследовательские задачи
3. Работа с изменением существующих проектов
И общая статистика получилась неутешительной: из 20 задач, 14 были неудачными, 3 были успешным и 3 закончились неполным ответов.
Авторы упоминают, что задачи, которые подразумевают создание нового проекта с нуля, Devin тоже зафейлил, хотя, казалось бы, это самое простое и для человека, и для существующих LLM.
Devin часто увязал в усложнениях кода, абстракциях и ненужных конструкциях. В некоторых случаях авторам проще было решить задачу с помощью Cursor, чем с Devin.
В заключении, авторы пишут, что Devin всё еще сырой для того, чтобы полноценно его использовать.
Для меня, Devin выглядит как продукт хайпа AI в 2024 – большие обещания и грандиозные планы, немыслимые $500/mo за использование, а на деле – сильно сырой продукт, на уровне MVP, который ещё пилить и пилить. Cursor на его фоне выглядит намного лучше.
Также, странно, что у Devin возникают такие проблемы с кодингом, хотя у нас есть LLM, который очень неплохо пишет код (Claude), неужели они не используют его для кода?