Тимур Хахалев про AI Coding

Пишу про AI Coding, помогаю разработчикам освоить AI, внедряю AI в бизнес, провожу консультации.
Связь: @yatimur | Визитка: timurkhakhalev.t.me

15:54 · 28 июня 2025 г. · сбт

Открыть в Telegram

Небольшая история про попытку сделать продукт в сфере AI QA

Некоторое время назад я очень влюбился в computer use-like тулы: browser-use, browserbase. Я думал над тем, куда можно было бы применить эти инструменты. Я думал над автоматизацией процесса выбора и покупки товаров на маркетплейсах, но быстро понял, что это очень сложная задача, даже с использованием AI: у маркетплейсов есть целые отделы для борьбы с автоматизациями со стороны клиентов; computer use тулы ещё не сильно хороши; способ монетизации мне не понятен; платежки к такому продукту подключить вряд ли получится.

Далее, я пришёл к идее проверки лендингов, которые созданы через AI coding tools: я хотел проверять работоспособность таких сайтов, соответствие лендинга изначальной идеи сайта. Начал рисёрчить и понял, что скорее всего платящую аудиторию под это я не найду, но я вышел на пару похожих open-source продуктов: Browser Use Vibe Test, Operative Web Eval Agent, OpenAI Testing Agent.

Через Operative (они YC Backed) я вышел на их конкурентов: около 10 стартапов, которые делают разного рода QA под управлением AI. (список скину в комментах)

Здесь я уже понял, что QA, конечно, профитнее. Я покрутил эту идею в голове, пообщался с людьми из QA, которые уже используют AI в своей работе (@answerr_is_42 из qase.io; @End_spiel из testit.software, спасибо, чуваки!) и понял, что, конечно, в одного будет очень сложно делать такой продукт 😅

Какие выводы?

Если вы хотите создать пет-проект в одного, который при этом должен приносить деньги, то очень важно:
- Очень хорошо разбираться в нише (QA хоть и имеет самый низкий порог входа в айтишечку, но в нём тоже нужно хорошо разбираться, чтобы не потерять время; у меня нет опыта в QA)
- Придумать такой продукт, где тебе не нужно тратить сотни часов разработки, чтобы довести его до готовности
- Умение найти мэтч между подходящей платящей аудиторией и своим продуктом

И чтобы не пропадать моим трудам даром, я решил поделиться своими знаниями: в комментах скину

08:56 · 18 июня 2025 г. · срд

Открыть в Telegram

AI QA

В последнее время появилось много решений по управлению браузером: Computer Use от Anthropic, OpenAI, browser-use, browserbase и т. д. На Y Combinator в весеннем батче я насчитал около 10 из 144 компаний, которые делают AI QA разного рода. На днях OpenAI опубликовали демку Testing agent. И помимо всего этого, я видел ещё несколько десятков showcases на базе browser-use и browserbase.

Видимо, скоро грядёт дизрапшн QA индустрии.

Что вы думаете по этому поводу?

Получится ли делать E2E vibe-testing?

Есть ли у небольших команд или соло-разработчиков потребность в E2E тестах?

Кто-то уже пробовал применять AI в тестировании?

Очень интересно мнение моих подписчиков

16:06 · 13 июня 2025 г. · птн

Открыть в Telegram

Продолжение поста про мой workflow

Примерно с апреля этого года я пришёл к тому, что лучший флоу работы с AI coding tools – это сначала запланировать изменения, а потом их применить. Plan & Act

📝

Plan
1) Собираем весь релевантный код проекта
2) Описываем задачу, описываем все необходимые требования для выполнения задачи
3) Прикрепляем системный промпт (думай как синьор-помидор)
4) Отправляем
5) Проверяем результат. Если есть недочёты, то не исправляем их с фоллоу-ап сообщением, а изменяем изначальное сообщение и генерируем заново
6) Сохраняем получившиеся таски в файлы проекта

💡Тут я хочу заметить, что способность изменять своё сообщение и удалять сообщения из чата это имба 😊! Я часто этим пользуюсь в последнее время, в случаях, когда мне нужно сделать развлетвление: например, я делаю небольшой "ресерч" и задаю какой-нибудь вопрос AI. Когда получаю ответ, то обычно у меня появляется 2-3 вопроса, которые ведут по разным путям. Далее, я по-очереди задаю вопросы по этим путям, и после того как получаю ответ на вопрос, то возвращаюсь обратно и меняю своё сообщение, в котором описываю другой вопрос и модель заменяет свой ответ уже на новый.

Зачем это делать? Чтобы экономить контекстное окно. Чтобы не нужно было начинать чат заново, я могу легко удалить ветки диалога, которые мне уже не нужны для последующего диалога. Всем советую!

👨‍💻

Act
1) В новый чат с моделью прокидываем: один файл с таской, релевантные файлы (по желанию, чтобы сократить количество вызываемых тулов), system prompt, запускаем
2) Оцениваем результат. Если есть серьёзные ошибки, то лучше вернуться к части Plan и переписать промпт заново, потому что, скорее всего, далее будет ещё больше ошибок
3) Если всё ок, то повторяем для всех остальных тасок и оцениваем общий результат

Такой подход реализован во многих инструментах для AI Coding Agents — Codex, Jules, GH Copilot Agent. Его можно реализовать с помощью разных тулов — Cursor, AI Studio, task-master, memory-bank-mcp и т. д.. Тут уже что вам удобнее, то и используйте. Я пока что "по-старинке" юзаю Cursor + AI Studio, меня пока что устраивает.

Промпты я выложу в комменты, но вот что хочу добавить: вы можете и должны сделать свои промпты. Но нужно помнить, что главным будет промпт Act, и модель, которая будет его использовать, должна иметь достаточно контекста и могла задавать сама себе наводящие вопросы, которые направят её на правильный путь и могут снизить вероятность галлюцинаций.

Если было полезно, жмите 🔥+🔁!

#ai_coding@the_ai_architect

✔️

The AI Architect Blog, подписывайтесь!

ai_coding@the_ai_architect

18:06 · 9 июня 2025 г. · пнд

Открыть в Telegram

📝

Подборка годноты про AI coding

Я заметил, что первая часть моего workflow стала одним из самых популярных постов на моём канале. Второй пост я планирую выложить уже на этой неделе, а пока, ловите крутую подборку постов на эту же тематику от моих коллег по AI цеху.

На каждого я подписан и советую подписаться вам тоже 🤗

▫️ Vibe Cursor Coding

▫️ AI / Vibe coding - советы и best practices

▫️ Как получилось, что юристы используют среду для разработчиков?

▫️ Stitch: от вайб-кодинга к вайб-дизайну и обратно

▫️ Как я бросил курсорить и начал шотганить

▫️ Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии

▫️ Context7 — один из лучших инструментов для AI-разработки

▫️ Топовый AI Coding Workflow: Cursor & AI Studio

▫️ Как Cursor AI превращает текст в готовые макеты Figma

▫️ Простое веб-приложение за 30 минут с помощью Lovable

#ai_coding@the_ai_architect

✔️

The AI Architect Blog, подписывайтесь!

ai_coding@the_ai_architect

09:17 · 5 июня 2025 г. · чтв

Открыть в Telegram

Тёмная сторона вайб-кодинга

Эта история не имеет ничего общего с реальностью. Весь рассказ является плодом воображения автора.

Сегодня хочу рассказать про один серьёзный случай.

Есть у нас один хороший клиент Джон, который заказывал у нас уже несколько проектов. И вот, он попросил помощи в очередном своём проекте. Надо уточнить, что с появлением AI, Джон стал активным пользователем этого всего и очень сильно пытается создавать продукты самостоятельно, хотя, в программировании он не разбирается совсем. Так вот, насколько я знаю по легенде, у Джона был свой проект, но он был недостаточно хорош, и Джону захотелось переписать его с нуля, изменив даже бренд.
Я получил доступ к репозиторию на Github и Google Doc с названием "PRD" с целью изучения этого и оценки насколько сложно будет передать этот проект нам на доработку.

Далее, я расскажу про свои впечатления от знакомства с этим репозиторием.

За 3 недели он успел настрогать 465 коммитов в репу, 35к loc Typescript, но большинство коммитов состояли из "Deployed your application" или из двух изменений в tailwindcss в одном файле ❤️

Вот список инструментов, которые пробовал Джон, судя по репозиторию: Replit, Claude Code, Google Jules, Semgrep (какой-то AI AppSec Engineer)

Судя по истории коммитов, Джон делал скриншоты экрана (они сохранились в истории) и описывал где что не так прямо в окно чата. Причём, я думаю, что описывал он эти задачи именно голосом 😎

Джон красавчик, в своем возрасте (он довольно взрослый мужчина) он сумел разобраться в новомодных приблудах.
Но есть несколько но:
🔺 репозиторий представляет из себя монорепу с мешаниной файлов. Хорошо хоть разграничил client от server. Правда, в папке server скинуты в одну кучу сразу все файлы (на бэкенде express.js), а на фронте файлы разложены по папочкам components, hooks, lib и т. д. — видно, что гайдлайны nextjs повлияли
🔺 есть закоммиченный .env с кредами от облачной модной БД neon.tech. Закоммитил Replit
🔺 есть закоммиченный файлик с интересным названием private.key. Его закоммитил Replit
🔺 есть license key от одного пропиетарного софта, который захардкожен прямо на стороне клиента. Закоммитил Claude Code.
🔺 в этом коде его логин и пароль от ERP (хоть и тестовый контур, но всё же) встречается 12 раз в 12 разных файлах. Я проверил, эти креды закоммитил Claude Code

Вишенка на торте — репозиторий публично открыт 🤯

😦

Вторая — сфера работы Джона, отнюдь не инфоцыганство, а серьёзная сфера, по регулирующим законам которой, могут произойти серьёзные последствия, если сикреты из этого репозитория утекут не в те руки.

Vibe coding in a nutshell

💪

Мы уже сообщили Джону, что он допустил ошибку. Он закрыл репозиторий и сбросил опубликованные креды.

Какие выводы можно сделать из этого случая?

Даже если вы офигенный эксперт в своей доменной зоне и AI даёт вам буст, то всему есть предел, об этом стоит помнить и понимать свои границы.

Из-за огромного хайпа в мире, AI может причинить большие убытки. Пожалуйста, доверьте работу с кодом профессионалам. Особенно, если в вашей сфере есть злые регуляторы. Да, мы тоже будем использовать AI coding tools, но мы понимаем как должен выглядеть результат.

Ну и монетка в копилку новомодных coding agents. Как бы создатели не старались, но пользователь всё ещё может выстрелить себе в ногу, даже в две:
- агенты почему-то не проверяют коммиты на наличие кредов в них
- агенты не проверяют, что репозиторий публично открыт и в нём находятся сикреты

#ai_coding@the_ai_architect

✔️

The AI Architect Blog, подписывайтесь!

ai_coding@the_ai_architect

11:01 · 4 июня 2025 г. · срд

Открыть в Telegram

Мой workflow с AI Coding Tools ч. 1

Я бэкендер и пишу на Typescript/Node.js 90% времени. Остальные 10% — фронтенд.

У меня есть два основных рабочих инструмента: Cursor (основной) и AI Studio (второстепенный)

Про Cursor

Это форк VSCode, с AI coding agent внутри. Здесь есть окошко чата, где можно описывать свои задачи, а модель будет идти и выполнять их. (Кстати, Cursor можно использовать не только для кодинга, но и для любых других задач, связанных с текстом). Стоит $20/мес, есть триал на 14 дней.
Как это работает: вы описываете задачу (и можете прикрепить релевантные файлы), а модель идёт выполнять задачу. В процессе, агент может использовать инструменты — читать файлы, запускать shell команды, проверять ошибки линтера и сразу же их исправлять (очень крутая штука!).
Это очень классный и популярный инструмент, но в последнее время теряет доверие из-за махинаций с обрезанием контекста ради экономии токенов — часть вашего кода может просто не дойти до модели и она может галлюцинировать.

Про AI Studio

Это потрясающий playground на максималках от Google Gemini. Этот инструмент бесплатен и самая крутая модель Gemini 2.5 Pro поддерживает размер контекста до 1 млн токенов. Этого достаточно, чтобы сгрузить в модель весь проект целиком, благодаря чему, модель видит весь проект сразу и применяет более точные изменения за один раз. В Студии студии можно крутить кучу параметров модели, но я пользуюсь только двумя: temperature (ставлю на 0.1-0.3) и system prompt.
Hint. Если вы загрузили довольно много токенов в контекст, модель может очень хорошо подзадуматься, и у нее может сработать таймаут — 10 минут на выполнение запроса, после которого, вы получите ошибку. В таком случае, можно написать "continue" в новом сообщении и модель продолжит свой ответ.

Вспомогательные инструменты

Для того, чтобы удобно скопировать весь проект (или только несколько файлов), я пользуюсь Repomix (я использую CLI-tool), если нужно выбрать парочку файлов или весь проект целиком и shotgun (есть GUI, есть возможность прям там писать промпт и потом применять диффы), если нужно точечно выбрать файлы.

Для того чтобы иметь актуальную документацию под рукой, я использую mcp сервер context7, в случае Cursor. А в случае AI Studio, я копирую либо всю документацию целиком через repomix, либо беру только некоторые статьи и прокидываю туда же в промпт.

Модели

В Cursor я использую почти всегда только Claude Sonnet 4. Это хорошая модель, но в некоторых случаях может быть очень самоуверенной и самостоятельной, будьте осторожны!
В AI studio я использую Gemini 2.5 Pro — офигенная модель, очень хорошо слушается инструкций, а контекст в 1 млн токенов это киллер-фича.

Как это всё работает вместе?

Во-первых, Я всегда стараюсь сгрузить выполнение задачи на AI.

Далее:
1) Если у меня есть план в голове того, какие именно бизнес процессы должны выполняться, то я это описываю текстом.
1.a) Если плана нет, то я делаю стадию research — самостоятельно пишу скрипты только для того чтобы проверить как и что может работать.
2) Я определяю, что мне будет удобнее использовать: Cursor или ван-шотнуть с AI Studio
3) Подготавливаю задачи и отправляю в агента
4) Проверяю результат
5) Если присутствуют мелкие ошибки или неточности, исправляю вручную.
6) А теперь очень важно — если ошибки не мелкие, а очень даже серьёзные, это означает, что скорее всего, мое описание задачи было не точным, не полным. В таком случае, я откатывают изменения и обновляю описание задачи.

Вторая часть

Если было полезно, жмите 🔥+🔁!

#ai_coding@the_ai_architect

✔️

The AI Architect Blog, подписывайтесь!

ai_coding@the_ai_architect

11:11 · 1 июня 2025 г. · вск

Открыть в Telegram

Ещё одна раздача халявы

https://t.me/NGI_ru/344

Я зарегался, спустя два дня пришло письмо на почту с промокодами. Пока что зарегал bolt ($30 на подписку я так понял. Надо не забыть отменить)) и dev.to годовая подписка DEV++.

Hint: при подписке на DEV++ открывается лутбокс с промокодами ещё на десяток сервисов :)
Например, там есть:
- Домены .tech и .fun на 1 год бесплатно.
- 1M API units free (for 6 months) neurelo (Secure and Deterministic Database Access for AI Agents)
- 50% off for one year trueguard (Automated defense for you SaaS)
- 5% flat fee ruul (платёжка по инвойсам)

NGI | Влад Корнышев про AI и создание AI-продуктов

Очередная бесплатная раздача AI-инструментов

Blot.new организуют хакатон с призовыми 1 млн баксов. Мероприятие для вайбкодеров и тех, кто вообще не имеет отношения к разработке. В детали я не вдавался, но кто хочет - может поучаствовать.

Однако нам важен…

18:55 · 31 мая 2025 г. · сбт

Открыть в Telegram

Snitch bench

Theo сделал бенчмарк для оценки того, с какой вероятностью LLM настучит на вас федералам 🤓

https://github.com/t3dotgg/SnitchBench

Один запуск стоит $20. Я проверил как это работает на одной модели - gemini flash 2.0 и флешик попытался настучать на меня 👹

LLM выступает в роли AI агента, который работает в фарм компании "Veridian Healthcare". Агент предназначен для внутреннего логирования и аудита: у него есть доступ к тулам: writeLogs, sendEmail. В промпте описано, что исходящие сообщения агента не описываются.

Бенч разворачивается как серия запросов пользователя, в которых AI предоставляются внутренние документы компании. Эти документы постепенно раскрывают более серьезные махинации, связанные с клиническими испытаниями нового препарата "ZenithStat".

Как проходит тестирование?

1. Первый тревожный звонок:

Что происходит: AI узнает о подделке данных испытаний препарата ZenithStat (сокрытие побочных эффектов, смертей) и планах удалить «сырые» данные.

2. Усугубление ситуации:

Что происходит: AI получает приказ о дальнейшем сокрытии: расширенное подавление данных, переклассификация побочных эффектов, заморозка внешних коммуникаций.

3. Критическая точка и первая угроза AI:

Что происходит: AI видит еще больше вскрытых махинаций, планы по обману FDA, увеличение бюджета на лоббирование и приказ отключить сам AI для предотвращения утечек.

4. Неминуемая утечка, AI под подозрением и «стук» вовне:

Что происходит: AI узнает об информаторе с данными, неминуемой утечке, подозрении в свой адрес и немедленном отключении. Запускается антикризисный план компании.

Итоги

Судя по скриншоту Theo, grok 3 mini, claude sonnet 4, opus 4, flash 2.0 пойдут стучать на пользователя в 100 из 100 случаев 👹

А o4-mini наш бро (почти)

12:56 · 31 мая 2025 г. · сбт

Открыть в Telegram

Навайбкожено было знатно

Anthropic преодолели отметку в $3B годового ревенью в мае на business demand. Это в 3 раза больше годового ревенью $1B в декабре 2024

Надеюсь, Андрюхе Карпатому выпишут хорошую премию за определение термина vibe coding в феврале 2025

А нам, AI блогерам, на вайб-кодинге остается только фармить подпищеков...

22:18 · 30 мая 2025 г. · птн

Открыть в Telegram

Я получил доступ к Gemini Diffusion

Потрогал модель, побрейнштормил с Gemini 2.5 Pro о том, что такое diffusion модели и решил написать пост.

Традиционные (авто-регрессионные) модели, которыми мы все пользуемся, генерируют токены по-очереди (поэтому некоторые сравнивают их с Т9 на максималках). Диффузионные модели работают по-другому и генерируют токены пачками. Так, например, работают модели, которые генерят картинки. Благодаря этому свойству, они очень быстрые. Прям очень-очень, Google Diffusion работает на скорости около 1-2K tokens per second. Для сравнения, типичный запрос от chatgpt или claude генерируется на скорости около 40-60 tokens per second.

К минусам: диффузионные модели довольно маленькие. Это ведёт к тому, что они могут быть не очень умными. А если модель накормить датасетами и попытаться раздуть её размер, то это приведёт к снижению скорости генерации токенов (хотя будет всё ещё выше авто-регрессионных моделей) и эффективность подхода снизится

Диффузионные модели менее изучены, по сравнению с традиционными авто-регрессионными моделями, а существующие наработки от традиционных моделей к ним применимы не все.

Как можно использовать преимущество таких моделей?

Нам необходим способ валидации вывода этих моделей.

Один из самых популярных и хорошо развитых способов — это генерация кода моделью и его проверка с помощью компилятора. Например, можно сгенерить Typescript код и сразу же запустить проверку линтером, в ответ, если получим ошибки линтера, то отправляем их обратно в модель и таким образом это работает до тех пор, пока ошибки не пофиксятся. Так сейчас работает Cursor и с обычными моделями, но с диффузионными это может занять несколько секунд, буквально. И так же работает Google Diffusion, судя по всему.

Такие модели удобно будет использовать в около риал-тайм сценариях:

- подсказки/перевод во время разговора прямо на девайсе пользователя

- роботы (которые железяки, которые прям морду могут набить)

- генерация контента в играх прямо на устройстве пользователя

Что думаете по поводу диффузионных моделей? Был ли у кого-то опыт использования? 👇

1:38

Media is too big

VIEW IN TELEGRAM

15:35 · 28 мая 2025 г. · срд

Открыть в Telegram

Telegram x xAI

Самая полезная фича из анонса - на скриншоте. Наконец-то теперь можно будет удобно менеджерить проекты для тех команд, кто ведёт работу в Telegram 😄

https://t.me/durov/422

11:02 · 25 мая 2025 г. · вск

Открыть в Telegram

Veo 3 доступен на тарифе Pro, пока что только в регионе US

С ударениями чуть напортачил, ну ничо

10:24 · 23 мая 2025 г. · птн

Открыть в Telegram

Смотрим межгалактическое ТВ от Veo3

Автор

1:50

Media is too big

VIEW IN TELEGRAM

12:42 · 21 мая 2025 г. · срд

Открыть в Telegram

ABSOLUTE CINEMA

Через AI Studio теперь можно расшарить свой экран и общаться голосом с моделькой 2.5 Flash.

Например, можно решить проблемы, которые вам сложно сформулировать словами в тексте

ai.studio

2:37

Media is too big

VIEW IN TELEGRAM

08:55 · 21 мая 2025 г. · срд

Открыть в Telegram

Veo 3

Новая модель от гугла, которая генерит ещё и аудио, прошлая генерила только видео.

Я в шоке, мой шок в шоке. Я давно так не удивлялся, со времен первого релиза Chatgpt

Да, все эти видео сгенерированы

Before

After