Про аудио

Появилась задача вытащить аудио из видео и сделать структурированный текст по этому аудио.

Обычно, я просил агента использовать ffpmeg для извлечения аудио и далее полученный mp3 я руками кидал в ai.studio и промптил.
Это хорошо работало, но требовало делать это руками

Вчера я решил сделать это полностью с помощью агентов локально на Маке.

Я помнил что существует некая модель parakeet и якобы она хорошо работает с ру аудио. Ок, пошёл разбираться, как запустить её локально.
В одном чатике мне подсказали использовать kesha cli - это обёртка над тулами для работы с llm которые работают с аудио.
Попросил codex установить это и дал задачу превратить видео в структурированный текст.
За пару минут без каких-либо проблем codex справился и отдал мне отлично структурированный документ. Кайф!

Я решил пойти дальше и попробовать заменить свой Wispr Flow (диктовалка голоса с микро в текст) и вспомнил что есть Handy. Установил его, в нём же скачал ту же модель parakeet v3, попробовал, иии.. чот на зашло!

Да, круто что работает очень быстро и локально, но мне не понравилось, что плохо ставит окончания у слов и плохо разбирает англицизмы, а ещё чтобы говорить, нужно держать зажатыми кнопки, тут нет режима hands free.
Всё же у wispr flow дела с этим обстоят лучше. Видимо, сказывается дополнительная пост-обработка транскрипции, которая улучшает результат и готовый текст нужно меньше редактировать.

Кстати, Валера "навайбкожу любой софт за 120 мин" Ковальский дооснащал handy и вкорячивал туда историю copy-paste и добавлял поддержку использовать любую llm по remote api. Кому интересно - приходите посмотреть.

Лайк, репост,
✔️ Тимур Хахалев про AI Coding, подписывайтесь!
Открыть в Telegram
 
 
Back to Top