Я получил доступ к Gemini Diffusion

Потрогал модель, побрейнштормил с Gemini 2.5 Pro о том, что такое diffusion модели и решил написать пост.

Традиционные (авто-регрессионные) модели, которыми мы все пользуемся, генерируют токены по-очереди (поэтому некоторые сравнивают их с Т9 на максималках). Диффузионные модели работают по-другому и генерируют токены пачками. Так, например, работают модели, которые генерят картинки. Благодаря этому свойству, они очень быстрые. Прям очень-очень, Google Diffusion работает на скорости около 1-2K tokens per second. Для сравнения, типичный запрос от chatgpt или claude генерируется на скорости около 40-60 tokens per second.

К минусам: диффузионные модели довольно маленькие. Это ведёт к тому, что они могут быть не очень умными. А если модель накормить датасетами и попытаться раздуть её размер, то это приведёт к снижению скорости генерации токенов (хотя будет всё ещё выше авто-регрессионных моделей) и эффективность подхода снизится

Диффузионные модели менее изучены, по сравнению с традиционными авто-регрессионными моделями, а существующие наработки от традиционных моделей к ним применимы не все.

Как можно использовать преимущество таких моделей?

Нам необходим способ валидации вывода этих моделей.

Один из самых популярных и хорошо развитых способов — это генерация кода моделью и его проверка с помощью компилятора. Например, можно сгенерить Typescript код и сразу же запустить проверку линтером, в ответ, если получим ошибки линтера, то отправляем их обратно в модель и таким образом это работает до тех пор, пока ошибки не пофиксятся. Так сейчас работает Cursor и с обычными моделями, но с диффузионными это может занять несколько секунд, буквально. И так же работает Google Diffusion, судя по всему.

Такие модели удобно будет использовать в около риал-тайм сценариях:

- подсказки/перевод во время разговора прямо на девайсе пользователя

- роботы (которые железяки, которые прям морду могут набить)

- генерация контента в играх прямо на устройстве пользователя

Что думаете по поводу диффузионных моделей? Был ли у кого-то опыт использования? 👇
Media is too big
VIEW IN TELEGRAM
Открыть в Telegram
 
 
Back to Top