Я получил доступ к Gemini Diffusion
Потрогал модель, побрейнштормил с Gemini 2.5 Pro о том, что такое diffusion модели и решил написать пост.
Традиционные (авто-регрессионные) модели, которыми мы все пользуемся, генерируют токены по-очереди (поэтому некоторые сравнивают их с Т9 на максималках). Диффузионные модели работают по-другому и генерируют токены пачками. Так, например, работают модели, которые генерят картинки. Благодаря этому свойству, они очень быстрые. Прям очень-очень, Google Diffusion работает на скорости около 1-2K tokens per second. Для сравнения, типичный запрос от chatgpt или claude генерируется на скорости около 40-60 tokens per second.
К минусам: диффузионные модели довольно маленькие. Это ведёт к тому, что они могут быть не очень умными. А если модель накормить датасетами и попытаться раздуть её размер, то это приведёт к снижению скорости генерации токенов (хотя будет всё ещё выше авто-регрессионных моделей) и эффективность подхода снизится
Диффузионные модели менее изучены, по сравнению с традиционными авто-регрессионными моделями, а существующие наработки от традиционных моделей к ним применимы не все.
Как можно использовать преимущество таких моделей?
Нам необходим способ валидации вывода этих моделей.
Один из самых популярных и хорошо развитых способов — это генерация кода моделью и его проверка с помощью компилятора. Например, можно сгенерить Typescript код и сразу же запустить проверку линтером, в ответ, если получим ошибки линтера, то отправляем их обратно в модель и таким образом это работает до тех пор, пока ошибки не пофиксятся. Так сейчас работает Cursor и с обычными моделями, но с диффузионными это может занять несколько секунд, буквально. И так же работает Google Diffusion, судя по всему.
Такие модели удобно будет использовать в около риал-тайм сценариях:
- подсказки/перевод во время разговора прямо на девайсе пользователя
- роботы (которые железяки, которые прям морду могут набить)
- генерация контента в играх прямо на устройстве пользователя
Что думаете по поводу диффузионных моделей? Был ли у кого-то опыт использования? 👇
Потрогал модель, побрейнштормил с Gemini 2.5 Pro о том, что такое diffusion модели и решил написать пост.
Традиционные (авто-регрессионные) модели, которыми мы все пользуемся, генерируют токены по-очереди (поэтому некоторые сравнивают их с Т9 на максималках). Диффузионные модели работают по-другому и генерируют токены пачками. Так, например, работают модели, которые генерят картинки. Благодаря этому свойству, они очень быстрые. Прям очень-очень, Google Diffusion работает на скорости около 1-2K tokens per second. Для сравнения, типичный запрос от chatgpt или claude генерируется на скорости около 40-60 tokens per second.
К минусам: диффузионные модели довольно маленькие. Это ведёт к тому, что они могут быть не очень умными. А если модель накормить датасетами и попытаться раздуть её размер, то это приведёт к снижению скорости генерации токенов (хотя будет всё ещё выше авто-регрессионных моделей) и эффективность подхода снизится
Диффузионные модели менее изучены, по сравнению с традиционными авто-регрессионными моделями, а существующие наработки от традиционных моделей к ним применимы не все.
Как можно использовать преимущество таких моделей?
Нам необходим способ валидации вывода этих моделей.
Один из самых популярных и хорошо развитых способов — это генерация кода моделью и его проверка с помощью компилятора. Например, можно сгенерить Typescript код и сразу же запустить проверку линтером, в ответ, если получим ошибки линтера, то отправляем их обратно в модель и таким образом это работает до тех пор, пока ошибки не пофиксятся. Так сейчас работает Cursor и с обычными моделями, но с диффузионными это может занять несколько секунд, буквально. И так же работает Google Diffusion, судя по всему.
Такие модели удобно будет использовать в около риал-тайм сценариях:
- подсказки/перевод во время разговора прямо на девайсе пользователя
- роботы (которые железяки, которые прям морду могут набить)
- генерация контента в играх прямо на устройстве пользователя
Что думаете по поводу диффузионных моделей? Был ли у кого-то опыт использования? 👇