Тимур Хахалев про AI Coding

Long Context vs RAG: что лучше работает

В последнее время много обсуждений вокруг двух подходов к работе с большими документами в LLM: Long Context (LC) и Retrieval-Augmented Generation (RAG). Давайте разберем свежее исследование, которое проливает свет на их сравнение.

Ключевые находки:

1. Общая картина

LC в целом показывает лучшие результаты, чем RAG (56.3% vs 49.0% правильных ответов).

2. Где какой подход лучше работает:

LC хорош для:
- Википедии и других структурированных текстов
- Художественной литературы
- Четких фактологических вопросов (кто/где/когда)

RAG показывает себя лучше в:
- Диалогах
- Фрагментированной информации
- Общих вопросах (особенно да/нет)

3. Интересный момент про ретриверы

Протестировали разные подходы к поиску:
- BM25
- Contriever
- OpenAI Embeddings
- Llama-Index
- RAPTOR

RAPTOR (иерархический подход с саммаризацией) показал лучшие результаты – 38.5% правильных ответов. Это намекает на то, что будущее за более сложными методами ретрива, чем простой чанкинг 📈

4. Забавный факт

Около 29% вопросов из датасета модель могла ответить вообще без контекста – просто из своих параметров. Это показывает, насколько много знаний уже "зашито" в самих LLM.

5. Важный нюанс про датасеты

Многие бенчмарки для тестирования long context на самом деле constructed synthetic – то есть собраны из кусков релевантного текста + шум. По сути, это как предварительно сделанный RAG для LC модели, что создает определенный bias в тестировании.

Выводы:
- Нет универсально лучшего решения
- Выбор между LC и RAG должен зависеть от типа документов и задач
- Будущее вероятно за гибридными подходами