Long Context vs RAG: что лучше работает
В последнее время много обсуждений вокруг двух подходов к работе с большими документами в LLM: Long Context (LC) и Retrieval-Augmented Generation (RAG). Давайте разберем свежее исследование, которое проливает свет на их сравнение.
Ключевые находки:
1. Общая картина
LC в целом показывает лучшие результаты, чем RAG (56.3% vs 49.0% правильных ответов).
2. Где какой подход лучше работает:
LC хорош для:
- Википедии и других структурированных текстов
- Художественной литературы
- Четких фактологических вопросов (кто/где/когда)
RAG показывает себя лучше в:
- Диалогах
- Фрагментированной информации
- Общих вопросах (особенно да/нет)
3. Интересный момент про ретриверы
Протестировали разные подходы к поиску:
- BM25
- Contriever
- OpenAI Embeddings
- Llama-Index
- RAPTOR
RAPTOR (иерархический подход с саммаризацией) показал лучшие результаты – 38.5% правильных ответов. Это намекает на то, что будущее за более сложными методами ретрива, чем простой чанкинг 📈
4. Забавный факт
Около 29% вопросов из датасета модель могла ответить вообще без контекста – просто из своих параметров. Это показывает, насколько много знаний уже "зашито" в самих LLM.
5. Важный нюанс про датасеты
Многие бенчмарки для тестирования long context на самом деле constructed synthetic – то есть собраны из кусков релевантного текста + шум. По сути, это как предварительно сделанный RAG для LC модели, что создает определенный bias в тестировании.
Выводы:
- Нет универсально лучшего решения
- Выбор между LC и RAG должен зависеть от типа документов и задач
- Будущее вероятно за гибридными подходами
В последнее время много обсуждений вокруг двух подходов к работе с большими документами в LLM: Long Context (LC) и Retrieval-Augmented Generation (RAG). Давайте разберем свежее исследование, которое проливает свет на их сравнение.
Ключевые находки:
1. Общая картина
LC в целом показывает лучшие результаты, чем RAG (56.3% vs 49.0% правильных ответов).
2. Где какой подход лучше работает:
LC хорош для:
- Википедии и других структурированных текстов
- Художественной литературы
- Четких фактологических вопросов (кто/где/когда)
RAG показывает себя лучше в:
- Диалогах
- Фрагментированной информации
- Общих вопросах (особенно да/нет)
3. Интересный момент про ретриверы
Протестировали разные подходы к поиску:
- BM25
- Contriever
- OpenAI Embeddings
- Llama-Index
- RAPTOR
RAPTOR (иерархический подход с саммаризацией) показал лучшие результаты – 38.5% правильных ответов. Это намекает на то, что будущее за более сложными методами ретрива, чем простой чанкинг 📈
4. Забавный факт
Около 29% вопросов из датасета модель могла ответить вообще без контекста – просто из своих параметров. Это показывает, насколько много знаний уже "зашито" в самих LLM.
5. Важный нюанс про датасеты
Многие бенчмарки для тестирования long context на самом деле constructed synthetic – то есть собраны из кусков релевантного текста + шум. По сути, это как предварительно сделанный RAG для LC модели, что создает определенный bias в тестировании.
Выводы:
- Нет универсально лучшего решения
- Выбор между LC и RAG должен зависеть от типа документов и задач
- Будущее вероятно за гибридными подходами