(Этот бенчмарк показывает то, насколько хорошо модель держит контекст на разном количестве токенов)
Основные выводы
• o1 и Claude Sonnet 3.7-thinking демонстрируют хорошие результаты. Они сохраняют высокую точность в течение значительного времени, однако для наших целей их точность всё ещё недостаточна для надёжного использования в написании реальных текстов.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным выбором для пользователей, ориентированных на экономию бюджета. Версия без «рассуждений» резко теряет качество при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без поддержки рассуждений, уверенно превосходит конкурентов.
• Google Gemini 2.5 Pro теперь является однозначным лидером (SOTA). Это первый случай, когда большая языковая модель (LLM) может быть потенциально использована для работы с длинным контекстом. Сейчас интересно протестировать её на ещё более длинных контекстах.
• Gemma-3 показывает слабые результаты на данном тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Вариант «thinking» использует 8000 токенов на «рассуждения», чего должно быть достаточно для простой логики.
• Jamba сразу же показывает результат ниже 50%, но дальнейшее снижение незначительно.
• Qwen-max хороша в рамках небольших контекстов, для которых у нас есть данные. Версия qwq превосходна и лучше, чем R1.
• Llama 4 разочаровывает. Maverick не превосходит уже ниже среднего уровня Llama 3.3 70b, а Scout показывает откровенно плохие результаты.