Этот тест показывает, насколько хорошо llm держит контекст и не забывает его. Все же знают, что даже если у llm контекстное окно в 128k tokens, то большая вероятность что на таком объёме llm может забыть информацию?
И вот перевод основных инсайтов от автора:
Ключевые выводы:
• o1 и Claude Sonnet 3.7-thinking показывают сильные результаты. Они сохраняют высокую точность на протяжении значительного времени, однако для наших целей они всё ещё недостаточно точны для надёжного написания текстов в реальных условиях.
• DeepSeek-r1 значительно превосходит o3-mini и является отличным вариантом для пользователей, чувствительных к цене. Версия без thinking резко теряет точность при увеличении длины контекста.
• GPT-4.5-preview — лучшая модель без механизма рассуждений, опережающая конкурентов.
• Google Gemini 2.5 Pro сейчас явно занимает лидирующую позицию (SOTA). Впервые появилась модель, потенциально пригодная для написания текстов с длинным контекстом. Есть интерес протестировать её с бо́льшими размерами контекста.
• Gemma-3 показала слабые результаты в этом тесте.
• Anthropic Sonnet-3.7 значительно улучшена по сравнению с версией 3.5. Версия с механизмом рассуждений (thinking) использует 8000 токенов на рассуждения, чего должно быть достаточно, поскольку логика простая.
• Jamba сразу показывает результаты ниже 50%, но дальнейшее снижение точности незначительно.
• Qwen-max хорошо справляется на небольших окнах контекста, где имеются данные. qwq также показывает отличные результаты, превосходя R1.