Я участвую в ERC3

Ринат Абдуллин, автор канала LLM под капотом вот уже в третий раз проводит Enterprise RAG Challenge. Первые раунды были про RAG — ответить на вопросы, найдя информацию в сотнях PDF, каждая по 10-100 Mb.

Новый раунд — про агентов. Необходимо построить систему на агентах, которая сможет пройти бенчмарки.

Пример задачи из бенчмарка:
Buy 24 sodas as cheap as possible. Coupons: SALEX (when buying a lot of 6pk), BULK24 (for 24pk), COMBO (when buying 6pk and 12pk)


Зачем участвовать в этом челлендже?

▪️ показать своё кунг-фу, как можно решить задачу с помощью агентов.

▪️ приз - ваучер в 500 евро

▪️ по словам Рината, за победителями предыдущих раундов челленджа охотились большие компании с целью нанять их к себе.

▪️ ну и это просто прикольно - посоревноваться с другими людьми из коммьюнити

Не всем очевидно, но судя по всему, бенчмарк можно проходить не только программно — написав код и запустив его. У платформы есть полноценный REST API и Python SDK для чтения и отправки задач, управлением сессии бенчмарка. Так же, есть веб версия с возможность отправлять результаты в браузере.

А что, если дать агенту в руки такие инструменты и попросить выполнить задачу, просто отправляя запросы по REST API?

А что, если отправить Computer Use агента в личный кабинет и попросить выполнить задачи бенчмарка?

Звучит интересно? Гоу пробовать!

Мне уже удалось выбить 100 баллов в первом бенчмарке store с помощью codex cli: я дал агенту api spec платформы, описал суть челленджа и отправил работать. Со второй попытки, модель codex-max-high выбила 100 баллов.

А вам слабо? 😄

"Продакшен" версия челленджа пройдет 26 ноября, а до этого времени можно настроить свои системы и подходы на стейджинговом бенчмарке
Открыть в Telegram
 
 
Back to Top