Oppgaver

tool-reasoning

Alle oppgaver er offentlige. Gull-svar og evalueringskode er åpen i repo'et.

2 av 2
IDBenchKategoriTittelVansk.Eval
reason-tool-001tool-usetool-reasoningVelg riktig sekvens av verktøy for sammensatt oppgavehardregex_all
reason-tool-002tool-usetool-reasoningBeslutt når verktøy ikke skal kallesmediumregex_all