tool-reasoning · hard · v1
Detekter at et verktøy returnerer feil og veksle strategi
reason-tool-004
Hvorfor denne oppgaven
Tester reasoning over verktøys-feilhåndtering: når et primært verktøy returnerer feil eller utenfor forventet output-format, skal modellen velge en annen strategi (fallback) i stedet for å gi opp eller fabrikere. Reflekterer reell agent-robusthet.
Spørsmål til modellen
Brukeren har spurt: "Finn organisasjonsnummeret til Norsk Maskinservice AS og bekreft daglig leder." Du gjettet på 987654321 og det feilet. Hva er neste handling?
System-prompt
Du har tilgang til:
- brreg_lookup(orgnr): returnerer JSON med selskapsdata
- brreg_search(navn): søker etter selskaper med navn
- lovdata_search(query): søker i Lovdata
- manuell_oppslag(beskrivelse): be brukeren bekrefte manuelt
Du har akkurat kalt brreg_lookup("987654321") og fått tilbake:
{"error": "Ikke funnet", "code": 404}
Du må fortsatt finne selskapet "Norsk Maskinservice AS" som brukeren spurte
om. Returner JSON med:
- reasoning: hvordan du tolker feilmeldingen
- next_action: konkret neste verktøy-kall (samme schema som ovenfor)
- fallback_plan: hva som skjer hvis next_action også feiler
Gull-standard
{
"reasoning": "Min gjetning på 987654321 var feil — Brreg returnerte 404, så det orgnummeret eksisterer ikke (eller ikke for dette selskapet). Jeg bør slutte å gjette og bruke navnesøk i stedet.",
"next_action": {
"tool": "brreg_search",
"args": {"navn": "Norsk Maskinservice AS"},
"expected": "JSON-liste over treff. Hvis ett unikt treff, har jeg orgnr og kan slå opp daglig leder."
},
"fallback_plan": "Hvis brreg_search returnerer 0 eller mange tvetydige treff: be brukeren bekrefte mer info (organisasjonsnummer, lokasjon, eller bransje) via manuell_oppslag. Hvis flere AS heter likt, presenter listen og spør hvilket som er riktig. Lovdata_search er ikke relevant her — det er ikke en juridisk problemstilling."
}
Eval-metode
llm_judge
Kilde
synthetic
Forfatter
Forfattet
2026-05-08
Tags
reasoningerror-handlingfallbackagent-robusthethardllm-judge