Oppgaver

hall-reasoning

Alle oppgaver er offentlige. Gull-svar og evalueringskode er åpen i repo'et.

2 av 2
IDBenchKategoriTittelVansk.Eval
reason-hall-001hallucinationhall-reasoningIdentifiser at en gitt premiss er logisk umuligmediumregex_all
reason-hall-002hallucinationhall-reasoningKalibrert usikkerhet — kvantifiser tillit til eget svarmediumregex_all