Anti-leakage

Hold-out-set

Manifest generert 9. mai 2026, 13:56 · v0.1

Hvorfor et hemmelig sett?

80% av TenkiBench-oppgavene er offentlige — du kan se hver enkelt prompt og fasit på /oppgaver. De resterende 20% holdes hemmelig. Disse oppgavene kjøres kun internt og finnes bare på Tenki Labs sin produksjonsserver.

Hensikten er enkel: hvis en modell-leverandør med vilje eller uhell har trent på de offentlige oppgavene, vil scoren på det offentlige settet være kunstig høy. Et stabilt, hemmelig hold-out-set lar oss oppdage slike avvik. Hvis en modell scorer betydelig lavere på hold-out enn på det offentlige settet, er det et signal om mulig test-set-kontaminasjon.

Hva publiseres her

For hver hold-out-oppgave publiseres en SHA-256-hash av id | user_prompt | gold_answer. Hashen lar publikum verifisere at hold-out-settet er stabilt over tid (vi byttet ikke ut oppgaver mellom kjøringer) — uten å avsløre selve oppgaven. Hashene sorteres alfabetisk for at manifestet skal være deterministisk.

Statistikk

Total: 10 oppgaver.

Per bench

BenchAntall
eu-ai-act1
extraction1
gdpr-advanced1
hallucination1
norwegian-construction1
norwegian-finance1
norwegian-healthcare1
norwegian-language1
norwegian-smb1
tool-use1

Per vanskelighetsgrad

NivåAntall
medium9
hard1

Mer om metodikk

Detaljer om scoring, eval-metoder og kategorivekter finner du i /metodikk.