Anti-leakage

Hold-out-set

Manifest generert 9. mai 2026, 13:56 · v0.1

Hvorfor et hemmelig sett?

80% av TenkiBench-oppgavene er offentlige — du kan se hver enkelt prompt og fasit på /oppgaver. De resterende 20% holdes hemmelig. Disse oppgavene kjøres kun internt og finnes bare på Tenki Labs sin produksjonsserver.

Hensikten er enkel: hvis en modell-leverandør med vilje eller uhell har trent på de offentlige oppgavene, vil scoren på det offentlige settet være kunstig høy. Et stabilt, hemmelig hold-out-set lar oss oppdage slike avvik. Hvis en modell scorer betydelig lavere på hold-out enn på det offentlige settet, er det et signal om mulig test-set-kontaminasjon.

Hva publiseres her

For hver hold-out-oppgave publiseres en SHA-256-hash av id | user_prompt | gold_answer. Hashen lar publikum verifisere at hold-out-settet er stabilt over tid (vi byttet ikke ut oppgaver mellom kjøringer) — uten å avsløre selve oppgaven. Hashene sorteres alfabetisk for at manifestet skal være deterministisk.

Statistikk

Total: 10 oppgaver.

Per bench

Bench	Antall
eu-ai-act	1
extraction	1
gdpr-advanced	1
hallucination	1
norwegian-construction	1
norwegian-finance	1
norwegian-healthcare	1
norwegian-language	1
norwegian-smb	1
tool-use	1

Per vanskelighetsgrad

Nivå	Antall
medium	9
hard	1

Mer om metodikk

Detaljer om scoring, eval-metoder og kategorivekter finner du i /metodikk.