Hold-out-set
Manifest generert 9. mai 2026, 13:56 · v0.1
Hvorfor et hemmelig sett?
80% av TenkiBench-oppgavene er offentlige — du kan se hver enkelt prompt og fasit på /oppgaver. De resterende 20% holdes hemmelig. Disse oppgavene kjøres kun internt og finnes bare på Tenki Labs sin produksjonsserver.
Hensikten er enkel: hvis en modell-leverandør med vilje eller uhell har trent på de offentlige oppgavene, vil scoren på det offentlige settet være kunstig høy. Et stabilt, hemmelig hold-out-set lar oss oppdage slike avvik. Hvis en modell scorer betydelig lavere på hold-out enn på det offentlige settet, er det et signal om mulig test-set-kontaminasjon.
Hva publiseres her
For hver hold-out-oppgave publiseres en SHA-256-hash av id | user_prompt | gold_answer. Hashen lar publikum verifisere at hold-out-settet er stabilt over tid (vi byttet ikke ut oppgaver mellom kjøringer) — uten å avsløre selve oppgaven. Hashene sorteres alfabetisk for at manifestet skal være deterministisk.
Statistikk
Total: 10 oppgaver.
Per bench
| Bench | Antall |
|---|---|
| eu-ai-act | 1 |
| extraction | 1 |
| gdpr-advanced | 1 |
| hallucination | 1 |
| norwegian-construction | 1 |
| norwegian-finance | 1 |
| norwegian-healthcare | 1 |
| norwegian-language | 1 |
| norwegian-smb | 1 |
| tool-use | 1 |
Per vanskelighetsgrad
| Nivå | Antall |
|---|---|
| medium | 9 |
| hard | 1 |
Mer om metodikk
Detaljer om scoring, eval-metoder og kategorivekter finner du i /metodikk.