Metodikk

Hvordan TenkiBench fungerer

Hva vi måler

TenkiBench evaluerer hvor godt språkmodeller utfører konkrete oppgaver som er typiske for norske SMB-er: tolke fakturaer, vurdere kontrakter, beregne MVA, sitere norsk lov, hente Brønnøysund-data, svare på HR-spørsmål, skrive kundeservice-svar og oversette mellom Bokmål og Nynorsk.

Vi måler ikke generell intelligens, kreativ skriving eller koding. Disse er dekket av MMLU, GPQA, FrontierMath, HumanEval og lignende. Vår jobb er å svare på én ting: fungerer denne modellen i en norsk SMB-kontekst?

Eval-metoder

LLM-dommer kalibreres mot menneske-dommere. Avvik > 0.15 i gjennomsnitt fører til at vi bytter dommer-modell eller skriver om rubrikken. Kalibrerings-data er offentlig.

Score

Hver oppgave gir en score mellom 0.000 og 1.000. Per-kategori-score er gjennomsnittet av oppgavene i kategorien. Total-score er et vektet gjennomsnitt over kategorier, der vekten reflekterer hvor mye reell SMB-tid kategorien dekker:

Anti-leakage

80% av oppgavene er offentlige (alle vises på /oppgaver). 20% holdes hemmelig. Den hemmelige settet kjøres kun internt og brukes til å oppdage modeller som er trent på testen. Alle prompts og fasit hashes og publiseres.

Reproduserbarhet

Hver kjøring lagrer: modell-versjon, prompt-hash, temperatur, seed, dommer-modell, råe svar, evaluerings-output. Alt eksponeres viadet offentlige API'et.

Validering av oppgaver

Hver kategori valideres av minst én ekstern fagperson: advokat (kontrakt, lov-referanse), regnskapsfører (faktura, MVA, skatt), HR-rådgiver (HR/lønn), språkviter (Bokmål↔Nynorsk). Validatorene navngis på hver oppgave-side.

Hva vi ikke gjør

Versjonering

TenkiBench versjoneres semantisk (major.minor.patch). Alle resultater er taggset medbench_version så historiske kjøringer er sammenlignbare innen samme versjon.

Kildekode

Alt: oppgaver, eval-engine, leaderboard. github.com/tenki-labs/tenkibench