Metodikk

Hvordan TenkiBench fungerer

Hva vi måler

TenkiBench evaluerer hvor godt språkmodeller utfører konkrete oppgaver som er typiske for norske SMB-er: tolke fakturaer, vurdere kontrakter, beregne MVA, sitere norsk lov, hente Brønnøysund-data, svare på HR-spørsmål, skrive kundeservice-svar og oversette mellom Bokmål og Nynorsk.

Vi måler ikke generell intelligens, kreativ skriving eller koding. Disse er dekket av MMLU, GPQA, FrontierMath, HumanEval og lignende. Vår jobb er å svare på én ting: fungerer denne modellen i en norsk SMB-kontekst?

Eval-metoder

numeric_exact — tall-utdragning + toleranse (faktura, MVA)
regex / regex_all — én eller flere regex-mønstre må treffe (lov-§)
exact_string — eksakt tekst-match (etter trimming)
json_schema — strukturert JSON, dypsammenlignet (Brreg)
llm_judge — sterk modell vurderer mot rubrikk (kontrakt, kundeservice, oversettelse)

LLM-dommer kalibreres mot menneske-dommere. Avvik > 0.15 i gjennomsnitt fører til at vi bytter dommer-modell eller skriver om rubrikken. Kalibrerings-data er offentlig.

Score

Hver oppgave gir en score mellom 0.000 og 1.000. Per-kategori-score er gjennomsnittet av oppgavene i kategorien. Total-score er et vektet gjennomsnitt over kategorier, der vekten reflekterer hvor mye reell SMB-tid kategorien dekker:

Kontrakt-analyse: 1.5
Lov-referanse: 1.3
MVA og skatt: 1.2
Faktura, HR/lønn: 1.0
Brreg: 0.8
Kundeservice: 0.7
Bokmål↔Nynorsk: 0.5

Anti-leakage

80% av oppgavene er offentlige (alle vises på /oppgaver). 20% holdes hemmelig. Den hemmelige settet kjøres kun internt og brukes til å oppdage modeller som er trent på testen. Alle prompts og fasit hashes og publiseres.

Reproduserbarhet

Hver kjøring lagrer: modell-versjon, prompt-hash, temperatur, seed, dommer-modell, råe svar, evaluerings-output. Alt eksponeres viadet offentlige API'et.

Validering av oppgaver

Hver kategori valideres av minst én ekstern fagperson: advokat (kontrakt, lov-referanse), regnskapsfører (faktura, MVA, skatt), HR-rådgiver (HR/lønn), språkviter (Bokmål↔Nynorsk). Validatorene navngis på hver oppgave-side.

Hva vi ikke gjør

Vi tar aldri betalt fra modell-leverandører for evaluering eller plassering.
Vi lager ikke modell-anbefalinger til kunder uten å informere om at vår konsulentvirksomhet kan ha interesse.
Vi reklamerer ikke på leaderboard-sider.

Versjonering

TenkiBench versjoneres semantisk (major.minor.patch). Alle resultater er taggset medbench_version så historiske kjøringer er sammenlignbare innen samme versjon.

Kildekode

Alt: oppgaver, eval-engine, leaderboard. github.com/tenki-labs/tenkibench