Hvordan TenkiBench fungerer
Hva vi måler
TenkiBench evaluerer hvor godt språkmodeller utfører konkrete oppgaver som er typiske for norske SMB-er: tolke fakturaer, vurdere kontrakter, beregne MVA, sitere norsk lov, hente Brønnøysund-data, svare på HR-spørsmål, skrive kundeservice-svar og oversette mellom Bokmål og Nynorsk.
Vi måler ikke generell intelligens, kreativ skriving eller koding. Disse er dekket av MMLU, GPQA, FrontierMath, HumanEval og lignende. Vår jobb er å svare på én ting: fungerer denne modellen i en norsk SMB-kontekst?
Eval-metoder
numeric_exact— tall-utdragning + toleranse (faktura, MVA)regex/regex_all— én eller flere regex-mønstre må treffe (lov-§)exact_string— eksakt tekst-match (etter trimming)json_schema— strukturert JSON, dypsammenlignet (Brreg)llm_judge— sterk modell vurderer mot rubrikk (kontrakt, kundeservice, oversettelse)
LLM-dommer kalibreres mot menneske-dommere. Avvik > 0.15 i gjennomsnitt fører til at vi bytter dommer-modell eller skriver om rubrikken. Kalibrerings-data er offentlig.
Score
Hver oppgave gir en score mellom 0.000 og 1.000. Per-kategori-score er gjennomsnittet av oppgavene i kategorien. Total-score er et vektet gjennomsnitt over kategorier, der vekten reflekterer hvor mye reell SMB-tid kategorien dekker:
- Kontrakt-analyse: 1.5
- Lov-referanse: 1.3
- MVA og skatt: 1.2
- Faktura, HR/lønn: 1.0
- Brreg: 0.8
- Kundeservice: 0.7
- Bokmål↔Nynorsk: 0.5
Anti-leakage
80% av oppgavene er offentlige (alle vises på /oppgaver). 20% holdes hemmelig. Den hemmelige settet kjøres kun internt og brukes til å oppdage modeller som er trent på testen. Alle prompts og fasit hashes og publiseres.
Reproduserbarhet
Hver kjøring lagrer: modell-versjon, prompt-hash, temperatur, seed, dommer-modell, råe svar, evaluerings-output. Alt eksponeres viadet offentlige API'et.
Validering av oppgaver
Hver kategori valideres av minst én ekstern fagperson: advokat (kontrakt, lov-referanse), regnskapsfører (faktura, MVA, skatt), HR-rådgiver (HR/lønn), språkviter (Bokmål↔Nynorsk). Validatorene navngis på hver oppgave-side.
Hva vi ikke gjør
- Vi tar aldri betalt fra modell-leverandører for evaluering eller plassering.
- Vi lager ikke modell-anbefalinger til kunder uten å informere om at vår konsulentvirksomhet kan ha interesse.
- Vi reklamerer ikke på leaderboard-sider.
Versjonering
TenkiBench versjoneres semantisk (major.minor.patch). Alle resultater er taggset medbench_version så historiske kjøringer er sammenlignbare innen samme versjon.
Kildekode
Alt: oppgaver, eval-engine, leaderboard. github.com/tenki-labs/tenkibench