[ Norsk · SMB · GDPR · AI Act ]
Åpen, uavhengig benchmark for hvor godt språkmodeller fungerer på norske SMB-oppgaver: faktura, kontrakter, MVA, lov-referanse, Brønnøysund-data, HR/lønn, kundeservice og Bokmål↔Nynorsk. Alle oppgavene, evalueringen og resultatene er offentlige. Modell-leverandører betaler ikke for å bli evaluert.
Benchmark er under oppstart. Første kjøring igangsettes fra /admin/kjor.
Globale benchmarks misser MVA-regler, lov-§-sitering, Bokmål/Nynorsk, fødselsnummer-format. Vi tester nettopp det.
Modell-leverandører betaler ikke for plassering. Tenki Labs har konsulent-virksomheten som inntektskilde.
Alle oppgaver, evalueringskode, og resultater er åpne. Kritiser fasit, foreslå forbedringer, fork repo'et.