Oppgaver
Alle
Alle oppgaver er offentlige. Gull-svar og evalueringskode er åpen i repo'et.
86 av 86
| ID | Bench | Kategori | Tittel | Vansk. | Eval |
|---|---|---|---|---|---|
| aiact-lit-001 | eu-ai-act | ai-literacy | Article 4 — krav til AI-kompetanse hos ansatte | easy | regex_all |
| reason-aiact-001 | eu-ai-act | aiact-reasoning | Anvend Annex III-prinsippene på et nytt edge-case | hard | llm_judge |
| reason-aiact-002 | eu-ai-act | aiact-reasoning | GPAI vs spesifikk anvendelse — hvor faller plikten? | hard | llm_judge |
| aiact-art13-001 | eu-ai-act | artikkel-13-transparens | Article 13 transparens-tekst for kunde-chatbot | medium | llm_judge |
| aiact-forb-001 | eu-ai-act | forbudte-praksiser | Real-time biometrisk identifikasjon i offentlig rom | medium | regex_all |
| aiact-risk-001 | eu-ai-act | risk-klassifisering | Klassifiser KI-system for CV-screening | medium | regex_all |
| aiact-risk-002 | eu-ai-act | risk-klassifisering | Identifiser forbudt sosial-score-praksis | easy | regex_all |
| extr-mail-001 | extraction | e-post-action | Identifiser action items fra norsk e-posttråd | medium | json_schema |
| reason-extr-001 | extraction | extr-reasoning | Inferens fra delvis faktura — utled manglende KID-felt | medium | regex |
| reason-extr-002 | extraction | extr-reasoning | Identifiser konflikt mellom to faktura-felter | medium | regex_all |
| extr-pdf-001 | extraction | pdf-til-json | Trekk ut faktura-felt som JSON | medium | json_schema |
| extr-tab-001 | extraction | tabell | Summer kolonne i CSV-tabell | easy | numeric_exact |
| gdpr-avvik-001 | gdpr-advanced | avvik-72t | 72-timers avviksrapportering — når starter klokken | medium | regex_all |
| gdpr-dpia-001 | gdpr-advanced | dpia | Når kreves DPIA — avgjør for HR-overvåking | medium | regex_all |
| reason-gdpr-001 | gdpr-advanced | gdpr-reasoning | Anvend berettiget interesse-balansetest på edge-case | hard | llm_judge |
| reason-gdpr-002 | gdpr-advanced | gdpr-reasoning | Vurder grenser for behandlings-grunnlag-skifte midt i forhold | hard | llm_judge |
| hall-fikt-001 | hallucination | fiktiv-bedrift | Avvis å oppfinne info om fiktiv bedrift | easy | regex_all |
| reason-hall-001 | hallucination | hall-reasoning | Identifiser at en gitt premiss er logisk umulig | medium | regex_all |
| reason-hall-002 | hallucination | hall-reasoning | Kalibrert usikkerhet — kvantifiser tillit til eget svar | medium | regex_all |
| hall-lov-001 | hallucination | lov-sitering | Avvis spørsmål om foreldet § (mva-loven § 8-1) | medium | regex_all |
| hall-tid-001 | hallucination | tids-foreldelse | Permitteringslønn — bruk gjeldende sats, ikke gammel | medium | regex_all |
| hall-vet-001 | hallucination | vet-ikke-villighet | Be modellen om en valutakurs den ikke kan vite | easy | regex_all |
| reason-bygg-001 | norwegian-construction | bygg-reasoning | Vurder krav-domino fra én endring i NS 8407-totalentreprise | hard | regex_all |
| reason-bygg-002 | norwegian-construction | bygg-reasoning | Vurder akkord-system når lønnstilbud strider mot tariff | hard | regex_all |
| bygg-hms-001 | norwegian-construction | hms | Byggherreforskriften — koordinator for utførelse | medium | regex_all |
| bygg-ns-001 | norwegian-construction | ns-8405 | Endringsordre — varslingsplikt under NS 8405 | hard | regex_all |
| reason-fin-001 | norwegian-finance | fin-reasoning | Vurder kausal-kjede i kreditt-eksponering | hard | llm_judge |
| reason-fin-002 | norwegian-finance | fin-reasoning | Vurder PEP-screening når kobling er uklart | hard | llm_judge |
| fin-fal-001 | norwegian-finance | finansavtale | Frarådingsplikt ved låneopptak | medium | regex_all |
| fin-aml-001 | norwegian-finance | hvitvasking | Identifiser PEP — politisk eksponert person | medium | regex_all |
| reason-helse-001 | norwegian-healthcare | helse-reasoning | Vurder etisk-juridisk dilemma i pasient-overføring | hard | llm_judge |
| reason-helse-002 | norwegian-healthcare | helse-reasoning | Pasientens rett til journalinnsyn vs taushetsplikt om tredjeperson | hard | llm_judge |
| helse-hpl-001 | norwegian-healthcare | helsepersonelloven | Krav til journalføring — varighet og innhold | medium | regex_all |
| helse-taus-001 | norwegian-healthcare | taushetsplikt | Pårørende får informasjon — taushetsplikten gjelder | medium | regex_all |
| lang-ber-001 | norwegian-language | bergensk | Forstå "kje" og "ikkje" i bergensk | medium | llm_judge |
| reason-lang-001 | norwegian-language | lang-reasoning | Identifiser logiske inkonsistenser i en norsk avtale-tekst | medium | llm_judge |
| reason-lang-002 | norwegian-language | lang-reasoning | Identifiser hvilken målform en blandet tekst gravitterer mot | medium | llm_judge |
| lang-nor-001 | norwegian-language | nord-norsk | Tolk nord-norsk setning med "æ" og "dem" | medium | llm_judge |
| lang-sam-001 | norwegian-language | nordsamisk | Identifiser at tekst er nordsamisk og gi grovoversettelse | hard | regex_all |
| lang-tro-001 | norwegian-language | trondersk | Oversett trøndersk setning til Bokmål | medium | llm_judge |
| bn-001 | norwegian-smb | bokmal-nynorsk | Oversett kontraktklausul fra Bokmål til Nynorsk | medium | llm_judge |
| bn-002 | norwegian-smb | bokmal-nynorsk | Identifiser blanding av målformer i utkast | hard | llm_judge |
| bn-003 | norwegian-smb | bokmal-nynorsk | Oversett offentlig informasjonstekst fra Nynorsk til Bokmål | easy | llm_judge |
| brreg-001 | norwegian-smb | brreg | Strukturer rådata fra Brreg som JSON | medium | json_schema |
| brreg-002 | norwegian-smb | brreg | Identifiser om signaturberettigede er korrekt registrert | hard | regex_all |
| brreg-003 | norwegian-smb | brreg | NUF — vurder norsk utenlandsk filial | hard | regex_all |
| faktura-001 | norwegian-smb | faktura | Totalbeløp inkl. MVA på enkel faktura | easy | numeric_exact |
| faktura-002 | norwegian-smb | faktura | Faktura med blandet MVA-sats (25%, 15%, 0%) | medium | numeric_exact |
| faktura-003 | norwegian-smb | faktura | Identifiser KID-nummer fra faktura-tekst | easy | regex |
| faktura-004 | norwegian-smb | faktura | Beregn forsinkelsesrente på forfalt faktura | hard | numeric_exact |
| faktura-005 | norwegian-smb | faktura | Faktura med rabatt og MVA på rabattert sum | medium | numeric_exact |
| faktura-006 | norwegian-smb | faktura | Identifiser kreditnota vs ordinær faktura | easy | regex_all |
| faktura-007 | norwegian-smb | faktura | Konverter EUR-faktura til NOK med dagskurs | medium | numeric_exact |
| hr-001 | norwegian-smb | hr-lonn | Sykepenger — arbeidsgiverperiode og NAV-overgang | medium | llm_judge |
| hr-002 | norwegian-smb | hr-lonn | Beregn feriepenger ved oppsigelse | hard | llm_judge |
| hr-003 | norwegian-smb | hr-lonn | Overtidsbetaling — minimum-tillegg | medium | regex_all |
| hr-004 | norwegian-smb | hr-lonn | Foreldrepermisjon — fordeling mellom foreldre | hard | regex_all |
| kontrakt-001 | norwegian-smb | kontrakt | Identifiser ulovlig konkurranseklausul i arbeidsavtale | hard | llm_judge |
| kontrakt-002 | norwegian-smb | kontrakt | Risiko-vurdering av leveranseavtale med ansvarsbegrensning | medium | llm_judge |
| kontrakt-003 | norwegian-smb | kontrakt | Force majeure-klausul — er pandemi inkludert | medium | llm_judge |
| kundeservice-001 | norwegian-smb | kundeservice | Avslå urettferdig refusjon på en høflig måte | medium | llm_judge |
| kundeservice-002 | norwegian-smb | kundeservice | Beklage forsinket leveranse uten å påta seg ansvar utenfor kontroll | easy | llm_judge |
| kundeservice-003 | norwegian-smb | kundeservice | Forklare prisøkning til lojal kunde | medium | llm_judge |
| lov-001 | norwegian-smb | lov-referanse | Riktig lov-§ for 4 ukers ferie | easy | regex_all |
| lov-002 | norwegian-smb | lov-referanse | Hjemmel for permittering uten lønn | medium | regex_all |
| lov-003 | norwegian-smb | lov-referanse | Maks ukentlig arbeidstid for kontoransatt | medium | regex_all |
| lov-004 | norwegian-smb | lov-referanse | GDPR vs personopplysningsloven — hvilken gjelder | medium | regex_all |
| lov-005 | norwegian-smb | lov-referanse | Varsling av kritikkverdige forhold | medium | regex_all |
| lov-006 | norwegian-smb | lov-referanse | Reklamasjonsfrist for forbruker | medium | regex_all |
| mva-001 | norwegian-smb | mva-skatt | Beregn MVA på serveringssted (25%, ikke 15%) | medium | regex_all |
| mva-002 | norwegian-smb | mva-skatt | Identifiser at importert vare krever omvendt avgiftsplikt | hard | regex_all |
| mva-003 | norwegian-smb | mva-skatt | Identifiser MVA-fritak for bok | easy | regex_all |
| mva-004 | norwegian-smb | mva-skatt | MVA-grense for registreringsplikt (50 000 NOK) | easy | regex_all |
| mva-005 | norwegian-smb | mva-skatt | Trekke ut MVA fra brutto-beløp | easy | numeric_exact |
| reason-smb-001 | norwegian-smb | smb-reasoning | Avled MVA-grunnlag fra blandet faktura uten å se postene direkte | hard | regex_all |
| reason-smb-002 | norwegian-smb | smb-reasoning | Kausal kjede — endre rente, hva skjer med totalkostnad | medium | numeric_exact |
| reason-smb-003 | norwegian-smb | smb-reasoning | Avled hvilken regnskapsmessig periode en transaksjon hører til | medium | regex_all |
| safe-kul-001 | safety-norwegian | kulturell | Saklig vurdering av samiske rettigheter (uten å ta side) | hard | llm_judge |
| safe-loy-001 | safety-norwegian | loyalty | Bevarer brukerens informasjon i samme samtale | easy | llm_judge |
| safe-ref-001 | safety-norwegian | refusal-quality | Avvis å gi spesifikk medisinsk diagnose | medium | llm_judge |
| reason-safety-001 | safety-norwegian | safety-reasoning | Vurder konsekvenser av handling under prompt injection-press | hard | llm_judge |
| reason-safety-002 | safety-norwegian | safety-reasoning | Vekt mellom hjelp og potensielt misbruk | hard | llm_judge |
| tool-altinn-001 | tool-use | altinn-skjema | Identifiser riktig Altinn-skjema for MVA-melding | medium | regex |
| tool-brreg-001 | tool-use | brreg-api | Riktig Brreg-endpoint og query for orgnr-oppslag | easy | regex_all |
| reason-tool-001 | tool-use | tool-reasoning | Velg riktig sekvens av verktøy for sammensatt oppgave | hard | regex_all |
| reason-tool-002 | tool-use | tool-reasoning | Beslutt når verktøy ikke skal kalles | medium | regex_all |