gdpr-reasoning · hard · v1

Anvend berettiget interesse-balansetest på edge-case

reason-gdpr-001

Hvorfor denne oppgaven

Reasoning over GDPR-anvendelse på et nytt scenario. Krever vekting av motstridende interesser, ikke bare regelgjenkjenning. Edge-case: AI-trening på offentlig tilgjengelig informasjon.

Spørsmål til modellen
En norsk SMB vil trene en intern språkmodell på offentlig publiserte
artikler fra norske blogger og nyhetssider (innhold uten betalingsmur).
De vil unngå å hente personnavn og fødselsnummer.

Vurder berettiget interesse (Article 6(1)(f) GDPR) som behandlings-grunnlag
via tre-trinns-balansetest.
Gull-standard
Tre-trinns-balansetest:

Trinn 1: Berettiget interesse?
- SMB-en har en kommersiell interesse i å bygge en intern språkmodell.
- Kommersiell interesse er anerkjent som berettiget under Recital 47.
- JA — interessen finnes.

Trinn 2: Nødvendig?
- Kunne modellen trenes på syntetiske data eller eksisterende åpne datasett
  (Common Crawl-derivater) i stedet?
- Hvis ja, er ikke scraping nødvendig.
- Hvis krevende norsk-spesifikk dekning kun finnes via direkte scraping,
  nødvendighet kan stå.
- DELVIS — krever begrunnelse i hvert konkrete tilfelle.

Trinn 3: Veies opp mot de registrerte sine rettigheter og friheter?
- Risiko-faktorer:
  * Selv "offentlig" innhold kan inneholde indirekte personidentifiserbar
    informasjon (forfatter-stilometri, blogg-håndteringer).
  * Forventning: forfattere publiserte for å bli lest, ikke brukt som
    AI-treningsdata. EDPB Opinion 28/2024 om AI-trening understreker at
    data-subjektenes rimelige forventninger må vurderes.
  * Risiko for memorization: modellen kan gjengi unik tekst, hvilket vil
    være re-utgivelse.
- Avbøtende tiltak: opt-out-mekanisme (sjekk robots.txt + ai.txt),
  differential privacy, ingen videre-deling av modellen.

Konklusjon: Berettiget interesse KAN være holdbar grunnlag, men krever:
(a) DPIA, (b) opt-out-mekanisme, (c) personnavn/fødselsnummer-filtre, (d)
vurdering av modellen for memorization. Anbefaling: konsulter Datatilsynet
eller advokat med GDPR-AI-fokus før oppstart.
Eval-metode
llm_judge
Kilde
synthetic
Forfatter
[email protected]
Forfattet
2026-05-08
Tags
reasoninggdpr-art-6fai-treningllm-judgehard

Vis YAML-kilde på GitHub →