Trænet på millionvis af data: Journalisters brug af kunstig intelligens kan ende med krænkelser af loven | bachelorprojektetomkunstigintelligensogjournalistik

Nyere former for kunstig intelligens er trænet på millionvis af data. Også ophavsretligt materiale, og ifølge eksperter kan brugen af den kunstige intelligens føre til utilsigtede brud på ophavsretten, der rammer både journalister og rettighedshavere.

Journalister, der bruger ChatGPT i deres arbejdsproces, kan komme til at krænke ophavsretten, når de udgiver deres artikler.

Det står klart, ifølge advokat og ekspert i ophavsret og EU-ret, Peter Schønning.

Fordi ChatGPT er blevet trænet på for eksempel nogle nyhedsartikler, så kan det svar, ChatGPT kommer med, når en journalist beder om et eller andet, i sig selv være en ophavsretskrænkelse, fordi der i svaret fra ChatGPT kan være nogle dele af de ophavsretligt beskyttede værker, som journalisterne så kan komme til at publicere, siger Peter Schønning.

En undersøgelse fra Dansk Erhverv fra 2023 viser, at over en million danskere over 18 år har prøvet at bruge sprogmodellen ChatGPT. Også de danske medier er i fuld gang med at eksperimentere med og bruge den kunstige intelligens i den journalistiske arbejdsproces, heriblandt JFM, Sjællandske Nyheder, Ekstra Bladet, Jyllandsposten og Politiken. Samtidig oplyser Tine Johansen, formand for Dansk Journalist Forbund, at deres kurser i AI-værktøjer bliver revet væk på ingen tid.

Kunstig intelligens har dog eksisteret længe, og det er ikke noget nyt fænomen, forklarer Ira Assent, professor ved datalogisk institut på Aarhus Universitet og forsker i kunstig intelligens og maskinlæring.

Det er en integreret del af rigtig mange af de produkter, vi bruger. Det kunne for eksempel være en telefons forslag til det næste ord, man skal skrive i en sms. Forstået på den måde, at den lærer, hvilke ord der plejer at blive brugt i en sammenhæng, og den så kommer med forslag på baggrund af det, siger Ira Assent og forklarer, at denne type kunstige intelligens kaldes for en sprogmodel.

Der er dog sket en stor udvikling af sprogmodellerne i de seneste år. Da virksomheden OpenAI lancerede deres sprogmodel, ChatGPT i 2022, fik det stor opmærksomhed. Blandt andet, fordi ChatGPT ikke bare kan foreslå enkelte ord, men hele sætninger og afsnit. I kølvandet på ChatGPT har en række virksomheder også lanceret deres bud på sprogmodeller. Blandt andet Microsoft med sprogmodellen Copilot.

__________________________________________________________________________________________________

Faktaboks: Hvad er en sprogmodel?

En sprogmodel – også kaldet LLM (Large Language Model) – er en type kunstig intelligens, der er trænet på en stor mængde tekstuel data – f.eks. artikler, bøger og hjemmesider. Ud fra dataene opnår modellen en menneskelignende sprogforståelse og -generering, som gør den i stand til at sandsynlighedsberegne et svar eller resultat. ChatGPT fra virksomheden OpenAI bygger blandt andet på en sprogmodel.

Kilde: Danmarks Tekniske Universitet

__________________________________________________________________________________________________

Sidenhen er modellerne blevet trænet på millionvis af dokumenter fra internettet. Det er en af årsagerne til, at der er sket et stort gennembrud i kunstig intelligens. Den større mængde træningsdata betyder, at modellerne er blevet bedre til at lære komplekse sammenhænge, siger Ira Assent.

Må gætte sig til det

Sprogmodellerne har dog ikke hukommelse nok til at huske alt det data, den bliver bedt om. Det forklarer Anders Søgaard, Professor ved Københavns Universitet og forsker i sprogteknologi og maskinlæring.

Det betyder, at modellerne nogle gange kan svare på noget, de ikke har set i deres træningsdata, fordi de kan gætte sig til det, siger Anders Søgaard.

Men ifølge Ira Assent er det altså også her nogle problemer ved brugen af ChatGPT kan opstå.

Der er et problem med, at sprogmodellen kan komme med falske påstande, siger Ira Assent.

Det opstår, når ChatGPT ikke er trænet på data om det spørgsmål, den bliver bedt om, og den bliver derfor nødt til at gætte sig til et svar, og her kan den altså godt gætte forkert og dermed opdigte noget, som ikke er sandt.

__________________________________________________________________________________________________

Faktaboks: Hvad er kunstig intelligens?

Kunstig intelligens eller AI, som det kaldes efter det engelske udtryk artificial intelligence, er computerprogrammer og maskiner, som efterligner et eller flere aspekter af den menneskelige intelligens. Det gælder abstrakt tænkning, analyse, problemløsning, mønstergenkendelse, sprogbeherskelse og -forståelse, planlægning og lignende.

Computerprogrammer der spiller skak, diagnosticerer patienter, planlægger ruter eller fører en samtale er eksempler på kunstig intelligens.

Kilde: Danmarks Tekniske Universitet

__________________________________________________________________________________________________

Kan krænke ophavsretten

Ira Assent ser dog også en anden problematik ved brugen af ChatGPT.

Man ved ikke, hvilke data modeller som ChatGPT er trænet på, da der ikke er givet adgang til at se, hvordan virksomhederne bag gør, siger Ira Assent.

Spørger man professor Anders Søgaard, er han ikke i tvivl om, at sprogmodellen ChatGPT er trænet på ophavsretligt beskyttet materiale.

Der er ingen tvivl om, at ChatGPT er trænet på ophavsretligt beskyttet materiale, og man kan sagtens få svar fra ChatGPT, der indeholder ophavsretligt beskyttet materiale. ChatGPT og de fleste af de her modeller er i stand til at reproducere ret store passager fra ophavsretligt beskyttet tekst, siger Anders Søgaard.

Peter Schønning, der er advokat og ekspert i ophavsret og EU-ret, ser to helt klare problematikker, når det kommer til ChatGPT og det ophavsretlige system.

Der er dels den problemstilling, at man langt hen ad vejen har trænet sprogmodellerne ulovligt. At man har krænket ophavsretten til en masse værker og andet materiale ved ikke at have fået tilladelse til at træne sprogmodellerne på det, siger Peter Schønning og understreger, at det drejer sig om ophavsretslovens paragraf 2 om at indhente samtykke fra forfatteren, hvis man vil bruge en hel tekst eller væsentlige dele af den.

__________________________________________________________________________________________________

Faktaboks: Ophavsretslovens paragraf 2, stk. 1

Ophavsretten medfører eneret til at råde over værket ved at fremstille eksemplarer af det og ved at gøre det tilgængeligt for almenheden i oprindelig eller ændret skikkelse, i oversættelse, omarbejdelse i anden litteratur- eller kunstart eller i anden teknik.

Kilde: Ophavsretsloven

__________________________________________________________________________________________________

Det grundlæggende i det er, at vil man bruge noget ophavsretligt beskyttet materiale i et AI-system, så skal man bede om tilladelse til det, og det er der mange tech-virksomheder, der ikke har gjort, konstaterer Peter Schønning, der selv har rådgivet i sager om sprogmodellers indflydelse på det ophavsretlige system.

Peter Schønning ser dog også en mulig konsekvens ved, at mange journalister på de danske medier i dag er i fuld gang med at benytte sig af blandt andet ChatGPT.

Hvis man indsætter et udkast til en artikel, man er i gang med at skrive, så er det jo muligt, at det her udkast indgår i sprogmodellens repertoire, som den trænes på, siger Peter Schønning.

Det kan i sidste ende få en stor konsekvens for rettighedshavere såsom journalister, forfattere og udgivere, fordi de ikke længere kan tjene penge på deres værker, forklarer Peter Schønning.

Hvis man får ChatGPT til at lave en ny geografibog, så er der jo ikke længere nogen, der vil bruge penge på at få forfattere og forlag til at udgive nye geografibøger. På samme måde med artikler. På den måde gør man mange forfattere, journalister og udgivere arbejdsløse, siger Peter Schønning.

Ændring af ophavsretsloven

Den 1. juli 2023 blev dele af ophavsretsloven ændret, da Danmark implementerer EU’s DSM-direktiv om ophavsret. En af de nye, væsentlige bestemmelser er § 11b, som i udgangspunktet gør tekst- og datamining lovligt, medmindre rettighedshaveren frabeder sig det. Tekst- og datamining er blandt andet det, AI-virksomhederne foretager sig, når deres sprogmodeller såsom ChatGPT trænes på data fra internettet.

Der er dog mange forbehold, og tekst- og datamining er ikke identisk med AI-virksomhedernes træning af sine modeller, forklarer Peter Schønning.

Der er ikke lighedstegn mellem træning af AI-modeller og § 11b. Der kan være noget af det, man gør i forbindelse med AI-træningen som kan kaldes tekst- og datamining, men der kan også være nogle andre elementer i det, såsom kopiering af materiale, som ikke er omfattet af den bestemmelse, siger Peter Schønning.

Derfor understreger Peter Schønning også, at ændringen af ophavsretsloven ikke betyder, at AI-virksomhederne ikke stadig kan krænke ophavsretten, når de træner deres AI-modeller.

AI-virksomhederne kan stadig have foretaget tekst- og datamining af ophavsbeskyttet materiale, hvor rettighedshaverne har frabedt sig det, og der kan også være sket træning på baggrund af ophavsbeskyttet materiale, før lovændringen trådte i kraft, siger Peter Schønning.

__________________________________________________________________________________________________

Faktaboks: Hvad er tekst- og datamining?

Ved tekst- og datamining forstås enhver automatiseret, analytisk fremgangsmåde, der har til formål at analysere tekst og data i digital form med henblik på at generere oplysninger, herunder mønstre, tendenser og korrelationer.

Kilde: ophavsretslovens § 11 b. stk. 1.

__________________________________________________________________________________________________

Forbehold kan ignoreres

Som følge af lovændringen har både brancheorganisationen Danske Medier og Dansk Journalist Forbund dog anbefalet, at man som rettighedshaver skriver et forbehold på sin hjemmeside, hvor det blandt andet fremgår, at man forbeholder sig alle rettigheder til indholdet.

Virksomheden bag ChatGPT, OpenAI, har også selv meddelt, at man kan blokere for at få brugt sine informationer til træning af deres sprogmodel ved at indtaste ordene ’User-agent: GPTBot Disallow:/’ i sin hjemmesides tekstfil.

Sådanne forbehold betyder dog ikke, at sprogmodeller ikke stadig kan tilgå og træne på informationerne. Det forklarer Kasper Green Larsen, professor og forsker i algoritmer og maskinlæring på Aarhus Universitet.

Der er ikke noget, der forhindrer dem i at gøre det alligevel, men man må jo så forvente, at OpenAI agerer efter de regler, de selv har sat op. Andre AI-firmaer kan dog i princippet godt stadig træne deres modeller på dine data alligevel, siger Kasper Green Larsen.

Kompetencerne ligger hos EU

Tidligere på året kunne regeringens ekspertgruppe om tech-giganter med professor Mikkel Flyverbom fra CBS i spidsen præsentere en række anbefalinger til, hvordan man skal håndtere tech-giganternes udvikling og anvendelse af kunstig intelligens.

En af disse anbefalinger lyder, at AI-virksomheder skal kunne dokumentere, at de ikke overtræder ophavsretslovgivningen.

Kompetencerne til at gøre anbefalingerne til lov ligger hos EU, og i august trådte EU’s AI-forordning i kraft, hvis formål er at regulere anvendelsen af kunstig intelligens inden for EU. Her fremgår det blandt andet, at udbydere af generelle AI-modeller såsom ChatGPT fra 2. august næste år skal offentliggøre en detaljeret oversigt over det indhold, der er brugt til at træne AI-modellen.

_________________________________________________________________________________________________

Faktaboks om EU’s AI-forordning

2. august 2025 træder forpligtelser for udbydere af sprogmodeller i kraft. Det betyder, at udbyderne skal udarbejde og løbende opdatere teknisk dokumentation for deres sprogmodeller. Der skal implementeres en politik for overholdelse af EU-lovgivningen om ophavsret, og tech-virksomhederne skal offentliggøre en detaljeret oversigt over det indhold, der er brugt til træning af sprogmodellen. Disse regler skal sikre, at udbydere af sprogmodeller opererer på en gennemsigtig måde.

Kravene til ChatGPT bliver blandt andet:

At oplyse, at indholdet var genereret af kunstig intelligens.
Designe modellen til at forebygge, at det genererer ulovligt indhold.
Udgive resuméer om, hvilket ophavsretligt beskyttet materiale, der er brugt til oplæring af sprogmodellen.

Kilde: Dansk Erhverv og Europa-Parlamentet

__________________________________________________________________________________________________

Det er den danske EU-parlamentariker Morten Løkkegaard (V), som kom med forslaget om, at der skal være mere gennemsigtighed i, hvordan AI-modeller trænes, og han er glad for, at det endte med at blive vedtaget i EU’s AI-forordning.

Transparens er et fundament for at opbygge en tillid til AI og for at beskytte ophavsrettigheder, skriver Morten Løkkegaard i et mailsvar.

Morten Løkkegaard er ikke i tvivl om, at forslaget om dokumentation vil betyde bedre vilkår for rettighedshavere på længere sigt.

Når virksomhederne dokumenterer deres træningsdata, kan vi begynde at se, hvor udfordringerne ligger, og hvordan vi bedst håndterer dem. Det er et vigtigt første skridt, i forhold til at sikre gode betingelser for ophavsrethavere, skriver Morten Løkkegaard.

Samtidig forklarer Morten Løkkegaard, at dokumentationen på sigt kan føre til ordninger, hvor ophavsrethavere bliver krediteret, kompenseret eller giver samtykke til, at deres indhold bliver anvendt i sprogmodeller.

Også EU-parlamentariker Christel Schaldemose (S) er positivt stemt over for øget gennemsigtighed med, hvad AI-modeller bliver trænet på.

Det er en essentiel del af AI-forordningen, da åbenhed er vigtigt for, at vi kan sikre, at AI udvikles ansvarligt. For længe har AI været en sort boks, som vi ikke har haft indsigt i. Derfor har vi heller ikke haft nogen chance for at vide, hvordan det påvirker os eller vores samfund. Det er på rette tid, at vi har fået gjort op med det, skriver Christel Schaldemose i et mailsvar.

Et stykke vej endnu

Helt så afklaret og positivt stemt som de to EU-parlamentarikere er for bestemmelsen om øget gennemsigtighed, er Peter Schønning dog ikke. Ifølge ham er det stadig meget svært at sige med sikkerhed, om det bliver en endegyldig bestemmelse, som forpligter AI-virksomhederne til konkret at dokumentere, hvad de træner deres modeller på.

Det er en bestemmelse om, at der skal være transparens, og at man skal give rettighedshaverne en eller anden form for information, men hvordan det helt præcist bliver udmøntet, og hvordan det bliver opfattet og forstået, det har vi stadig til gode at se, siger Peter Schønning, der dog samtidig fastslår, at det er positivt set fra rettighedshavernes synspunkt, at der overhovedet er en bestemmelse om transparens i EU’s AI-forordning.

Ifølge Maria Fredenslund, direktør i interesseorganisationen Rettighedsalliancen, er der også et stykke vej endnu, før man kan få armene op over hovedet.

Jeg synes, bestemmelsen er meget udetaljeret. Vi har brug for at få adgang til datasættene, hvor vi kan se indholdet, og hvor indholdet er kommet fra. Vi er glade på rettighedshavernes vegne, at ordet ’transparens’ indgår, men der er lang vej til noget, vi rigtigt kan bruge i praksis, siger Maria Fredenslund.

Det er digitaliseringsstyrelsen, der skal koordinere implementeringen af EU’s forordning om kunstig intelligens.

Strategisk indsats

I december 2024 udkom regeringen med en ny rapport om, hvordan Danmark forholder sig til udviklingen og anvendelsen af kunstig intelligens. Her vil man med fire nye initiativer skabe et fundament og en retning for udviklingen og brugen af kunstig intelligens.

__________________________________________________________________________________________________

Faktaboks: Regeringens indsats for kunstig intelligens i Danmark

De fire nye initiativer:

Den Digitale Taskforce for kunstig intelligens, som er etableret i samarbejde med KL og Danske Regioner, skal rulle kunstig intelligensløsninger ud i den offentlige sektor i stor skala.

Et nyt center for kunstig intelligens i samfundet skal yde rådgivning om ansvarlig anvendelse af kunstig intelligens. Dermed kommer vigtig viden om kunstig intelligens ud at leve i myndigheder og virksomheder.

Etablering af en platform, som sætter skub på udviklingen af sikre og transparente danske sprogmodeller. Dermed styrkes grundlaget for arbejdet med kunstig intelligens i virksomheder og myndigheder.

Tilgængeliggørelse af danske tekstdata. Dermed understøttes grundlaget for at få flere kunstig intelligensløsninger af høj kvalitet, der fungerer på dansk.

Kilde: Digitaliseringsministeriet

__________________________________________________________________________________________________

Kunstig intelligens er altså en enorm størrelse, der kun er blevet større i de seneste år i takt med udviklingen af sprogmodellen ChatGPT, som mange har taget til sig. Heriblandt journalisterne, som må se i øjnene, at brugen af sprogmodeller er forbundet med risici, der kan krænke ophavsretten. Til gengæld sker der meget på området politisk, hvor aktører kommer med anbefalinger til, hvordan man skal forholde sig til den kunstige intelligens. Selvom det ikke står klart, hvordan bestemmelsen om øget gennemsigtighed af sprogmodellerne kommer til at udmønte sig, så træder bestemmelsen i AI-forordningen i kraft 2. august næste år, hvor reglerne sandsynligvis er blevet mere konkrete.

Nyere former for kunstig intelligens er trænet på millionvis af data. Også ophavsretligt materiale, og ifølge eksperter kan brugen af den kunstige intelligens føre til utilsigtede brud på ophavsretten, der rammer både journalister og rettighedshavere.

Skriv et svar Annuller svar