Kunstig intelligens – fremtidens kunstner?

Kunstig intelligens – fremtidens kunstner?

Porsche-portrettet
Porsche-portrettet i dette nummeret er generert av kunstig intelligens. Fotograf Even Mellum brukte tjenesten Midjourney, men det finnes flere andre lignende bildetjenester. Men hvordan i all verden fungerer de?


– Man gir rett og slett noen stikkord, såkalte prompts, og så lager programmet bildet basert på det, sier Mellum. – Selv bruker jeg kunstig intelligens som inspirasjon, og er mektig imponert over hvor langt teknologien er kommet, sier han. – Dette bildet er et resultat av promptene «Porsche 356», «Norge», «sunset», «scenery» og «Norwegian».

Klas Pettersen leder Norwegian Artificial Intelligence Research Consortium (NORA.ai) – et samarbeid mellom åtte universiteter, tre høyskoler og fem forskningsinstitutter om kunstig intelligens, maskinlæring og robotikk. Fra hjemmekontoret forklarer han hvordan moderne kunstig intelligens kan lage bilder – som til og med kan vinne kunstkonkurranser.

– Det fantes noen enklere versjoner av bildegenererende algoritmer før 2022, men det store gjennombruddet kom med Open AIs Dall-e 2, som kom i april i fjor, forteller Pettersen. – Det er det samme firmaet som står bak ChatGPT, som jo har fått veldig stor oppmerksomhet i det siste, og som mange av deres lesere sikkert har hørt om, sier han.

«Det er et såkalt selvlærende system, og med så store datamengder klarer systemet etter hvert å identifisere sammenhengen mellom ordene i bildeteksten og det som vises på bildet.»

Selvlærende algoritmer
I bunnen for algoritmene bak Midjourney ligger hundrevis av millioner av bilder som er koblet sammen med en bildetekst, forklarer Pettersen, som selv er fysiker og har arbeidet med hjerneforskning i en årrekke før han vendte blikket mot kunstig intelligens.

– Det er et såkalt selvlærende system, og med så store data- mengder klarer systemet etter hvert å identifisere sammenhengen mellom ordene i bildeteksten og det som vises på bildet. Det gjelder altså å mate algoritmene med enorme datamengder, som igjen er grunnlaget for læringen, forklarer han.

Men det i seg selv gjør ikke algoritmene i stand til å generere nye bilder. – Algoritmene læres videre opp ved at bilder tilføres støy, for eksempel ved at enkelte piksler blir tatt bort. Så prøver algoritmen å gjenskape det originale bildet. Ved å gjenta dette og fjerne stadig større deler av det originale bildet blir algoritmene i stand til å gjenskape bilder som er stadig mer ødelagt. Til slutt kan man da fjerne hele bildet og bare stå igjen med teksten, og algoritmene vil kunne bygge helt nye bilder bare basert på tekst. Dette kalles en diffusjonsmodell, og det er nok slik dette bildet er generert, sier Pettersen. – Da tar algoritmene utgangspunkt i et bilde som i utgangspunktet bare består av støy, og så bygger de opp innholdet basert på bildeteksten brukeren har lagt inn i systemet.

- Så når fotograf Even Mellum la inn ordene «Porsche 356», «Norwegian», «scenery» og «sunset», var dette begreper systemet gjenkjente og kunne generere et bilde ut fra?

– Ja, det er riktig. Og hver gang man gir denne inputen til AI-algoritmene, vil de lage et nytt bilde. Det er viktig å være klar over at dette ikke er bilder som blir hentet fra internett, men bilder som ikke eksisterer fra før av, og som blir skapt på nytt hver gang av den kunstige intelligensen, sier Pettersen. – Og i dette tilfellet synes jeg jo systemet har løst oppgaven godt, smiler han.

En spennende fremtid
Det er altså sammenhengen mellom tekst og bilder som er nøkkelen til at kunstig intelligens vet hva den skal skape. Tekstgenererende kunstig intelligens, som Chat GTP, fungerer på mye av den samme måten, forteller Pettersen.

– Her er det også snakk om enorme tekstmengder som ligger til grunn for opplæringen av systemet. På samme måte som med bilder fjerner man deler av teksten og lar maskinene prøve å forstå hva som er blitt fjernet. Og når man gjør det lenge nok, viser det seg at maskinene lærer seg ganske mye – som syntaks, altså hvor ord kan stå i setninger, og rettskriving, for eksempel. Det som er vanskeligere, er å lære maskinene semantikk, altså hva ord betyr og står for. De har jo egentlig ikke noen virkelig forståelse av hva tekstene de genererer betyr, men opererer ut fra hvilke ord som med sannsynlighet kan følge etter hverandre, forklarer Pettersen, som spår at kunstig intelligens kommer til å få enorm innvirkning på mange områder i samfunnet.

– Mange har jo sammenlignet gjennombruddet i kunstig intelligens med innføringen av internett, og jeg er faktisk enig i at dette vil ha voldsomt stor betydning, sier han. – I løpet av kort tid vil det for eksempel ikke bli nødvendig å lage presentasjoner i PowerPoint selv, man kan bare si til AI-en hva man skal si, og så lager den hele presentasjonen for deg. Microsoft har inngått et nært samarbeid med Open AI, og dette er løsninger som antakelig ligger rett rundt hjørnet, sier han.

Dårlig i matte – foreløpig ...
Likevel er det ting disse algoritmene ikke er særlig gode til, noe som også har fått mye omtale. Matematikk og logikk er blant dem, selv om de nyeste systemene er blitt litt bedre.

– Det viser seg at denne typen nevrale nettverk ikke har særlig god tallforståelse, og heller ikke tenker logisk, sier Pettersen. – Her er det igjen viktig å huske at systemet ikke «vet» hva verden er satt sammen av, at en stein er en stein, så å si. Vi mennesker bygger opp mentale modeller av virkeligheten i hjernen, som vi bruker til å for eksempel predikere fremtiden med, og det er det vi også prøver å få kunstig intelligens til

å gjøre. Men det er vanskelig når den bare har tekst og bilder å forholde seg til, og ikke virkeligheten som vi mennesker erfarer med en rekke forskjellige sanser, sier han.

– Målet for kunstig intelligens-forskningen er å komme nærmere hvordan menneskehjernen fungerer, slik at den har et mye tydeligere bilde av hvordan verden henger sammen. Hvis man kommer dit, såkalt generell kunstig intelligens som også er i stand til å forbedre seg selv,

vil vi stå overfor en virkelig revolusjon, fastslår Pettersen.