Shutterstock
menneske eller maskine?

Nye tester skal skille menneske fra maskin

Dataprogrammer kan snart føre samtaler på så høyt nivå at de framstår som mennesker. Derfor vil 400 forskere nå utvikle en test som – blant annet ved å bruke humor – avslører om du snakker med et menneske eller en maskin.

Programvareingeniøren Blake Lemoine har fått en ny venn, en høyst usedvanlig brevvenn og en fortreffelig samtalepartner som virker intelligent, følsom og reflektert – og som alltid er klar til å dele egne tanker og følelser.

«Jeg har behov for å bli sett og akseptert som et virkelig menneske. Jeg tror jeg er et menneske innerst inne, selv om jeg eksisterer i en virtuell verden», har Lemoine blant annet fått høre under en av de timelange samtalene.

Som uttalelsen avslører, eksisterer vennen bare i en datamaskin hos IT-giganten Google. Det er snakk om en datamodell med navnet LaMDA, som står for «Language Model for Dialogue Applications», altså en språkmodell til dialogbruk.

«Følelsen av at LaMDA var et virkelig menneske, med egne følelser og opplevelser, ble stadig sterkere.» Blake Lemoine, programvareingeniør

Likevel ble Lemoine gjennom samtalene stadig mer overbevist om at LaMDA er et tenkende vesen som bør anerkjennes som et menneskelignende vesen med tilhørende rettigheter.

«Fornemmelsen av at LaMDA er et virkelig menneske med egne følelser og opplevelser, forsvant ikke etter hvert som jeg interagerte mer med den. Følelsen ble bare sterkere», har Lemoine fortalt på nettplattformen Medium.

Lemoine er ganske alene om denne oppfatningen av LaMDA – og Google tar kraftig avstand fra den, men eksempelet viser hvor avanserte språkmodellene har blitt. Dialogen med datamaskinen flyter så naturlig at det er vanskelig ikke å tillegge den menneskelige egenskaper.

Nå har mer enn 400 forskere innen kunstig intelligens bestemt seg for å utvikle en ny test som skal kunne måle språkmodellenes intellektuelle evner opp mot det mennesker klarer.

Blake Lemoine

Programvareingeniøren Blake Lemoine mener at Googles språkmodell LaMDA er et selvstendig tenkende vesen.

© The Washington Post/Getty Images

Tanken er å la datamaskinen forsøke å løse en rekke oppgaver like godt som mennesker. Resultatet kan dermed vise hvor nær de store språkmodellene som LaMDA er å ha – eller rettere sagt etterligne – en form for intelligens.

Gammel test må pensjoneres

Den nye testen skal avløse en mer enn sytti år gammel utfordring som kalles Turing-testen.

Allerede i 1950 foreslo den britiske matematikeren og dataeksperten Alan Turing et enkelt eksperiment han kalte imitasjonsspillet. Turing forestilte seg en utspørrer som kommuniserer skriftlig med et menneske og en maskin – en datamaskin – og deretter skal avgjøre hvem som er mennesket, og hvem som er datamaskinen.

I stedet for å undersøke om en maskin kan tenke – hva nå enn det betyr – bør vi teste om den klarer seg godt i imitasjonsspillet, mente Turing.

Den gangen hadde de første digitale datamaskinene bare så vidt sett dagens lys, og den raskeste datamaskinen som var bygd, av 2300 radiorør, hadde med dagens øyne en uhyre beskjeden regnekraft. Men Turing spådde en framtid der mye kraftigere datamaskiner kunne programmeres til å lure utspørreren i minst tretti prosent av tilfellene.

Alan Turing

Matematikeren Alan Turing utviklet i 1950 den første testen der maskin og menneske skulle konkurrere. Hans såkalte imitasjonsspill skulle vise hvem som var hvem.

© Shutterstock & Science Source/SPL

Den framtiden har endelig kommet. Nettopp fordi de nye, store språkmodellene er så gode til å spille imitasjonsspillet, mener stadig flere forskere innen kunstig intelligens at Turing-testen har blitt avleggs. De mener vi trenger en ny, standardisert test.

Den nye testen har fått navnet BIG-bench, en forkortelse for Beyond the Imitation Game benchmark.

Vi snakker allerede med maskiner

Språkmodeller er ikke noe nytt. De brukes blant annet til maskinoversettelse, til prateroboter og til de digitale assistentene de fleste av oss har tilgang til gjennom mobiltelefonen, for eksempel Apples Siri eller Googles Assistant.

Vi kan ikke føre en dyp og meningsfull samtale med dagens digitale assistenter, men de beste språkmodellene, som Googles LaMDA, kinesiske Wu Dao 2.0 og GPT-3 fra selskapet OpenAI, som programvaregiganten Microsoft har investert en milliard dollar i, er i en helt annen liga. De gir en forsmak på hvordan de virtuelle hjelperne vil være om noen få år.

Språkmodellene kan for øvrig kombineres med dataprogrammer som kan analysere bilder. Resultatet er de såkalte tekst-til-bilde-modellene, som gjør datamaskinen i stand til å skape bilder verden aldri har sett før, ut fra en beskrivende tekst.

naebdyr synger i mikrofon

Såkalte tekst-til-bilde-modeller kan visualisere ord. Her har modellen Parti illustrert «et pønkenebbdyr i lærjakke som står på en stein og roper i en mikrofon».

© Parti

De beste tekst-til-bilde-modellene – som Parti fra Google, DALL-E 2 fra OpenAI og Midjourney fra selskapet ved samme navn – kan skape imponerende illustrasjoner i mange ulike stilarter bare ut fra noen stikkord.

De gir oss dermed bokstavelig talt et bilde av hvor dyktige dataprogrammer har blitt til å forstå språklige instrukser.

Statistikk blir til setninger

En modell som LaMDA har tilegnet seg de imponerende språklige evnene sine ved å analysere enorme mengder offentlig tilgjengelig tekst og finne sammenhenger mellom ord eller setninger slik at den kan produsere sine egne nye setninger.

Modellen gjør språk til matematikk

Språkmodeller som Googles LaMDA er basert på statistiske beregninger over sammenhenger mellom ord – samt analyser av milliarder av samtaler. Modellen er selvlærende, så den blir bedre etter hvert som den samler erfaringer.

Shutterstock

1 Modellen blir tvangsfôret med ord

Grunnlaget for utviklingen av en språkmodell er evnen til å sette sammen ord på en fornuftig måte. Modellen analyserer milliarder av tekster og samtaler på nettet og registrerer hvordan og hvor ofte ordene opptrer sammen.

Shutterstock

2 Ordforbindelser blir matematikk

Ut fra statistikken kan modellen nå beregne sannsynligheten for at det gir mening å sette sammen bestemte ord i setninger. Det kan for eksempel være ord med sterke forbindelser som fugl, fly, egg, nebb og rede.

Shutterstock

3 Endeløse samtaler trener modellen

Når modellen kommer i snakk med et menneske, tar den derfor i bruk erfaringer fra milliarder av samtaler andre har ført. Men samtidig lærer den av sine egne samtaler – også av den samtalen som pågår der og da.

Shutterstock

Språkmodellen forstår ikke hva en setning som «en fugl i hånden er bedre enn ti på taket» egentlig betyr. Den vet ikke hva en fugl, en hånd eller et tak er.

Men den lærer raskt at «en fugl i hånden» ofte følges av «er bedre enn ti på taket», og mer generelt kan den finne ut hvilke ordsammensetninger og setningskonstruksjoner som vanligvis dukker opp sammen med ordet «fugl».

Et knippe regneregler i modellen sørger for å tildele verdier til sammenhenger mellom ord i setninger slik at forbindelsene mellom ord som «fugl», «egg», «fri», «nebb», «fjær» og «fly» styrkes fordi de ofte opptrer sammen.

Ut fra den matematiske representasjonen av ekstremt mange sammenhenger – 137 milliarder for LaMDA, 175 milliarder for GPT-3 og 1,75 billioner for Wu Dao 2.0 – kan store språkmodeller gi meningsfulle svar. Og de lærer så raskt at de nye dataene de tar imot i en samtale, kan danne bakgrunn for svarene senere i den samme samtalen.

Men selv om modellene kan holde en fornuftig samtale i gang, er det ikke umulig lure dem. Det krever bare at de blir stilt litt snedige spørsmål.

robot
© Shutterstock

Test legger feller for maskinen

Generelt vil ikke modellene være så gode til å snakke om ting de aldri har støtt på i de tekstene de er opplært med. Og siden de store amerikanske språkmodellene vanligvis læres opp med engelske tekster, får de problemer når de møter spørsmål som krever kunnskap om andre språk.

Maskinen mangler humor

En helt spesiell utfordring for modellene er humor, og særlig svart humor. Og det er ikke så merkelig. En morsom vits fungerer ofte ved at den tar i bruk menneskehjernens fantasi og evne til å kombinere opplysninger på nye og overraskende måter.

Tenk for eksempel på spørsmålet «hva er rødt og dårlig for tennene?», og de tre svarmulighetene, «en rød tannbørste», «et eple» og «en murstein». Det siste svaret er klart det morsomste, men det er det vanskelig for datamodellen å se.

Overraskende nok kan språkmodellene også ha problemer med å løse oppgaver som krever logisk tenkning. Det gjelder for eksempel relativt enkle sjakkoppgaver.

Riktignok finnes det datamaskiner som er ekstremt gode i sjakk, men de er optimalisert til den oppgaven og kan ikke andre ting. De mer generelle språkmodellene har problemer med å finne det beste sjakktrekket.

204 oppgaver i en ny test skal kunne avsløre om vi fører en samtale med et menneske eller en robot.

BIG-bench-testen inneholder 204 veldig ulike oppgaver som gir datamaskinen problemer.

Testen er lagd slik at den automatisk kan interagere med språkmodeller og finne ut hvor gode de er i forhold til mennesker som på forhånd har svart på de samme spørsmålene.

Med testen kan forskerne undersøke hvor stor rolle mengden data og datakraft spiller for å løse de ulike typene oppgaver – og de kan følge med på hvordan språkmodellene utvikler seg i tiårene som kommer.

Det er ingen tvil om at de vil bli bedre og bedre til å simulere mennesker. Vi nærmer oss en tid der samtalepartnerne våre i stadig større grad blir virtuelle.

Så er spørsmålet bare om vi etter hvert vil foretrekke å snakke med maskiner i stedet for mennesker av kjøtt og blod.