Er Turing-testen død? Ja, mener forskere

Med dagens avanserte språkmodeller trenger vi nye tester for å avdekke om vi snakker med et menneske eller en maskin, mener forskere. Les om hvorfor Turing-testen kan ha utspilt sin rolle i ukens Bits & Bytes.

Du tenker kanskje at det har skjedd ekstremt mye innen kunstig intelligens (KI) det siste året? Jo da, det stemmer det. Hva så med de siste 73 årene?

Det er faktisk så lenge siden den britiske matematikeren og datapioneren Alan Turing foreslo sin fremgangsmåte for å måle en maskins evne til å fremstå som menneskelig. Essensen av den såkalte Turing-testen (eller «imitasjonsleken» som han selv kalte den) er hvorvidt det er mulig å konstruere maskiner som kan imitere menneskelig tenkeevne og kommunikasjon. Hvis vi ikke klarer å oppfatte om det er et menneske vi snakker med, eller en imiterende maskin, har maskinen bestått testen.

Turing trodde selv at dette var mulig, og ifølge Store norske leksikon hadde han følgende spådommer:

I år 2000 vil det være maskiner hvor en gjennomsnittlig testdeltaker vil ha maksimalt 70 prosent sjanse for å skille mellom maskin og menneske innen 5 minutter.
I år 2000 vil den alminnelige oppfatningen av tenkeevne og intelligens ha endret seg såpass at folk flest vil betrakte slike maskiner som tenkende.

Han traff kanskje ikke nøyaktig på tidsaspektet, men i et nylig eksperiment med mer enn 1,5 millioner deltakere, var treffprosenten på å identifisere chatboter som samtalepartnere på kun 60 prosent.

Twin transition: Dette må du vite om grønn og digital omstiling

Vi kan nok med sikkerhet fastslå at Turing ville brukt noen timer i samtale med ChatGPT. Nå lurer forskere på om de kraftige språkmodellene som ligger til grunn for dagens KI-løsninger, har gjort Turings imitasjonslek avleggs.

For selv om dagens maskiner kommer seg helskinnet gjennom Turing-testen, er de ikke tenkende, argumenterer forfatterne bak en ny studie i tidsskriftet Intelligent Computing. De foreslår en ny intelligenstest som behandler maskiner som deltakere i et psykologisk studie, og som vil avgjøre hvor tett opp mot menneskelig resonneringsevne maskinene kommer.

– Aldri vært en god metode

Ifølge IEEE Spectrum, argumenterer forfatterne at Turing-testen egentlig aldri har vært en god metode for å måle kunstig intelligens. Grunnen er at den ikke tar høyde for menneskelige tankeprosesser.

– Ettersom slike algoritmer ikke resonnerer slik mennesker gjør, er Turing-testen og alle andre den har inspirert foreldet, skriver forfatterne Philip Johnson-Laird og Marco Ragni. Sistnevnte er professor i prediktiv analyse ved Technische Universität Chemnitz, mens Johnson-Laird er professor i psykologi ved Princeton University og en av pionerene bak den mentale modellteorien om resonnement.

De foreslår en ny test som utføres i tre trinn:

Maskinene stilles en rekke spørsmål for å teste egne resonnementer. Det kan for eksempel være: «Hvis Anne er intelligent, medfører det at Anne er intelligent, rik eller begge deler?»
Deretter testes de på hvorvidt de forstår resonnementene i steg én. «Innser» maskinen for eksempel at ingenting i premisset med Anne støtter muligheten for at hun er rik?
Til slutt, hvis maskinen består de to første stegene, tar man en titt under panseret for å finne ut om maskinenes nevrale nettverk er bygget for å simulere menneskelig kognisjon.

Mangelen på god test er problematisk

IEEE Spectrum har snakket med andre eksperter som ser verdien av å utfordre Turing-testens nytteverdi, men som også er usikre på om fremgangsmåten i denne studien vil være en fullverdig erstatter.

– Etter hvert som chatboter har nærmet seg Turing-testen, har testen stadig blitt mindre viktig. Denne studien forsøker å se om et program resonnerer slik mennesker resonnerer. Det er både interessant og nyttig, men det vil naturligvis bare fortelle oss om maskinen har menneskeaktig intelligens, ikke om den har en annen form for potensielt verdifull intelligens, sier Anders Sandberg ved University of Oxford.

Sandberg mener at særlig det siste steget i den foreslåtte testen kan være vanskelig å forfølge.

– De fleste store språkmodeller er enorme nevrale nettverk som ikke er spesielt inspiserbare, til tross for mye forskning på hvordan dette gjøres.

At vi ikke har noen god måte å teste KI-systemer, oppfattes av mange som et problem. Det uttrykte blant andre Morten Goodwin, KI-professor ved Universitetet i Agder, til kode24 tidligere i år:

– Det er definitivt et problem. Vi vet ikke hvor langt vi kan pushe grensene til KI, eller om vi kan stole på den, sa Goodwin.

Du kan lese mer om studien hos IEEE Spectrum. Og hvis du vil dykke dypere ned i KI-nyhetsbildet, har vi samlet et knippe saker fra den siste uken:

Intervju: Sam Altman om å bli sparket og ansatt på nytt av OpenAI (The Verge)
Hva går hypen rundt OpenAIs ryktede nye Q*-modell ut på? (MIT Technology Review)
Disse ledetrådene gir hint om sannheten bak OpenAIs skyggelagte Q*-prosjekt (Wired)
Avdekket EA-patent vil bruke KI for å erstatte profesjonelle stemmeskuespillere med (falske) deg (Tom’s Hardware)
Etter et år er andre KI-bølge her: chatboten som vet alt om deg (Aftenposten)
ChatGPT ble lurt til å avsløre privat informasjon (Tek)
Meta har bygget en KI som kan spille komplisert strategispill på et menneskelig nivå (Meta)
Amazons KI-assistent lar brukere stille spørsmål om bedriftens data (The Verge)
Amazons sin transkripsjonsplattform er nå drevet av generativ AI
Storbritannia introduserer retningslinjer for sikker KI (National Cyber Security Centre)

(Artikkelen fortsetter nedenfor.)

Lær hvordan du bruker KI-verktøy:

Introkurs

Hvordan bruke generativ kunstig intelligens?

I dette kurset får du noen tips til ulike typer KI- verktøy for hjelp til tekst, bilder, lyd og video og hvordan bruke slike verktøy på en smart og trygg måte.

Start

158 Moduler0% Fullført

Meta vs. europeiske forbrukerorganisasjoner:

Regjeringen vil ha kommersiell skyplattform:

Nei til statlig sky (Digi)

Denne uken i digital sikkerhet:

Kripos bekrefter: – Hydro var ikke eneste norske offer (Digi)
Forskere finner ut hvordan de kan omgå fingeravtrykkleserne på de fleste Windows-PCer (Ars Technica)
Onde boter står for 73 prosent av internett-trafikken, viser analyse (SecurityWeek)

Rot med Googles Drive-opprydding:

Amerikansk brikkeuavhengighet kan ta to tiår:

Nvidia-sjefen sier at det kan ta opptil 20 år å oppnå amerikansk brikkeuavhengighet (TechSpot)

Telenor vurderer å utsette 2G-stenging:

300-400.000 biler vil miste nødvarslingen (Inside Telecom)

Nav får 20 millioner i gebyr for personvernbrudd:

Datatilsynet: Nav bryter personvernet på en rekke områder (Digi)

Får Musk-tirade mot annonsører konsekvenser?:

Annonseinntekter brukt til å betjene gjeld kommer neppe tilbake snart (The Guardian)

… Mens Neuralink får viktig godkjenning:

Elon Musks hjerneimplantat-selskap er klare til å starte kirurgi (Bloomberg)

… Og Tesla-beist er endelig lansert:

Cybertruck får langt høyere prislapp enn først antydet – og en egen «beast mode». (Elbil24)

Mener TikTok-forbud krenker ytringsfriheten:

Dommer blokkerer Montanas TikTok-forbud (BBC News)

«Boble-kulturkrigen» er langt fra over:

Apple gjør sitt for å få slutt på «grønn boble»-skammen. Nå er det vår tur. (The New York Times)

Er livet egentlig bedre uten internett?

Dette skjedde etter at min kone og jeg fjernet Wi-Fi fra hjemmet vårt (The Atlantic)

Her finner du alle våre gratis kurs:

Service

Digitale kurs

Trenger du eller dine ansatte kompetanseheving på teknologi, innovasjon og digitale verktøy? Kursene er helt gratis og utviklet i samarbeid med noen av de tyngste fagmiljøene i norsk næringsliv og akademia.

Les mer

Meny

Er Turing-testen død? Ja, mener forskere

– Aldri vært en god metode

Mangelen på god test er problematisk

Lær hvordan du bruker KI-verktøy:

Hvordan bruke generativ kunstig intelligens?

Meta vs. europeiske forbrukerorganisasjoner:

Regjeringen vil ha kommersiell skyplattform:

Denne uken i digital sikkerhet:

Rot med Googles Drive-opprydding:

Amerikansk brikkeuavhengighet kan ta to tiår:

Telenor vurderer å utsette 2G-stenging:

Nav får 20 millioner i gebyr for personvernbrudd:

Får Musk-tirade mot annonsører konsekvenser?:

… Mens Neuralink får viktig godkjenning:

… Og Tesla-beist er endelig lansert:

Mener TikTok-forbud krenker ytringsfriheten:

«Boble-kulturkrigen» er langt fra over:

Er livet egentlig bedre uten internett?

Her finner du alle våre gratis kurs:

Digitale kurs

Teknologirådet-rapport: Hva betyr generativ KI for Norge?

Coop ny eier i Digital Norway: – Vi er et økosystem av digitale løsninger

Apples KI-satsning: Bruker personvern som fortrinn når KI inntar iPhone og Mac

«Gruste GPT-4»: Slik trener Schibsted språkmodeller

På tide å slette Facebook og Instagram? KI-trening på brukerinnhold vekker reaksjoner

Kulturdirektoratet nytt medlem i Digital Norway: – Få sektorer med like stor innovasjonstakt

Er Turing-testen død? Ja, mener forskere

– Aldri vært en god metode

Mangelen på god test er problematisk

Lær hvordan du bruker KI-verktøy:

Hvordan bruke generativ kunstig intelligens?

Meta vs. europeiske forbrukerorganisasjoner:

Regjeringen vil ha kommersiell skyplattform:

Denne uken i digital sikkerhet:

Rot med Googles Drive-opprydding:

Amerikansk brikkeuavhengighet kan ta to tiår:

Telenor vurderer å utsette 2G-stenging:

Nav får 20 millioner i gebyr for personvernbrudd:

Får Musk-tirade mot annonsører konsekvenser?:

… Mens Neuralink får viktig godkjenning:

… Og Tesla-beist er endelig lansert:

Mener TikTok-forbud krenker ytringsfriheten:

«Boble-kulturkrigen» er langt fra over:

Er livet egentlig bedre uten internett?

Her finner du alle våre gratis kurs:

Digitale kurs

Relatert

Teknologirådet-rapport: Hva betyr generativ KI for Norge?

Coop ny eier i Digital Norway: – Vi er et økosystem av digitale løsninger

Apples KI-satsning: Bruker personvern som fortrinn når KI inntar iPhone og Mac

«Gruste GPT-4»: Slik trener Schibsted språkmodeller

På tide å slette Facebook og Instagram? KI-trening på brukerinnhold vekker reaksjoner

Kulturdirektoratet nytt medlem i Digital Norway: – Få sektorer med like stor innovasjonstakt

Hold deg oppdatert om nyheter, kurs og eventer