Brettspillet Go har 10^170 mulige kombinasjoner. Den nye versjonen av AlphaGo har lært seg selv spillet uten noen som helst form for menneskelig hjelp, og er nå udiskutabelt verdens beste Go-spiller. (Bilde: DeepMind)

AlphaGo Zero

AlphaGo beviser: Kunstig intelligens blir bedre uten ekspertise fra mennesker

Overgår alle menneskelige eksperter og andre algoritmer.

AV JENS RAMSKOV, ING.DK
IT
23. okt. 2017 - 19:00

En ny form for selvlærende, kunstig intelligens overgår alle menneskelige eksperter og andre algoritmer i det kompliserte brettspillet Go.

Det samme prinsippet kan også være nyttig innen energiforskning, materialforskning og bioteknologi, tror forskerne fra Google-bedriften DeepMind.

Skal løse problemer

Forskere og ingeniører fra DeepMind i London, som er eid av Googles moderselskap Alphabet, har utviklet en ny versjon av den Go-spillende algoritmen AlphaGo. Denne er vesentlig bedre enn forgjengeren sin.

DeepMinds administrerende direktør og grunnlegger, Demis Hassabis, forteller at det langsiktige formålet til DeepMind ikke er å utvikle Go-algoritmer, men å oppnå gjennombrudd innen algoritmeutvikling for å løse store problemer i den «virkelige verden», så som folding av proteiner; noe som er relevant for bioteknologi, samt utvikling av nye materialer.

Go-spillet er svært velegnet til å se hvor langt man kan komme med kunstig intelligens, siden spillet er enormt komplisert i forhold til andre brettspill – for eksempel sjakk.

Den nye AlphaGo Zero har etter kort tids trening slått sin forgjenger AlphaGo, som har vunnet over de aller beste menneskelige Go-spillere, med 100-0 i en match over 100 partier.

(TU Ekstra) De kan øves opp: Tre evner blir spesielt viktige når kunstig intelligens overtar arbeidsoppgaver

Starter med blanke ark

Hemmeligheten bak suksessen med AlphaGo Zero er at programmet begynner med det som kalles blanke ark, eller en blank tavle (Tabula Rasa) – derfor tilføyelsen «Zero».

Det innebærer at AlphaGo Zero lærer seg selv å spille Go uten noen som helst hjelp eller rådgivning om taktikk eller strategi i spillet.

De tidligere versjonene av AlphaGo har alle under opplæringen blitt tilført kunnskap om hvordan de beste menneskelige Go-spillerne reagerer i bestemte situasjoner, og blitt fôret med utfallet av en lang rekke spilte partier mellom de beste spillerne.

AlphaGo benytter seg av en ny form for reinforcement learning, hvor programmet blir sin egen lærer.

I utgangspunktet har systemets nevrale nettverk ingen som helst kunnskaper om Go. Deretter spiller programmet mot seg selv ved å kombinere det nevrale nettverket sitt med en effektiv søkealgoritme. I løpet av spillene justeres det nevrale nettverket og oppdateres til å forutsi så vel trekk som den endelige vinneren av spillet.

– Et oppsiktsvekkende og spennende prosjekt, sier norsk professor: Kunstig intelligens utvikler luktesans

Slo tidligere versjon på tre dager

I en artikkel i Nature redegjør David Silver fra DeepMind sammen med en lang rekke kolleger for hvordan prinsippet for programmet er under og etter trening.

I motsetning til de tidligere versjonene av AlphaGo, har Zero bare ett nevralt nettverk i stedet for to. Da valgte et policy-nettverk ut neste trekk, og et value-nettverk forutsa hvem som ville bli den endelige vinneren.

Ved å kombinere disse i ett enkelt nettverk, kan AlphaGo Zero lære seg å spille Go mye raskere, heter det fra DeepMind. Nøkkelen for å oppnå dette, er den nye reinforcement learning-algoritmen.

Etter tre dagers trening og spilling av 4,9 millioner partier mot seg selv, var AlphaGo Zero på samme nivå som AlphaGo Lee, etter at den hadde hadde blitt trent i månedsvis og spilt 30 millioner partier.

Slik jobber norske fagmiljøer: 5 spørsmål om kunstig intelligens

Det interne AlphaGo-mesterskapet

Etter opplæringen deltok AlphaGo Zero i en intern konkurranse med tre andre Alpha Go-versjoner: AlphaGo Fan, som i 2015 beseiret europamesteren Fan Hui; AlphaGo Lee, som i fjor vant over toppspilleren Lee Sedol; og AlphaGo Master, som i år har beseiret alle de sterkeste toppspillerne 60-0 i en rekke online-partier.

Både Alpha Go Zero og Alpha Go Master kjøres på én enkelt maskin med fire tensor-prosessorer (TPU), mens AlphaGo Fan og AlphaGo Lee kjøres på flere maskiner med sammenlagt henholdsvis 176 grafikkprosessorer og 48 tensor-prosessorer.

I kamper på over 100 partier vant AlphaGo Zero over AlphaGo Lee med 100-0, og 89-11 over AlphaGo Master. Hvert program hadde fem sekunder på å beregne det neste trekket.

Verdens beste menneskelige Go-spiller har i dag en Elo-rating på 3664.

AlphaGo Lee ligger på 3739, AlphaGo Master på 4858 og AlphaGo Zero på imponerende 5185.

Vil plassere Norge i tet på kunstig intelligens: – Dette har lenge vært science fiction, men nå er det like før det bare blir science

Mennesker fremdeles overlegne på andre områder

Satinder Singh fra University of Michigan fremhever i en kommentar i Nature at det nå er bevist at kunstig intelligens basert på reinforcement learning, kan prestere bedre enn systemer som bare er basert på menneskelig ekspertise.

Han understreker likevel at AlphaGo Zero – som alle de andre av de mest imponerende eksempler på kunstig intelligens som vi har sett – har en svært begrenset kunnskaps- og operasjonsområde sammenlignet med mennesker, og for den saks skyld dyr.

Singh tilføyer at AlphaGo Zero utvilsomt vil kunne brukes av de beste Go-spillere for å forbedre spillet sitt, og i det hele tatt oppnå bedre innsikt i spillet.

Prinsippet kan også være nyttig innenfor andre områder, slik forskerne fra DeepMind påpeker.

Slik laget de en hologram-kopi av NRK-Solveig: Hvis du har noen hundre tusen til overs, kan du nå lage en digital kopi av deg selv

Se og hør DeepMinds egen presentasjon

I denne to-minutters videoen produsert av DeepMind, forteller David Silver om AlphaGo Zero og perspektivene om å benytte det samme prinsippet for å løse interessante vitenskapelige problemer innen andre områder.

Artikkelen ble opprinnelig publisert på Ing.dk.

Nobelprisvinner: Robotene kommer ikke til å gjøre oss arbeidsledige

AlphaGo DeepMind IT Kunstig intelligens

AlphaGo Zero

AlphaGo beviser: Kunstig intelligens blir bedre uten ekspertise fra mennesker

Skal løse problemer

Starter med blanke ark

Slo tidligere versjon på tre dager

Det interne AlphaGo-mesterskapet

Mennesker fremdeles overlegne på andre områder

Se og hør DeepMinds egen presentasjon

Kommentarer (1)

Nå møtes løpene i verdens lengste undersjøiske veitunnel på midten – med millimeterpresisjon

Ingen spor etter styrtet russisk helikopter

Han har ikke kommentert Statoil siden han måtte gå. Nå hyller han Eldar Sætres lederskap

Tror på hydrogen – selv om de har revolusjonerende batteriteknologi

Toner ned digital «hype»: – Det er ikke magi