Opplært på milliarder av spill
For å havne i verdenseliten av Stratego-spillere har DeepNash spilt 5,5 milliarder spill mot seg selv. Hver gang lærte AI-en noe nytt om spillet, strategien og veien til seier.
I den kunstige intelligensen er det et belønningssystem som styrer maskinen til å forbedre spillet mens menneskelige teknikere fortløpende videreutvikler programkoden.
Samtidig er Stratego-AI-en styrt av det spillteoretiske begrepet Nash-likevekt, som går ut på at ingen spillere endrer strategi hvis det ikke hjelper dem.
Den tilnærmingen utfordrer DeepNash med dristige trekk som overrasker motstanderen.
I ett spill ofret for eksempel maskinen flere offiserer for å lokke de sterkeste brikkene til motstanderen ut på banen før maskinen kunne slå til i et bakholdsangrep.
Så i stedet for å forbedre enkelttrekk kan systemet – i et spill med mange ukjente faktorer – over tid lure motstanderen til å åpne seg, før maskinen slår til med dødelige trekk.
Kan brukes i selvkjørende biler
DeepNash kan også brukes utenfor spillbrettet.
For eksempel kan en lynrask avveining av egne og andres kjørestrategier bli aktuelt for selvkjørende biler.
«Hvis man produserer en selvkjørende bil, kan man ikke gå ut fra at alle de andre bilistene på veien er helt rasjonelle og oppfører seg optimalt», sier Noam Brown fra konkurrenten Meta AI, som har fulgt forskningen fra sidelinjen, til nettstedet Singularity Hub.