Opp mot 30 bilder i sekundet
Videoer konstruert av ord med AI i motorrommet bygger på samme prinsipper som å skape et enkeltbilde ut fra tekst ved hjelp av to nevrale nettverk.
Det ene nevrale nettverket finner opp bilder ut fra ordene dine. Det andre AI-nettverket kontrollerer fortløpende bildene mot et stort bildearkiv og en score for nøyaktighet som systemet hele tiden prøver å slå for å forbedre de endelige bildene.
I Web-videoer, som vanligvis har 24 til 30 bilder i sekundet, skal AI-systemet også håndtere bevegelser i motivet med pikselperfekt presisjon.
«Make-A-video løser problemet ved å legge til et lag av læring som gjør systemet i stand til å forstå bevegelser i den fysiske verden og bruke det på tradisjonell tekst-til-bildegenerering», forklarer Meta-direktør Mark Zuckerberg i et Facebook-oppslag.
Gjenkjenner fysiske lover
For å forstå bevegelser i levende bilder har Metas AI for videoproduksjon bygget inn fysiske lover som blant annet tyngdekraft for å styre interaksjonen mellom personer og gjenstander i videoene.
Samtidig blir den kunstige intelligensen trent til å gjøre bevegelsene realistiske når objektene i videoer interagerer med hverandre og blant annet danner skygger.
For eksempel har Meta i en video med en kunstmaler i gang med å male et bilde trent AI-en til en forståelse for at en pensel på et lerret etterlater nye streker og farger på lerretet.
Meta har imidlertid så langt bare offentliggjort slike ferdiglagde AI-videoer på fem sekunder for å demonstrere teknologien, men du kan melde på deg tjenesten for å bli en av de første AI-produsentene når den er klare til maninstream-bruk.
Google også på vei
Flere videotjenester skryter allerede av å ha AI som medprodusent, men utvalget er noe enklere enn Metas visjoner med innhold der bare fantasien setter grenser.
På Synthesia-tjenesten kan du for eksempel taste inn tekst på et nettsted før dataskapte avatarer uttaler ordene dine som en nyhetsoppleser.
På InVideo-tjenesten kan du skape mer kunstnerisk innhold ut fra eksisterende video-maler, men det er begrensninger på antallet maler.
Også Google arbeider med en tekst-til-videotjeneste ved navn Phenaki, oppkalt etter det første animasjonsverktøyet som – med motiver tegnet på en roterende pappskive – ga illusjonen om bevegelse.
Googles AI-animasjoner er i likhet med Metas videoer ikke åpnet for offentligheten enda.
Parallelt jobber Google ved verktøy for å forhindre spredningen av falske nyheter – ikke minst når alle og enhver kan produsere troverdige videoer med Hitler som barnehageonkel eller annet kontroversielt innhold.