Den amerikanske robotvirksomhed Figure har de seneste år markeret sig som en af de mest omtalte aktører inden for humanoide robotter. Virksomheden oplyser, at dens robotter styres af en selvudviklet AI-model ved navn Helix — en såkaldt vision-language-action-model, der kobler det robotten ser, sproglige instruktioner og fysiske handlinger sammen i ét system.
Hvad er en vision-language-action-model?
En vision-language-action-model (forkortet VLA) er en type AI, der oversætter visuelle indtryk og sproglige kommandoer direkte til bevægelser. I stedet for at en robot programmeres trin for trin, lærer den at handle ud fra eksempler — på samme måde som de store sprogmodeller bag chatbots lærer at skrive.
For en humanoid robot betyder det i princippet, at den kan få en instruktion i almindeligt sprog og selv finde ud af, hvordan opgaven løses. Figure har tidligere samarbejdet med OpenAI, men har siden valgt at satse på egne modeller.
Forbehold
Det er værd at huske, at demonstrationsvideoer af humanoide robotter ofte er nøje iscenesat, og at det ikke altid fremgår, hvor meget robotten gør autonomt. Påstande om kapacitet bør derfor læses som virksomhedens egne — indtil de er afprøvet uafhængigt.
Hvorfor det betyder noget
Kontrollen over AI-laget er ved at blive et afgørende konkurrenceparameter i humanoid-industrien. De virksomheder, der ejer både robot og “hjerne”, står stærkere end dem, der er afhængige af andres teknologi. Figures satsning på Helix er et udtryk for netop den strategi.
Dette er en demo-artikel oprettet sammen med website-skelettet. Verificér alle oplysninger mod primærkilden, og opdater eller erstat artiklen før reel publicering.