O Google DeepMind apresentou um modelo de ação de linguagem de visão (VLA) da Gemini Robotics On Divice Vision que pode ser executado localmente em dispositivos robóticos.
Com os francos bi-brands, o modelo VLA pode executar outras tarefas, como dobrar roupas ou trabalhar em tarefas de montagem de cinto industrial também.