Gemini Robotics-ER 1.6: Robotic Intelligence in the real world/Gemini Robotics-ER 1.6: Inteligencia Robótica en el mundo real

in #science21 hours ago

image.png

Source

Just a decade ago, humanoid robots were a joke: awkward, unstable, slow, and with that catwalk gait, as if they'd soiled themselves. In just a few years, we've seen them dance and perform impossible feats for most mortals. Their movements are increasingly similar to those of a standard human, and their abilities are beginning to match or even surpass those of the average human. As if that weren't enough, Google has unveiled its Gemini Robotics-ER 1.6 artificial intelligence model, capable of interpreting the world it inhabits.

Hace apenas una década los robots humanoides eran un chiste, ortopédicos, inestables, lentos y con ese andar de pasarela, como si se lo hubiesen hecho encima. En apenas unos años los vimos bailar y hacer piruetas imposibles para la mayoría de los mortales. Sus movimientos son cada vez más parecidos a los de un humano estándar y sus habilidades empiezan a igualar o incluso superar a las de humano medio. Por si esto fuera poco Google presenta su modelo de inteligencia artificial Gemini Robotics-ER 1.6 que es capaz de interpretar el mundo en el que se mueve.

Gemini Robotics-ER 1.6 is an artificial intelligence model released by Google DeepMind on April 14, 2026, specifically designed to equip robots with advanced "embodied reasoning." This means that, unlike AI models that only process text, this model acts as a robot's high-level brain. Its function is to understand the environment through cameras, plan complex tasks, and determine whether an action has been executed correctly, then translate that understanding into commands for the robot's physical systems.

Gemini Robotics-ER 1.6 es un modelo de inteligencia artificial lanzado por Google DeepMind el 14 de abril de 2026, diseñado específicamente para dotar a los robots de un "razonamiento encarnado" (embodied reasoning) avanzado. Esto quiere decir que, a diferencia de los modelos de IA que solo procesan texto, este modelo actúa como el cerebro de alto nivel de un robot. Su función es entender el entorno a través de cámaras, planificar tareas complejas y determinar si se ha ejecutado una acción correctamente, para luego traducir ese entendimiento en comandos para los sistemas físicos del robot.



The model boasts several key technical capabilities that allow it to interact with the physical world far more intelligently than its predecessors. It can identify and point to specific objects in a space, count items in a cluttered image, and understand relationships such as "which is the smallest object" or "what fits inside this container." For example, it can accurately identify all the tools in a cluttered toolbox, something previous models struggled to do without errors.

El modelo cuenta con varias capacidades técnicas clave que le permiten interactuar con el mundo físico de manera mucho más inteligente que sus versiones anteriores. Puede identificar y señalar objetos específicos en un espacio, contar elementos en una imagen desordenada y entender relaciones como "cuál es el objeto más pequeño" o "qué cabe dentro de este recipiente". Por ejemplo, puede identificar correctamente todas las herramientas en una caja de herramientas desordenada, algo que los modelos anteriores no lograban sin errores.

It can recognize when a task has been successfully completed or has failed, allowing it to decide whether to proceed or retry the action. To do this, it uses multi-view reasoning, integrating images from several cameras (for example, a general view and another on the robot's wrist) to gain a complete understanding of the scene. It combines visual perception with the ability to execute code. The model can zoom in on specific parts of an image and use mathematical calculations to accurately interpret data. But the greatest strength of this model lies in its ability to operate in real and complex environments.

Sabe reconocer cuándo una tarea se ha completado con éxito o ha fallado, lo que le permite decidir si seguir adelante o reintentar la acción. Para ello, utiliza un razonamiento multi-vista, integrando imágenes de varias cámaras (por ejemplo, una general y otra en la muñeca del robot) para tener una comprensión completa de la escena. Combina la percepción visual con la capacidad de ejecutar código. El modelo puede "hacer zoom" en partes específicas de una imagen y usar cálculos matemáticos para interpretar datos con precisión. Pero la mayor fortaleza de este modelo reside en su capacidad para operar en entornos reales y complejos.



Source

The applications of this AI model are varied. In industrial inspection, this model can read pressure gauges, thermometers, liquid level gauges, and valves. It collaborates with Boston Dynamics' Spot robot to inspect factories, detecting leaks or anomalies without modifying existing machinery. In warehouses or laboratories, it can organize objects according to complex instructions and verify that the task was completed correctly, using multiple camera angles to overcome visual obstacles.

Las aplicaciones de este modelo de IA son variadas. En la inspección industrial este modelo puede leer de forma manómetros, termómetros, medidores de nivel de líquido y válvulas. Colabora con el robot Spot de Boston Dynamics para inspeccionar fábricas, detectar fugas o anomalías sin necesidad de modificar la maquinaria existente. En almacenes o laboratorios, puede organizar objetos siguiendo instrucciones complejas y verificar si la tarea se hizo bien, utilizando múltiples ángulos de cámara para superar obstáculos visuales.

Thanks to its integrated safety reasoning, the robot can assess risks in real time. For example, it can stop if it detects that an action could harm a person or cause a structure to collapse. Specifically in the case of domestic robotics, it facilitates tasks that were previously impossible to program rigidly, such as preparing a salad or assisting with cleaning, adapting to changes in the environment (like furniture being moved). And best of all, this isn't just a laboratory experiment; it's already accessible through APIs.

Gracias a su razonamiento de seguridad integrado, el robot puede evaluar riesgos en tiempo real. Por ejemplo, puede detenerse si detecta que una acción podría dañar a una persona o colapsar una estructura. En el caso específico de la robótica doméstica facilita tareas que antes eran imposibles de programar de forma rígida, como preparar una ensalada o ayudar en la limpieza, adaptándose a los cambios en el entorno (como muebles movidos de sitio). Y lo mejor de todo es que esto no se trata de un experimento de laboratorio sino que ya es accesible mediante API's.

More information/Más información
https://deepmind.google/blog/gemini-robotics-er-1-6/

https://www.eluniverso.com/estados-unidos/servicio/la-actualizacion-robotica-mas-avanzada-del-siglo-gemini-er-16-ya-puede-localizar-objetos-invisibles-para-el-ojo-humano-nota/

Sort:  

TEAM 7

Congratulations! Your post has been upvoted from sc-09 account.

1000080942.png

Curated by : jimiaera02