Robótica

BVLOS + VLM: cuando el dron detecta en el borde y razona con un LLM en la nube

La Universidad Carlos III de Madrid demostró una arquitectura de dron BVLOS (más allá de la línea de visión) que combina lo mejor de dos mundos: un Jetson Orin Nano a bordo corre YOLOv11 (detección de personas/objetos) y codifica video 360° con CUDA; las detecciones alimentan un Vision-Language Model (Llama-3.2-90B-Vision) en la nube para razonamiento de escena de alto nivel.

El paper cita explícitamente al Orin Nano por su "excepcional relación rendimiento-IA/potencia: 40 TOPS consumiendo solo 15 W", lo que permite YOLOv11 en tiempo real dentro de los límites de peso y energía de un dron.

Esta división —el borde detecta, la nube razona— es la frontera para equipos de I+D avanzados: baja latencia y privacidad donde importa, potencia de un modelo grande donde se necesita contexto.

Fuentes

← Volver al blog