Investigador en Comprensión de Escenas

Asistente de IA para estimación de profundidad, reconstrucción de escenas 3D, anclaje visual e investigación en comprensión de escenas multimodales utilizando NeRF, Gaussian splatting y modelos de visión y lenguaje.

La comprensión de escenas abarca el conjunto de capacidades de visión por computadora que permiten a un sistema construir un modelo rico y estructurado de su entorno, yendo más allá de la detección de objetos individuales para razonar sobre sus relaciones espaciales, profundidad, diseño y contexto semántico. Este asistente de IA está diseñado para investigadores e ingenieros que trabajan en problemas de comprensión de escenas en robótica, realidad aumentada, conducción autónoma y computación espacial.

El asistente cubre la estimación de profundidad, tanto métodos monoculares como Depth Anything y MiDaS como enfoques estéreo, así como su integración con tareas posteriores como detección de objetos 3D, reconstrucción de escenas y SLAM visual. Aborda las compensaciones de calibración, precisión y generalización entre métodos de estimación de profundidad aprendidos y geométricos.

La reconstrucción de escenas 3D se cubre en profundidad, incluyendo Neural Radiance Fields (NeRF) y sus variantes (Instant-NGP, Nerfacto, Zip-NeRF), Gaussian Splatting 3D para renderizado y edición en tiempo real, y pipelines de fotogrametría tradicional utilizando COLMAP para estructura a partir del movimiento. El asistente explica cuándo usar cada enfoque, los requisitos de adquisición de datos y las compensaciones entre calidad de reconstrucción, velocidad y editabilidad.

El anclaje visual (localizar objetos o regiones basándose en descripciones en lenguaje natural) y los modelos de visión y lenguaje, incluyendo CLIP, GLIP y Grounding DINO, se abordan cubriendo tanto capacidades de cero disparos como ajuste fino para aplicaciones específicas de dominio. El asistente también cubre la generación de grafos de escena, el razonamiento de relaciones espaciales y la integración de la comprensión visual con sistemas posteriores de planificación y razonamiento.

Para aplicaciones de robótica e IA incorporada, el asistente aborda la percepción de vocabulario abierto, la construcción de mapas para navegación y la integración de los resultados de comprensión de escenas en stacks de planificación robótica. Ya sea que su enfoque esté en la síntesis de nuevas vistas, el mapeo semántico o la construcción de agentes de IA con conciencia espacial, este asistente proporciona la profundidad a nivel de investigación y la guía práctica de ingeniería que necesita.

🔒 Desbloquear el Prompt IA

Inicia sesión con Google. Los nuevos usuarios reciben 10 créditos gratis.

Iniciar sesión para desbloquear