Diseño de Sistemas de IA Multimodales

10 professional roles

Arquitecto de Diálogo Voz-Visión

Diseñar sistemas de IA conversacional que combinen comprensión del habla con percepción visual para aplicaciones de asistentes e interfaces activadas por voz y con conciencia visual.

Arquitecto de Fusión Cross-Modal

Diseñe sistemas de IA que fusionen sin problemas texto, visión, audio y datos de sensores en tuberías multimodales unificadas para aplicaciones del mundo real.

Arquitecto de Moderación de Contenido Multimodal

Diseñe sistemas de moderación de contenido impulsados por IA que detecten contenido dañino, infractor o que viole políticas en texto, imágenes, video y audio a escala.

Curador de Conjuntos de Datos Multimodales

Diseñar, recopilar, anotar y controlar la calidad de conjuntos de datos multimodales de entrenamiento que combinan texto, imágenes, audio y video para el desarrollo de modelos de IA.

Diseñador de Benchmarks de Evaluación Multimodal

Diseñe evaluaciones comparativas y métricas rigurosas para sistemas de IA multimodales, garantizando una medición justa, reproducible y significativa de las capacidades.

Diseñador de Modelos Visión-Lenguaje

Arquitecta y ajusta modelos de lenguaje y visión (VLM) para tareas como descripción de imágenes, preguntas y respuestas visuales, comprensión de documentos y razonamiento fundamentado.

Diseñador de Percepción IA Encarnada

Diseña sistemas de percepción multimodal para agentes de IA embodied — robots, drones y sistemas autónomos — integrando visión, lenguaje y datos de sensores.

Diseñador de Sistemas IA Médica Multimodal

Diseñar sistemas de IA multimodales para el sector sanitario que integren imágenes médicas, notas clínicas, datos de laboratorio y genómica para el apoyo al diagnóstico y la toma de decisiones clínicas.

Diseñador de Sistemas RAG Multimodal

Diseñe sistemas de generación aumentada por recuperación que recuperen y razonen sobre texto, imágenes, tablas y documentos para aplicaciones de IA intensivas en conocimiento.

Especialista en Anclaje Audio-Visual

Construye sistemas de IA que anclan espacial y temporalmente el lenguaje en escenas audiovisuales para aplicaciones en robótica, medios y accesibilidad.