Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a la Inteligencia Artificial Multi-Modal
- ¿Qué es la inteligencia artificial multi-modal?
- Desafíos y aplicaciones clave
- Visión general de los modelos multi-modales líderes
Procesamiento de Texto y Comprensión del Lenguaje Natural
- Uso de LLMs para agentes de IA basados en texto
- Entendimiento de la ingeniería de prompts para tareas multi-modales
- Afinación de modelos de texto para aplicaciones específicas del dominio
Reconocimiento y Generación de Imágenes
- Procesamiento de imágenes con IA: clasificación, descripción y detección de objetos
- Generación de imágenes con modelos de difusión (Stable Diffusion, DALLE)
- Integración de datos de imágenes con modelos basados en texto
Procesamiento de Voz y Audio
- Reconocimiento de voz con Whisper ASR
- Técnicas de síntesis de texto a voz (TTS)
- Mejora de la interacción del usuario con IA basada en voz
Integración de Entradas Multi-Modales
- Creación de pipelines de IA para el procesamiento de múltiples tipos de entrada
- Técnicas de fusión para combinar datos de texto, imágenes y voz
- Aplicaciones reales de agentes de IA multi-modales
Implementación de Agentes de IA Multi-Modales
- Creación de soluciones de IA multi-modales basadas en API
- Optimización de modelos para rendimiento y escalabilidad
- Mejores prácticas para la implementación de AI multi-modal en producción
Consideraciones Éticas y Tendencias Futuras
- Biases y equidad en la IA multi-modal
- Preocupaciones de privacidad con datos multi-modales
- Desarrollos futuros en IA multi-modal
Resumen y Próximos Pasos
Requerimientos
- Comprensión de los fundamentos del aprendizaje automático
- Experiencia con programación en Python
- Familiaridad con marcos de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch)
Publico Objetivo
- Desarrolladores de IA
- Investigadores
- Ingenieros multimedia
21 Horas
Testimonios (1)
Entrenador respondiendo preguntas al vuelo.
Adrian
Curso - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Traducción Automática