Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Breve descripción de Speech Recognition Tecnologías
- Historia y evolución de la reconocimiento de voz
- Modelos acústicos, modelos lingüísticos y decodificación
- Arquitecturas modernas: RNNs, transformers y Whisper
Preprocesamiento de Audio y Conceptos Básicos de Transcripción
- Manejo de formatos de audio y tasas de muestreo
- Limpieza, corte y segmentación de audio
- Generar texto a partir del audio: en tiempo real vs por lotes
Práctica con Whisper y otras APIs
- Instalación y uso de OpenAI Whisper
- Llamadas a APIs en la nube (Google, Azure) para transcripción
- Comparar rendimiento, latencia y costo
Idiomas, Acentos y Adaptación de Dominio
- Trabajar con múltiples idiomas y acentos
- Vocabularios personalizados y tolerancia al ruido
- Manejo del lenguaje legal, médico o técnico
Formateo de Salida e Integración
- Añadir marcas de tiempo, puntuación y etiquetas de hablante
- Exportar a formatos de texto, SRT o JSON
- Integrar transcripciones en aplicaciones o bases de datos
Use Case Laboratorios de Implementación
- Transcribir reuniones, entrevistas u podcasts
- Sistemas de comando voz-a-texto
- Subtítulos en tiempo real para transmisiones de video/audio
Evaluación, Limitaciones y Ética
- Métricas de precisión y pruebas de referencia del modelo
- Sesgo y equidad en modelos de voz
- Consideraciones sobre privacidad y conformidad
Resumen y Próximos Pasos
Requerimientos
- Comprensión de conceptos generales de IA y aprendizaje automático
- Familiaridad con formatos y herramientas para archivos de audio o medios
audiencia
- Científicos de datos e ingenieros de IA que trabajan con datos de voz
- Desarrolladores de software que construyen aplicaciones basadas en transcripción
- Organizaciones que exploran la reconocimiento de habla para automatización
14 Horas