Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Infraestructura como Código para EXO
- Visión general de patrones de despliegue de EXO: nodos individuales, multinode y clústeres con RDMA
- Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) con gestión de configuraciones
- Uso de flakes de Nix para construir entornos de desarrollo y compilaciones reproducibles de EXO
- Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster
Compilaciones Reproducibles e Integración con CI
- Fijación de dependencias y compilación del panel de control en canalizaciones de CI
- Ejecución de pruebas de humo de EXO en ejecutores de GitHub Actions o GitLab CI
- Creación de imágenes base y flujos de trabajo de retroceso basados en instantáneas para máquinas virtuales de macOS y Linux
- Versionado de tarjetas de modelos personalizados junto con el código de la aplicación
Descubrimiento de Clústeres y Automatización de Redes
- Configuración de mDNS y DNS estático para un descubrimiento fiable de nodos libp2p
- Automatización de la creación de perfiles de red y la gestión de puentes Thunderbolt en macOS
- Uso de espacios de nombres personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción
- Reglas de firewall y segmentación de red para entornos multiinquilino
Gestión del Ciclo de Vida de Almacenamiento y Modelos
- Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS
- Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido
- Colección de basura de cachés obsoletas y políticas de retención de pesos versionados
- Automatización de la descarga previa de modelos y comprobaciones de estado antes de actualizaciones en cascada
Supervisión y Alertas
- Envío de logs de EXO a un registro centralizado (ELK, Loki o Splunk)
- Construcción de dashboards de Grafana a partir de la salida de EXO_TRACING_ENABLED
- Alertas ante cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia
- Correlación de la telemetría de hardware de macmon con regresiones en el rendimiento del modelo
Actualización, Retroceso y Recuperación ante Desastres
- Despliegue progresivo de actualizaciones de binarios EXO en un nodo piloto antes de un despliegue generalizado
- Retroceso a nivel de modelo: cambio entre versiones cuantizadas sin necesidad de volver a descargar
- Respaldo y restauración del estado del clúster, espacios de nombres personalizados y pesos en caché
- Documentación de manuales de recuperación para escenarios de reconstrucción total del clúster
Endurecimiento de Seguridad y Cumplimiento
- Aplicación de TLS en la capa del proxy inverso (nginx, traefik) para el panel de control y la API
- Implementación de límites de tasa de API y listas blancas de IP para los puntos de conexión de EXO
- Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero
- Auditoría del acceso y mantenimiento de un inventario de modelos y versiones desplegados
Requerimientos
- Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
- Conocimiento de la administración de sistemas y gestión de paquetes en macOS o Linux
- Comprensión de conceptos de redes, DNS y almacenamiento
Público Objetivo
- Ingenieros de DevOps
- Arquitectos de infraestructura
- Ingenieros de Confiabilidad de Sitios (SRE) responsables de cargas de trabajo de IA in-situ
21 Horas
Testimonios (2)
El conocimiento y experiencia del consultor ya que se abordan los temas teóricos aplicándolos a la realidad de los procesos. El curso contiene un programa de mucho valor en la gestión de las tecnologías de información.
Luis Castro Gamboa - Cooperativa De Ahorro Y Credito Ande No. 1 R.L.
Curso - Site Reliability Engineering (SRE) Foundation®
Que fue muy claro en cada especificación