Contacta con nosotros

Temario del curso

Infraestructura como Código para EXO

  • Visión general de patrones de despliegue de EXO: nodos individuales, multinode y clústeres con RDMA
  • Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) con gestión de configuraciones
  • Uso de flakes de Nix para construir entornos de desarrollo y compilaciones reproducibles de EXO
  • Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster

Compilaciones Reproducibles e Integración con CI

  • Fijación de dependencias y compilación del panel de control en canalizaciones de CI
  • Ejecución de pruebas de humo de EXO en ejecutores de GitHub Actions o GitLab CI
  • Creación de imágenes base y flujos de trabajo de retroceso basados en instantáneas para máquinas virtuales de macOS y Linux
  • Versionado de tarjetas de modelos personalizados junto con el código de la aplicación

Descubrimiento de Clústeres y Automatización de Redes

  • Configuración de mDNS y DNS estático para un descubrimiento fiable de nodos libp2p
  • Automatización de la creación de perfiles de red y la gestión de puentes Thunderbolt en macOS
  • Uso de espacios de nombres personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción
  • Reglas de firewall y segmentación de red para entornos multiinquilino

Gestión del Ciclo de Vida de Almacenamiento y Modelos

  • Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS
  • Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido
  • Colección de basura de cachés obsoletas y políticas de retención de pesos versionados
  • Automatización de la descarga previa de modelos y comprobaciones de estado antes de actualizaciones en cascada

Supervisión y Alertas

  • Envío de logs de EXO a un registro centralizado (ELK, Loki o Splunk)
  • Construcción de dashboards de Grafana a partir de la salida de EXO_TRACING_ENABLED
  • Alertas ante cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia
  • Correlación de la telemetría de hardware de macmon con regresiones en el rendimiento del modelo

Actualización, Retroceso y Recuperación ante Desastres

  • Despliegue progresivo de actualizaciones de binarios EXO en un nodo piloto antes de un despliegue generalizado
  • Retroceso a nivel de modelo: cambio entre versiones cuantizadas sin necesidad de volver a descargar
  • Respaldo y restauración del estado del clúster, espacios de nombres personalizados y pesos en caché
  • Documentación de manuales de recuperación para escenarios de reconstrucción total del clúster

Endurecimiento de Seguridad y Cumplimiento

  • Aplicación de TLS en la capa del proxy inverso (nginx, traefik) para el panel de control y la API
  • Implementación de límites de tasa de API y listas blancas de IP para los puntos de conexión de EXO
  • Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero
  • Auditoría del acceso y mantenimiento de un inventario de modelos y versiones desplegados

Requerimientos

  • Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
  • Conocimiento de la administración de sistemas y gestión de paquetes en macOS o Linux
  • Comprensión de conceptos de redes, DNS y almacenamiento

Público Objetivo

  • Ingenieros de DevOps
  • Arquitectos de infraestructura
  • Ingenieros de Confiabilidad de Sitios (SRE) responsables de cargas de trabajo de IA in-situ
 21 Horas

Número de participantes


Precio por participante

Testimonios (2)

Próximos cursos

Categorías Relacionadas