ROCm para Windows
ROCm es una plataforma de código abierto para la programación de GPU que admite GPUs de AMD y también proporciona compatibilidad con CUDA y OpenCL. ROCm expone al programador los detalles del hardware y otorga un control total sobre el proceso de paralelización. Sin embargo, esto también requiere una buena comprensión de la arquitectura del dispositivo, el modelo de memoria, el modelo de ejecución y las técnicas de optimización.
ROCm para Windows es un desarrollo reciente que permite a los usuarios instalar y utilizar ROCm en el sistema operativo Windows, que es ampliamente utilizado con fines personales y profesionales. ROCm para Windows permite a los usuarios aprovechar la potencia de las GPUs de AMD para diversas aplicaciones, como inteligencia artificial, juegos, gráficos y computación científica.
Esta formación en vivo con instructor (en línea o presencial) está dirigida a desarrolladores de nivel principiante a intermedio que desean instalar y utilizar ROCm en Windows para programar GPUs de AMD y aprovechar su paralelismo.
Al finalizar esta formación, los participantes serán capaces de:
- Configurar un entorno de desarrollo que incluya la Plataforma ROCm, una GPU de AMD y Visual Studio Code en Windows.
- Crear un programa básico de ROCm que realice una suma de vectores en la GPU y recupere los resultados desde la memoria de la GPU.
- Utilizar la API de ROCm para consultar información del dispositivo, asignar y liberar memoria del dispositivo, copiar datos entre el host y el dispositivo, lanzar kernels y sincronizar hilos.
- Utilizar el lenguaje HIP para escribir kernels que se ejecutan en la GPU y manipulan datos.
- Utilizar las funciones intrínsecas, variables y bibliotecas de HIP para realizar tareas y operaciones comunes.
- Utilizar los espacios de memoria de ROCm e HIP, como global, compartido, constante y local, para optimizar las transferencias de datos y los accesos a la memoria.
- Utilizar los modelos de ejecución de ROCm e HIP para controlar los hilos, bloques y cuadrículas que definen el paralelismo.
- Depurar y probar programas de ROCm e HIP utilizando herramientas como el Depurador de ROCm y el Analizador de ROCm.
- Optimizar programas de ROCm e HIP utilizando técnicas como agrupamiento, almacenamiento en caché, prefetching y análisis de rendimiento (profiling).
Formato del curso
- Conferencia interactiva y discusión.
- Abundantes ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinar los detalles.
Temario del curso
Introducción
- ¿Qué es ROCm?
- ¿Qué es HIP?
- ROCm frente a CUDA frente a OpenCL
- Descripción general de las características y arquitectura de ROCm e HIP
- ROCm para Windows frente a ROCm para Linux
Instalación
- Instalar ROCm en Windows
- Verificar la instalación y comprobar la compatibilidad del dispositivo
- Actualizar o desinstalar ROCm en Windows
- Solucionar problemas comunes de instalación
Primeros pasos
- Crear un nuevo proyecto de ROCm utilizando Visual Studio Code en Windows
- Explorar la estructura y los archivos del proyecto
- Compilar y ejecutar el programa
- Mostrar la salida utilizando printf y fprintf
API de ROCm
- Uso de la API de ROCm en el programa host
- Consulta de información y capacidades del dispositivo
- Asignación y liberación de memoria del dispositivo
- Copia de datos entre el host y el dispositivo
- Lanzamiento de kernels y sincronización de hilos
- Gestión de errores y excepciones
Lenguaje HIP
- Uso del lenguaje HIP en el programa de dispositivo
- Escritura de kernels que se ejecutan en la GPU y manipulan datos
- Uso de tipos de datos, calificadores, operadores y expresiones
- Uso de funciones intrínsecas, variables y bibliotecas
Modelo de memoria de ROCm e HIP
- Uso de diferentes espacios de memoria, como global, compartido, constante y local
- Uso de diferentes objetos de memoria, como punteros, arrays, texturas y superficies
- Uso de diferentes modos de acceso a la memoria, como solo lectura, solo escritura, lectura/escritura, etc.
- Uso del modelo de consistencia de memoria y mecanismos de sincronización
Modelo de ejecución de ROCm e HIP
- Uso de diferentes modelos de ejecución, como hilos, bloques y cuadrículas
- Uso de funciones de hilo, como hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x, etc.
- Uso de funciones de bloque, como __syncthreads, __threadfence_block, etc.
- Uso de funciones de cuadrícula, como hipGridDim_x, hipGridSync, grupos cooperativos, etc.
Depuración
- Depuración de programas de ROCm e HIP en Windows
- Uso del depurador de Visual Studio Code para inspeccionar variables, puntos de interrupción, pila de llamadas, etc.
- Uso del Depurador de ROCm para depurar programas de ROCm e HIP en dispositivos AMD
- Uso del Analizador de ROCm para analizar programas de ROCm e HIP en dispositivos AMD
Optimización
- Optimización de programas de ROCm e HIP en Windows
- Uso de técnicas de agrupamiento (coalescing) para mejorar el rendimiento de memoria
- Uso de técnicas de almacenamiento en caché y prefetching para reducir la latencia de memoria
- Uso de memoria compartida y local para optimizar los accesos a la memoria y el ancho de banda
- Uso del análisis de rendimiento (profiling) y herramientas de profiling para medir y mejorar el tiempo de ejecución y la utilización de recursos
Resumen y próximos pasos
Requerimientos
- Comprensión del lenguaje C/C++ y conceptos de programación paralela
- Conocimientos básicos de arquitectura de computadoras y jerarquía de memoria
- Experiencia con herramientas de línea de comandos y editores de código
- Familiaridad con el sistema operativo Windows y PowerShell
Audiencia
- Desarrolladores que desean aprender a instalar y utilizar ROCm en Windows para programar GPUs de AMD y aprovechar su paralelismo
- Desarrolladores que desean escribir código de alto rendimiento y escalable que pueda ejecutarse en diferentes dispositivos AMD
- Programadores que desean explorar los aspectos de bajo nivel de la programación de GPU y optimizar el rendimiento de su código
Los cursos públicos requieren más de 5 participantes.
ROCm para Windows - Reserva
ROCm para Windows - Consulta
ROCm para Windows - Solicitud de consultoría
Próximos cursos
Cursos Relacionados
Desarrollo de aplicaciones de IA con Huawei Ascend y CANN
21 HorasHuawei Ascend es una familia de procesadores de inteligencia artificial diseñados para ofrecer un alto rendimiento en inferencia y entrenamiento.
Esta formación presencial impartida por un instructor (en línea o in situ) está dirigida a ingenieros de IA y científicos de datos de nivel intermedio que deseen desarrollar y optimizar modelos de redes neuronales utilizando la plataforma Ascend de Huawei y el kit de herramientas CANN.
Al finalizar esta formación, los participantes podrán:
- Configurar y configurar el entorno de desarrollo de CANN.
- Desarrollar aplicaciones de IA utilizando flujos de trabajo de MindSpore y CloudMatrix.
- Optimizar el rendimiento en NPUs Ascend mediante operadores personalizados y técnicas de tiling.
- Implementar modelos en entornos edge o cloud.
Formato del curso
- Clases interactivas y discusión.
- Práctica con el uso de Huawei Ascend y el kit de herramientas CANN en aplicaciones de muestra.
- Ejercicios guiados centrados en la construcción, entrenamiento e implementación de modelos.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su infraestructura o conjuntos de datos, póngase en contacto con nosotros para organizarlo.
Despliegue de modelos de IA con CANN y procesadores Ascend AI
14 HorasCANN (Compute Architecture for Neural Networks) es la pila de cómputo de inteligencia artificial de Huawei para el despliegue y optimización de modelos de IA en procesadores Ascend AI.
Esta formación en vivo con instrucción directa (en línea o presencial) está dirigida a desarrolladores e ingenieros de IA de nivel intermedio que deseen implementar modelos de IA entrenados de manera eficiente en hardware Huawei Ascend utilizando el kit de herramientas CANN y herramientas como MindSpore, TensorFlow o PyTorch.
Al finalizar esta formación, los participantes podrán:
- Comprender la arquitectura de CANN y su papel en la cadena de despliegue de IA.
- Convertir y adaptar modelos de marcos populares a formatos compatibles con Ascend.
- Utilizar herramientas como ATC, conversión de modelos OM y MindSpore para inferencia en bordes y la nube.
- Diagnosticar problemas de despliegue y optimizar el rendimiento en hardware Ascend.
Formato del curso
- Clase interactiva y demostración práctica.
- Práctica de laboratorio utilizando herramientas CANN y simuladores o dispositivos Ascend.
- Escenarios de despliegue prácticos basados en modelos de IA del mundo real.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinarla.
Inferencia y despliegue de IA con CloudMatrix
21 HorasCloudMatrix es la plataforma unificada de desarrollo e implementación de inteligencia artificial de Huawei, diseñada para soportar pipelines de inferencia escalables y de calidad productiva.
Esta formación en vivo con instructores (en línea o presencial) está dirigida a profesionales de IA de nivel principiante a intermedio que deseen desplegar y monitorear modelos de IA utilizando la plataforma CloudMatrix con integración de CANN y MindSpore.
Al finalizar esta formación, los participantes serán capaces de:
- Utilizar CloudMatrix para el empaquetado, despliegue y servicio de modelos.
- Convertir y optimizar modelos para conjuntos de chips Ascend.
- Configurar pipelines para tareas de inferencia en tiempo real y por lotes.
- Monitorear los despliegues y ajustar el rendimiento en entornos de producción.
Formato del curso
- Conferencia interactiva y discusión.
- Uso práctico de CloudMatrix con escenarios reales de despliegue.
- Ejercicios guiados centrados en la conversión, optimización y escalabilidad.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su infraestructura de IA o entorno en la nube, contáctenos para coordinarlo.
Programación de GPUs en Aceleradores AI de Biren
21 HorasLos Aceleradores AI de Biren son GPUs de alto rendimiento diseñadas para cargas de trabajo de IA y HPC, con soporte para entrenamiento e inferencia a gran escala.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a desarrolladores de nivel intermedio a avanzado que deseen programar y optimizar aplicaciones utilizando la pila GPU propietaria de Biren, con comparaciones prácticas frente a entornos basados en CUDA.
Al finalizar esta formación, los participantes podrán:
- Comprender la arquitectura y la jerarquía de memoria de las GPUs de Biren.
- Configurar el entorno de desarrollo y utilizar el modelo de programación de Biren.
- Traducir y optimizar código estilo CUDA para plataformas Biren.
- Aplicar técnicas de ajuste de rendimiento y depuración.
Formato del Curso
- Conferencia interactiva y discusión.
- Uso práctico del SDK de Biren en cargas de trabajo GPU de ejemplo.
- Ejercicios guiados centrados en la portabilidad y el ajuste de rendimiento.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso basada en su pila de aplicaciones o necesidades de integración, contáctenos para coordinarlo.
Desarrollo con MLU de Cambricon mediante BANGPy y Neuware
21 HorasLas unidades de aprendizaje automático (MLU) de Cambricon son chips de IA especializados, optimizados para tareas de inferencia y entrenamiento en escenarios de extremo (edge) y centros de datos.
Esta capacitación en vivo, impartida por un instructor (en línea o presencial), está dirigida a desarrolladores con conocimientos intermedios que deseen construir e implementar modelos de IA utilizando el marco de trabajo BANGPy y el SDK Neuware en hardware MLU de Cambricon.
Al finalizar esta capacitación, los participantes serán capaces de:
- Configurar y preparar los entornos de desarrollo para BANGPy y Neuware.
- Desarrollar y optimizar modelos basados en Python y C++ para MLU de Cambricon.
- Implementar modelos en dispositivos de extremo y centros de datos que ejecuten el entorno de ejecución Neuware.
- Integrar flujos de trabajo de aprendizaje automático (ML) con las funciones de aceleración específicas de MLU.
Formato del curso
- Clase interactiva y discusión.
- Manejo práctico de BANGPy y Neuware para desarrollo e implementación.
- Ejercicios guiados centrados en optimización, integración y pruebas.
Opciones de personalización del curso
- Para solicitar una capacitación personalizada basada en su modelo de dispositivo Cambricon o caso de uso, contáctenos para coordinar.
Introducción a CANN para desarrolladores de marcos de IA
7 HorasCANN (Compute Architecture for Neural Networks) es la herramienta de cálculo de IA de Huawei que se utiliza para compilar, optimizar y desplegar modelos de IA en procesadores de IA Ascend.
Esta formación en vivo con instructor (en línea o presencial) está dirigida a desarrolladores de IA principiantes que desean comprender cómo CANN se integra en el ciclo de vida del modelo desde el entrenamiento hasta el despliegue, y cómo funciona con marcos de trabajo como MindSpore, TensorFlow y PyTorch.
Al finalizar esta formación, los participantes podrán:
- Comprender el propósito y la arquitectura de la herramienta CANN.
- Configurar un entorno de desarrollo con CANN y MindSpore.
- Convertir y desplegar un modelo de IA simple en hardware Ascend.
- Adquirir conocimientos básicos para futuros proyectos de optimización o integración con CANN.
Formato del curso
- Conferencia interactiva y discusión.
- Laboratorios prácticos con despliegue de modelos simples.
- Recorrido paso a paso por la cadena de herramientas de CANN y los puntos de integración.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinarla.
CANN para el despliegue de IA en el borde
14 HorasEl kit de herramientas Ascend CANN de Huawei permite realizar una inferencia de IA potente en dispositivos de borde, como el Ascend 310. CANN proporciona las herramientas esenciales para compilar, optimizar y desplegar modelos en entornos con recursos computacionales y memoria limitados.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a desarrolladores e integradores de IA de nivel intermedio que deseen desplegar y optimizar modelos en dispositivos de borde Ascend utilizando la cadena de herramientas CANN.
Al finalizar esta formación, los participantes podrán:
- Preparar y convertir modelos de IA para el Ascend 310 utilizando las herramientas CANN.
- Construir pipelines de inferencia ligeros usando MindSpore Lite y AscendCL.
- Optimizar el rendimiento del modelo para entornos con capacidad de cómputo y memoria limitadas.
- Desplegar y monitorear aplicaciones de IA en casos de uso reales en el borde.
Formato del curso
- Conferencia interactiva y demostraciones.
- Práctica en laboratorio con modelos y escenarios específicos para el borde.
- Ejemplos de despliegue en vivo en hardware de borde virtual o físico.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.
Comprensión de la Pila de Cómputo Inteligente de Huawei: Desde CANN hasta MindSpore
14 HorasLa pila de inteligencia artificial (IA) de Huawei — desde el SDK de bajo nivel CANN hasta el marco de alto nivel MindSpore — ofrece un entorno de desarrollo e implementación de IA estrechamente integrado, optimizado para el hardware Ascend.
Esta formación en vivo impartida por instructores (en línea o presencial) está dirigida a profesionales técnicos de nivel principiante a intermedio que deseen comprender cómo los componentes CANN y MindSpore trabajan juntos para gestionar el ciclo de vida del modelo y tomar decisiones sobre la infraestructura.
Al finalizar esta capacitación, los participantes podrán:
- Comprender la arquitectura en capas de la pila de cómputo inteligente de Huawei.
- Identificar cómo CANN respalda la optimización de modelos y el despliegue a nivel de hardware.
- Evaluar el marco MindSpore y su conjunto de herramientas en relación con las alternativas del sector.
- Situación de la pila de IA de Huawei dentro de entornos empresariales, en la nube o instalados localmente (on-premises).
Formato del curso
- Conferencia interactiva y discusión.
- Demostraciones en vivo del sistema y recorridos prácticos basados en casos.
- Laboratorios guiados opcionales sobre el flujo de modelos desde MindSpore hasta CANN.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, contáctenos para coordinar los detalles.
Optimización del rendimiento de redes neuronales con el SDK CANN
14 HorasEl SDK CANN (Compute Architecture for Neural Networks) es la base de computación para IA de Huawei que permite a los desarrolladores ajustar y optimizar el rendimiento de las redes neuronales implementadas en los procesadores de IA Ascend.
Esta formación práctica impartida por un instructor (en línea o presencial) está dirigida a desarrolladores de IA avanzados e ingenieros de sistemas que deseen optimizar el rendimiento de la inferencia utilizando el conjunto de herramientas avanzado de CANN, incluyendo el Motor de Gráficos (Graph Engine), TIK y el desarrollo de operadores personalizados.
Al finalizar esta formación, los participantes serán capaces de:
- Comprender la arquitectura de tiempo de ejecución de CANN y su ciclo de vida en términos de rendimiento.
- Utilizar herramientas de perfilado y el Motor de Gráficos para analizar y optimizar el rendimiento.
- Crear y optimizar operadores personalizados utilizando TIK y TVM.
- Resolver cuellos de botella de memoria y mejorar el throughput del modelo.
Formato del curso
- Lecciones interactivas y discusión grupal.
- Laboratorios prácticos con perfilado en tiempo real y ajuste de operadores.
- Ejercicios de optimización utilizando ejemplos de implementación en casos extremos.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinarlo.
SDK de CANN para flujos de trabajo de Visión por Computadora y PLN
14 HorasEl SDK CANN (Compute Architecture for Neural Networks) proporciona herramientas potentes para el despliegue y la optimización de aplicaciones de inteligencia artificial en tiempo real, especialmente en hardware Huawei Ascend.
Esta formación presencial en vivo (en línea o in situ) está dirigida a profesionales intermedios de inteligencia artificial que desean construir, desplegar y optimizar modelos de visión y lenguaje utilizando el SDK CANN para casos de uso en producción.
Al final de esta formación, los participantes podrán:
- Desplegar y optimizar modelos de VC y PLN utilizando CANN y AscendCL.
- Utilizar las herramientas CANN para convertir modelos e integrarlos en flujos de trabajo en vivo.
- Optimizar el rendimiento de la inferencia para tareas como detección, clasificación y análisis de sentimiento.
- Construir flujos de trabajo de VC / PLN en tiempo real para escenarios de despliegue en edge o en la nube.
Formato del curso
- Conferencia interactiva y demostración.
- Laboratorio práctico con despliegue de modelos y perfilado de rendimiento.
- Diseño de flujos de trabajo en vivo utilizando casos de uso reales de VC y PLN.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarla.
Creación de Operadores de IA Personalizados con CANN TIK y TVM
14 HorasCANN TIK (Tensor Instruction Kernel) y Apache TVM permiten la optimización avanzada y la personalización de operadores de modelos de IA para el hardware Huawei Ascend.
Esta formación en vivo impartida por un instructor (en línea o presencial) está dirigida a desarrolladores de sistemas de nivel avanzado que deseen crear, implementar y ajustar operadores personalizados para modelos de IA utilizando el modelo de programación TIK de CANN y la integración del compilador TVM.
Al finalizar esta capacitación, los participantes serán capaces de:
- Escribir y probar operadores de IA personalizados utilizando el DSL de TIK para procesadores Ascend.
- Integrar operadores personalizados en el tiempo de ejecución y el grafo de ejecución de CANN.
- Utilizar TVM para la planificación, auto-ajuste y evaluación comparativa de operadores.
- Depurar y optimizar el rendimiento a nivel de instrucciones para patrones de cómputo personalizados.
Formato del Curso
- Conferencia interactiva y demostración práctica.
- Práctica de programación de operadores utilizando los pipelines de TIK y TVM.
- Pruebas y ajustes en hardware Ascend o en simuladores.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinar los detalles.
Migración de aplicaciones CUDA a arquitecturas de GPU chinas
21 HorasLas arquitecturas de GPU chinas, como Huawei Ascend, Biren y las MLU de Cambricon, ofrecen alternativas a CUDA diseñadas específicamente para los mercados locales de IA y computación de alto rendimiento (HPC).
Esta formación en vivo, impartida por instructores (en línea o presencial), está dirigida a programadores de GPU y especialistas en infraestructura de nivel avanzado que deseen migrar y optimizar sus aplicaciones CUDA existentes para su implementación en plataformas de hardware chinas.
Al finalizar esta formación, los participantes serán capaces de:
- Evaluar la compatibilidad de las cargas de trabajo CUDA existentes con alternativas de chips chinos.
- Migrar repositorios de código CUDA a entornos Huawei CANN, Biren SDK y Cambricon BANGPy.
- Comparar el rendimiento e identificar puntos de optimización entre plataformas.
- Abordar los desafíos prácticos del soporte multiarquitectura y la implementación.
Formato del curso
- Lecciones interactivas y sesiones de debate.
- Talleres prácticos de traducción de código y comparación de rendimiento.
- Ejercicios guiados centrados en estrategias de adaptación multi-GPU.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su plataforma o proyecto CUDA, por favor contáctenos para coordinarlo.
Optimización del rendimiento en Ascend, Biren y Cambricon
21 HorasAscend, Biren y Cambricon son plataformas líderes de hardware de IA en China, cada una ofreciendo herramientas únicas de aceleración y perfilado para cargas de trabajo de IA a escala de producción.
Esta formación presencial impartida por un instructor (en línea o in situ) está dirigida a ingenieros avanzados de infraestructura de IA y rendimiento que desean optimizar los flujos de inferencia y entrenamiento de modelos en múltiples plataformas de chips de IA chinos.
Al finalizar esta formación, los participantes serán capaces de:
- Ejecutar benchmarks de modelos en las plataformas Ascend, Biren y Cambricon.
- Identificar cuellos de botella del sistema e ineficiencias de memoria/cómputo.
- Aplicar optimizaciones a nivel de grafo, de kernel y de operador.
- Ajustar las canalizaciones de implementación para mejorar el throughput (rendimiento) y la latencia.
Formato del curso
- Clases interactivas y discusiones.
- Uso práctico de herramientas de perfilado y optimización en cada plataforma.
- Ejercicios guiados centrados en escenarios prácticos de ajuste.
Opciones de personalización del curso
- Para solicitar una formación personalizada para este curso basada en su entorno de rendimiento o tipo de modelo, contáctenos para organizarla.