Una introducción práctica al procesamiento de flujo
El Procesamiento de Flujo se refiere al procesamiento en tiempo real de "datos en movimiento", es decir, realizar cálculos sobre los datos a medida que son recibidos. Estos datos se leen como flujos continuos desde fuentes de datos como eventos de sensores, actividad de usuarios en sitios web, transacciones financieras, operaciones con tarjetas de crédito, flujos de clics, etc. Los marcos de trabajo de Procesamiento de Flujo son capaces de leer grandes volúmenes de datos entrantes y proporcionar valiosos insights casi instantáneamente.
En este entrenamiento dirigido por un instructor (presencial o remoto), los participantes aprenderán cómo configurar e integrar diferentes marcos de trabajo de Procesamiento de Flujo con sistemas de almacenamiento de datos a gran escala y aplicaciones de software relacionadas y microservicios.
Al final de este entrenamiento, los participantes serán capaces de:
- Instalar y configurar diferentes marcos de trabajo de Procesamiento de Flujo, como Spark Streaming y Kafka Streaming.
- Entender y seleccionar el marco de trabajo más adecuado para la tarea.
- Procesar los datos de manera continua, concurrente y registro por registro.
- Integrar soluciones de Procesamiento de Flujo con bases de datos existentes, almacenes de datos, lagos de datos, etc.
- Integrar la biblioteca de procesamiento de flujo más adecuada con aplicaciones empresariales y microservicios.
Audiencia
- Desarrolladores
- Arquitectos de software
Formato del Curso
- Parte exposición, parte discusión, ejercicios y mucha práctica hands-on
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para organizarlo.
Temario del curso
Introducción
- Procesamiento de transmisiones vs procesamiento por lotes
- Procesamiento de transmisiones centrado en análisis
Visión General de Frameworks y Lenguajes de Programación
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparación de Características y Fortalezas de Cada Framework
Visión General de Fuentes de Datos
- Datos en vivo como una serie de eventos a lo largo del tiempo
- Fuentes de datos históricos
Opciones de Implementación
- En la nube (AWS, etc.)
- En las instalaciones (nube privada, etc.)
Comenzando
- Configuración del Entorno de Desarrollo
- Instalación y Configuración
- Evaluación de las Necesidades de Análisis de Datos
Operación de un Framework de Procesamiento de Transmisiones
- Integración del Framework de Procesamiento de Transmisiones con Herramientas de Big Data
- Procesamiento de Eventos de Transmisión (ESP) vs Procesamiento de Eventos Complejos (CEP)
- Transformación de los Datos de Entrada
- Inspección de los Datos de Salida
- Integración del Framework de Procesamiento de Transmisiones con Aplicaciones y Microservicios Existentes
Solución de Problemas
Resumen y Conclusión
Requerimientos
- Experiencia en programación en cualquier lenguaje
- Comprensión de los conceptos de Big Data (Hadoop, etc.)
Los cursos públicos requieren más de 5 participantes.
Una introducción práctica al procesamiento de flujo - Reserva
Una introducción práctica al procesamiento de flujo - Consulta
Una introducción práctica al procesamiento de flujo - Solicitud de consultoría
Solicitud de consultoría
Testimonios (1)
Suficiente práctica, el instructor es conocedor
Chris Tan
Curso - A Practical Introduction to Stream Processing
Traducción Automática
Próximos cursos
Cursos Relacionados
Apache Kafka Connect
7 HorasEste curso dirigido por un instructor y en vivo en Guatemala (en línea o presencial) está destinado a desarrolladores que desean integrar Apache Kafka con bases de datos y aplicaciones existentes para procesamiento, análisis, etc.
Al finalizar este curso, los participantes serán capaces de:
- Utilizar Kafka Connect para ingerir grandes cantidades de datos desde una base de datos a temas de Kafka.
- Ingresar datos de registro generados por servidores de aplicaciones en temas de Kafka.
- Hacer cualquier dato recopilado disponible para el procesamiento de flujos.
- Exportar datos desde temas de Kafka a sistemas secundarios para almacenamiento y análisis.
Building Kafka Solutions with Confluent
14 HorasEste curso dirigido por un instructor (en línea o presencial) está destinado a ingenieros que deseen utilizar Confluent (una distribución de Kafka) para construir y gestionar una plataforma de procesamiento de datos en tiempo real para sus aplicaciones.
Al final de este curso, los participantes serán capaces de:
- Instalar y configurar la Plataforma Confluent.
- Utilizar las herramientas y servicios de gestión de Confluent para ejecutar Kafka de manera más sencilla.
- Almacenar y procesar datos de flujo entrantes.
- Optimizar y gestionar clústeres de Kafka.
- Seguridad de los flujos de datos.
Formato del Curso
- Lectura interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Este curso se basa en la versión de código abierto de Confluent: Confluent Open Source.
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para hacer los arreglos necesarios.
Construcción de Pipelines de Datos con Apache Kafka
7 HorasApache Kafka es una plataforma de streaming distribuida. Es de facto un estándar para construir pipelines de datos y resuelve muchos casos de uso diferentes en torno al procesamiento de datos: puede usarse como una cola de mensajes, un registro distribuido, un procesador de flujos, etc.
Comenzaremos con algunas teorías detrás de los pipelines de datos en general, luego continuaremos con los conceptos fundamentales detrás de Kafka. También descubriremos componentes importantes como Kafka Streams y Kafka Connect.
Mensajería Distribuida con Apache Kafka
14 HorasEste curso está dirigido a arquitectos empresariales, desarrolladores, administradores de sistemas y cualquier persona que desee comprender y utilizar un sistema de mensajería distribuida de alto rendimiento. Si tiene requisitos más específicos (por ejemplo, solo el lado de la administración de sistemas), este curso puede ser adaptado para satisfacer mejor sus necesidades.
Kafka para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a administradores de sistemas que desean configurar, implementar, administrar y optimizar un clúster de Kafka de nivel empresarial.
Al final de esta capacitación, los participantes serán capaces de:
- Configure y administre un clúster de Kafka.
- Evalúe las ventajas y desventajas de implementar Kafka en las instalaciones frente a la nube.
- Implemente y supervise Kafka utilizando varias herramientas de entorno local y en la nube.
Apache Kafka para Desarrolladores
21 HorasEsta capacitación dirigida por un instructor en Guatemala (en línea o presencial) está orientada a desarrolladores de nivel intermedio que deseen desarrollar aplicaciones de big data con Apache Kafka.
Al final de esta capacitación, los participantes serán capaces de:
- Desarrollar productores y consumidores de Kafka para enviar y leer datos desde Kafka.
- Integrar Kafka con sistemas externos utilizando Kafka Connect.
- Escribir aplicaciones de transmisión con Kafka Streams & ksqlDB.
- Integrar una aplicación cliente de Kafka con Confluent Cloud para implementaciones basadas en la nube de Kafka.
- Adquirir experiencia práctica a través de ejercicios prácticos y casos de uso del mundo real.
Apache Kafka para Programadores de Python
7 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o presencial) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar las funciones Apache Kafka en la transmisión de datos con Python.
Al final de esta capacitación, los participantes podrán usar Apache Kafka para monitorear y administrar condiciones en flujos de datos continuos utilizando Python programación.
Seguridad para Apache Kafka
7 HorasEste curso dirigido por un instructor, en vivo en Guatemala (en línea o presencial), está diseñado para probadores de software que deseen implementar medidas de seguridad de red en una aplicación Apache Kafka.
Al finalizar este curso, los participantes podrán:
- Desplegar Apache Kafka en un servidor basado en la nube.
- Implementar cifrado SSL para prevenir ataques.
- Agregar autenticación ACL para rastrear y controlar el acceso de usuarios.
- Garantizar que los clientes confiables tengan acceso a los clústeres de Kafka con autenticación SSL y SASL.
Apache Kafka y Spring Boot
7 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a desarrolladores de nivel intermedio que deseen aprender los fundamentos de Kafka e integrarlos con Spring Boot.
Al final de esta capacitación, los participantes serán capaces de:
- Entender Kafka y su arquitectura.
- Aprender a instalar, configurar y configurar un entorno Kafka básico.
- Integrar Kafka con Spring Boot.
Creación de aplicaciones de procesamiento de flujo con Kafka Streams
7 HorasKafka Streams es una biblioteca del lado del cliente para construir aplicaciones y microservicios cuyos datos se envían a y desde un sistema de mensajería Kafka. Tradicionalmente, Apache Kafka ha dependido de Apache Spark o Apache Storm para procesar los datos entre los productores y consumidores de mensajes. Al llamar a la API de Kafka Streams desde dentro de una aplicación, los datos pueden ser procesados directamente dentro de Kafka, evitando la necesidad de enviar los datos a un clúster separado para su procesamiento.
En este curso dirigido por un instructor y en vivo, los participantes aprenderán cómo integrar Kafka Streams en un conjunto de aplicaciones de Java de ejemplo que envían datos a y desde Apache Kafka para el procesamiento de flujos.
Al final de este entrenamiento, los participantes serán capaces de:
- Comprender las características y ventajas de Kafka Streams sobre otros marcos de procesamiento de flujos
- Procesar datos de flujo directamente dentro de un clúster de Kafka
- Escribir una aplicación o microservicio en Java o Scala que se integre con Kafka y Kafka Streams
- Escribir código conciso que transforme temas de entrada de Kafka en temas de salida de Kafka
- Construir, empaquetar e implementar la aplicación
Audiencia
- Desarrolladores
Formato del curso
- Parte conferencia, parte discusión, ejercicios y mucha práctica hands-on
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para arreglarlo
Administration of Kafka Topic
14 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen aprender a administrar de manera efectiva los temas de Kafka para una transmisión y procesamiento de datos eficientes.
Al final de esta capacitación, los participantes serán capaces de:
- Comprender los fundamentos y la arquitectura del tema de Kafka.
- Cree, configure y administre temas de Kafka.
- Supervise el estado, el rendimiento y la disponibilidad de los temas de Kafka.
- Implementar medidas de seguridad para los temas de Kafka.
SMACK Stack para Ciencia de Datos
14 HorasEste curso de formación dirigido por un instructor en Guatemala (en línea o presencial) está destinado a científicos de datos que deseen utilizar la pila SMACK para crear plataformas de procesamiento de datos para soluciones de big data.
Al finalizar este curso, los participantes serán capaces de:
- Implementar una arquitectura de pipeline de datos para el procesamiento de big data.
- Desarrollar una infraestructura en clúster con Apache Mesos y Docker.
- Analizar datos con Spark y Scala.
- Administrar datos no estructurados con Apache Cassandra.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Guatemala, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Microservicios con Spring Cloud y Kafka
21 HorasEsta capacitación en vivo dirigida por un instructor en Guatemala (en línea o en el sitio) está dirigida a desarrolladores que desean transformar la arquitectura tradicional en una arquitectura basada en microservicios altamente concurrente utilizando Spring Cloud, Kafka, Docker, Kubernetes y Redis.
Al final de esta capacitación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para crear microservicios.
- Diseñe e implemente un ecosistema de microservicios altamente concurrente utilizando Spring Cloud, Kafka, Redis, Docker y Kubernetes.
- Transforme los servicios monolíticos y SOA en una arquitectura basada en microservicios.
- Adopte un enfoque DevOps para desarrollar, probar y lanzar software.
- Garantice una alta simultaneidad entre los microservicios en producción.
- Supervise los microservicios e implemente estrategias de recuperación.
- Realice ajustes de rendimiento.
- Conozca las tendencias futuras en la arquitectura de microservicios.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.