Programa del Curso
Sección 1: Datos Management en HDFS
- Varios formatos de datos (JSON / Avro / Parquet)
- Esquemas de compresión
- Enmascaramiento de datos
- Labs : Análisis de diferentes formatos de datos; Habilitación de la compresión
Sección 2: Cerdo Avanzado
- Funciones definidas por el usuario
- Introducción a las bibliotecas de cerdos (ElephantBird / Data-Fu)
- Carga de datos estructurados complejos con Pig
- Afinación de cerdos
- Labs: secuencias de comandos pig avanzadas, análisis de tipos de datos complejos
Sección 3 : Avanzado Hive
- Funciones definidas por el usuario
- Tablas comprimidas
- Hive Ajuste del rendimiento
- Labs: creación de tablas comprimidas, evaluación de formatos y configuración de tablas
Sección 4 : HBase avanzado
- Modelado avanzado de esquemas
- Compresión
- Ingesta masiva de datos
- Comparación de mesa ancha / mesa alta
- HBase y Cerdo
- HBase y Hive
- Ajuste del rendimiento de HBase
- Laboratorios: sintonización de HBase; acceder a los datos de HBase de Pig & Hive; Uso de Phoenix para el modelado de datos
Requerimientos
- cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
- cómodo en el entorno Linux (ser capaz de navegar por la línea de comandos Linux, editar archivos usando vi / nano)
- un conocimiento práctico de Hadoop.
Entorno de laboratorio
Instalación cero: ¡ No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Putty )
- Un explorador para acceder al clúster. Recomendamos el navegador Firefox
Testimonios (4)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Muy poco, se me dificulto mucho y mas por que entre desfasado, no tome los primeras sesiones.