Programa del Curso

  • Sección 1: Introducción a Hadoop
    • Hadoop historia, conceptos
    • Sistema ecológico
    • Distribuciones
    • Arquitectura de alto nivel
    • Mitos hadoop
    • Desafíos de hadoop
    • Hardware software
    • Labs: primer vistazo a Hadoop
  • Sección 2: Descripción de HDFS
    • Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
    • Arquitectura (Namenode, Namenode secundario, nodo de datos)
    • Integridad de los datos
    • Futuro de HDFS: Namenode HA, Federación
    • De laboratorio: interacción con HDFS
  • Sección 3: Mapa Reducir Resumen
    • Mapreduce conceptos
    • Daemons: jobtracker / tasktracker
    • Fases: driver, mapper, shuffle / sort, reductor
    • Pensar en mapa reduce
    • Futuro del mapreduce (hilo)
    • Laboratorios: Ejecución de un programa de reducción de mapa
  • Sección 4: Cerdo
    • Cerdo vs java mapa reducir
    • Lengua latina del cerdo
    • Funciones definidas por el usuario
    • Entender el flujo de trabajo de los cerdos
    • Análisis de datos básicos con Pig
    • Análisis de datos complejos con Pig
    • Multi conjuntos de datos con cerdo
    • Conceptos avanzados
    • Laboratorio: escribir scripts de cerdo para analizar / transformar datos
  • Sección 5: Colmena
    • Conceptos de la colmena
    • Arquitectura
    • Soporte de SQL en Hive
    • Tipos de datos
    • Creación de tablas y consultas
    • Gestión de datos de colmena
    • Particiones y uniones
    • Análisis de texto
    • Labs (multiple): creación de tablas Hive y ejecución de consultas, uniones, uso de particiones, uso de funciones de análisis de texto
  • Sección 6: Herramientas de BI para Hadoop
    • Herramientas de BI y Hadoop
    • Vista general de las herramientas de BI actuales
    • Elegir la mejor herramienta para el trabajo

Requerimientos

  • programming background with databases / SQL
  • basic knowledge of Linux (be able to navigate Linux command line, editing files with vi / nano)

Entorno de laboratorio

Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo Hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
  • un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
  21 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (3)

Cursos Relacionados

Categorías Relacionadas