Programa del Curso

  • Sección 1: Introducción a Hadoop
    • Hadoop historia, conceptos
    • Sistema ecológico
    • Distribuciones
    • Arquitectura de alto nivel
    • Mitos hadoop
    • Desafíos de hadoop
    • Hardware software
    • Labs: primer vistazo a Hadoop
  • Sección 2: Descripción de HDFS
    • Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
    • Arquitectura (Namenode, Namenode secundario, nodo de datos)
    • Integridad de los datos
    • Futuro de HDFS: Namenode HA, Federación
    • De laboratorio: interacción con HDFS
  • Sección 3: Mapa Reducir Resumen
    • Mapreduce conceptos
    • Daemons: jobtracker / tasktracker
    • Fases: driver, mapper, shuffle / sort, reductor
    • Pensar en mapa reduce
    • Futuro del mapreduce (hilo)
    • Laboratorios: Ejecución de un programa de reducción de mapa
  • Sección 4: Cerdo
    • Cerdo vs java mapa reducir
    • Lengua latina del cerdo
    • Funciones definidas por el usuario
    • Entender el flujo de trabajo de los cerdos
    • Análisis de datos básicos con Pig
    • Análisis de datos complejos con Pig
    • Multi conjuntos de datos con cerdo
    • Conceptos avanzados
    • Laboratorio: escribir scripts de cerdo para analizar / transformar datos
  • Sección 5: Colmena
    • Conceptos de la colmena
    • Arquitectura
    • Soporte de SQL en Hive
    • Tipos de datos
    • Creación de tablas y consultas
    • Gestión de datos de colmena
    • Particiones y uniones
    • Análisis de texto
    • Labs (multiple): creación de tablas Hive y ejecución de consultas, uniones, uso de particiones, uso de funciones de análisis de texto
  • Sección 6: Herramientas de BI para Hadoop
    • Herramientas de BI y Hadoop
    • Vista general de las herramientas de BI actuales
    • Elegir la mejor herramienta para el trabajo

Requerimientos

  • programming background with databases / SQL
  • basic knowledge of Linux (be able to navigate Linux command line, editing files with vi / nano)

Entorno de laboratorio

Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo Hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
  • un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
  21 horas
 

Número de participantes


Comienza

Termina


Las fechas están sujetas a disponibilidad y tienen lugar entre 09:30 y 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (3)

Cursos Relacionados

Categorías Relacionadas