Programa del Curso

  • Introducción
  • Hadoop Historia, Conceptos
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Hadoop Mitos
  • Hadoop Desafíos (hardware / software)
  • Labs: discuta sus proyectos y problemas de Big Data
Planificación e instalación Selección de software, Hadoop distribuciones Dimensionamiento del clúster, planificación del crecimiento Selección de hardware y red Topología de bastidor Instalación Arrendamiento múltiple Estructura de directorios, registros Evaluación comparativa Laboratorios: instalación de clústeres, ejecución de pruebas comparativas de rendimiento
  • Operaciones de HDFS
  • Conceptos (escalado horizontal, replicación, localidad de datos, reconocimiento de rack)
  • Nodos y daemons (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
  • Supervisión de la salud
  • Administración basada en explorador y línea de comandos
  • Adición de almacenamiento, sustitución de unidades defectuosas
  • Labs: familiarizarse con las líneas de comandos de HDFS
Ingesta de datos Canal para la ingesta de registros y otros datos en HDFS Sqoop para importar desde SQL bases de datos a HDFS, así como exportar de nuevo a SQL Almacenamiento de datos de Hadoop con Hive Copia de datos entre clústeres (distcp) Uso de S3 como complemento de HDFS Prácticas recomendadas y arquitecturas de ingesta de datos Labs: configuración y uso de Flume, lo mismo para Sqoop
  • Operaciones y administración de MapReduce
  • Computación paralela antes de mapreduce: comparación de la administración de HPC con Hadoop
  • Cargas de clúster de MapReduce
  • Nodos y demonios (JobTracker, TaskTracker)
  • Tutorial de la interfaz de usuario de MapReduce
  • Configuración de Mapreduce
  • Configuración del trabajo
  • Optimización de MapReduce
  • RM infalible: qué decirle a tus programadores
  • Labs: ejecución de ejemplos de MapReduce
YARN: nueva arquitectura y nuevas capacidades Objetivos de diseño y arquitectura de implementación de YARN Nuevos actores: ResourceManager, NodeManager, Application Master Instalación de YARN Programación de trabajos en YARN Laboratorios: investigar la programación de trabajos
  • Temas avanzados
  • Monitoreo de hardware
  • Supervisión de clústeres
  • Adición y eliminación de servidores, actualización Hadoop
  • Planificación de copias de seguridad, recuperación y continuidad del negocio
  • Flujos de trabajo de Oozie
  • Hadoop alta disponibilidad (HA)
  • Hadoop Federación
  • Protección del clúster con Kerberos
  • Laboratorios: configurar la supervisión
Pistas opcionales Cloudera Manager para la administración, supervisión y tareas rutinarias de clústeres; instalación, uso. En este track, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5) Ambari para la administración de clústeres, la supervisión y las tareas rutinarias; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del administrador de clústeres de Ambari y la plataforma de datos Hortonworks (HDP 2.0)

Requerimientos

  • Cómodo con la administración básica del sistema Linux
  • Habilidades básicas de scripting

No se requieren conocimientos de Hadoop y Computación Distribuida, pero se introducirán y explicarán en el curso.

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará a los estudiantes un clúster de hadoop en funcionamiento.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows se recomienda Utty )
  • Un explorador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
  21 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (4)

Cursos Relacionados

Categorías Relacionadas