Мы используем файлы cookie для обеспечения работоспособности сервиса, улучшения навигации и маркетинговых активностей Yolonce. Нажимая "Согласен", вы соглашаетесь с нашей Политикой конфиденциальности

Основы Hadoop

  Сложность

Пока неизвестно

  Длительность

24 ак.ч.

  Формат

онлайн

  Документ по выпуску

удостоверение о повышении квалификации государственного образца

Стоимость курса
41 900

Подробнее о курсе

Описание Этот тренинг дает представление об устройстве Apache Hadoop и методах разработки приложений, обрабатывающих данные на его основе. Участники познакомятся с HDFS – стандартом де-факто для долговременного надежного хранения больших объемов данных фреймворком YARN, управляющим параллельным выполнением приложений на кластерети сопутствующими проектами, составляющими экосистему Hadoop: Hive, Spark, HBase.

Документ после выпуска

удостоверение о повышении квалификации государственного образца

Автор курса

Оценка и обучение ИТ-специалистов по ключевым направлениям разработки программного обеспечения. Курсы от экспертов-практиков по языкам программирования, системному и бизнес-анализу, архитектуре ПО, ручному и автоматизированному тестированию ПО, Big Data и машинному обучению, управлению проектами и Agile. Действует скидка 10% на обучение физических лиц.

Программа курса

  1. Основные концепции современной архитектуры данных (теория – 1 ч.).

  2. HDFS: Hadoop Distributed File System (теория – 2 ч., практика – 1 ч.)

Архитектура, репликация, чтение и запись данных, команды HDFS. Практика: подключение к кластеру, работа с файловой системой из shell и Hue.

  3. Парадигма MapReduce и ее реализация на Java и в Hadoop Streaming (теория – 2 ч., практика – 1 ч.).

Практика: запуск приложений.

  4. YARN: управление распределенным выполнением приложений (теория – 1 ч., практика – 1 ч.)

Архитектура YARN, запуск приложений в YARN. Практика: запуск приложений и наблюдение за кластером через UI.

  5. Введение в Hive (теория – 2 ч., практика – 3 ч.).

Архитектура, метаданные таблиц, форматы файлов, язык запросов HiveQL. Практика (Hue, hive, beeline, Tez UI): создание таблиц, чтение и запись CSV, Parquet, ORC, партиционирование, SQL-запросы с агрегацией и соединениями.

  6. Введение в Spark (теория – 2 ч., практика – 3 ч.).

DataFrame/SQL, метаданные, форматы файлов, источники данных, RDD. Практика (Zeppelin, Spark UI): чтение и запись из БД (JDBC), CSV, Parquet, партиционирование, SQL-запросы с агрегацией и соединениями, планы выполнения запросов, мониторинг.

  7. Введение в потоковую обработку данных (теория – 2 ч., практика – 1 ч.).

Spark Streaming, Spark Structured Streaming, Flink. Практика: чтение/обработка/запись потоков между Kafka, реляционной БД и файловой системой.

  8. Введение в HBase (теория – 1 ч., практика – 1 ч.).

Архитектура, язык запросов. Практика (HBase shell): запись и чтение данных.

  Всего: теория – 13 ч. (54%), практика – 11 ч. (46%)

Оставьте отзыв

Напишите ваш коментарий, не менее 30 символов

Нажимая кнопку, вы даете согласие на обработку персональных данных

обновлено: 19.09.2024

Оставьте заявку

Наши консультанты ответят на все вопросы
И помогут в выборе

Комментарий ...

Нажимая кнопку, вы даете согласие на обработку персональных данных