Обработка Данных с Microsoft HDInsight - Performing Data Engineering on Microsoft HD Insight

войти | регистрация

Зарегестрируйтесь и получите скидку!

+7 (495) 728-2952

KL 025.6 Платформа Kaspersky Anti Targeted Attack (KATA) и Kaspersky EDR

22.04.2024

DBA2 Администрирование PostgreSQL 13. Настройка и мониторинг

22.04.2024

DEV1 Разработка серверной части приложений PostgreSQL 12. Базовый курс

22.04.2024

L103 Сетевое администрирование Linux

22.04.2024

Alt100 Основы работы в операционной системе Альт

22.04.2024

KL 013.11.4 Kaspersky Endpoint Security для Linux

26.04.2024

DBA3-13 Резервное копирование и репликация PostgreSQL 13

29.04.2024

DEV2 Разработка серверной части приложений PostgreSQL 13. Расширенный курс

13.05.2024

KL 036.2 Kaspersky Secure Mail Gateway Course

13.05.2024

KL 038.4.1 Kaspersky Industrial CyberSecurity (KICS)

14.05.2024

Microsoft -> Microsoft SQL Server 2016 | 2014 | 2012 | 2008

Курс: 20775

Связанные курсы >>

Обработка Данных с Microsoft HDInsight - Performing Data Engineering on Microsoft HD Insight

29600 руб. *

* Только для курса Звоните

Вендор: Microsoft

Направление:

Продолжительность:
5 дн. | 40 а. ч.

Форма обучения:
очная в группе, дистанционная

Цена: 33000 руб.

Готовит к сертификации:
MCSA: SQL Server 2016
MCIP: Database Administrator 2016
MCTS: SQL Server 2016, Database Development

Цель курса:

SQL Server 2016 – это новая версия универсальной платформы для управления данными, разработки бизнес-приложений и проектов бизнес-аналитики.

Цель курса - предоставить слушателям знания и навыки, необходимые необходимые для работы с массивами больших данных, планирования и внедрения рабочих потоков с помощью HDInsight.

Целевая аудитория:

Специалисты, анализирующие огромные наборы данных, а также разработчики, использующие R в своих проектах.

После окончания курса Вы будете уметь:

описывать Hadoop, MapReduce, HDInsight;
описывать типы кластеров HDInsight;
описывать создание, управление и удаление кластеров HDInsight с помощью PowerShell;
описывать, как разрешать доступ пользователей к объектам;
описывать конфигурации и архитектуру хранилища HDInsight;
проводить мониторинг ресурсов с Operations management suite;
выполнять запросы с Hive и Pig;
описывать использование ETL и Spark;
внедрять интерактивные запросы;
выполнять интерактивную обработку данных с помощью Apache Phoenix;
управлять задачами потоковой аналитики;
создавать приложения для обработки структурированных потоков в Spark;
использовать потоковые данные в Storm;
объяснять, как работает язык R;
преобразовывать и очищать наборы данных.

Предварительная подготовка:

Успешное окончание курсов:

Курс Programming on R. Level 1. Basics или эквивалентная подготовка.
Курс 20774: Облачная аналитика больших данных (Big Data) при помощи машинного обучения в Azure или эквивалентная подготовка.

Английский язык уровень Elementary.

Модуль 1. Начало работы с HDInsight

• Большие данные

• Hadoop

• MapReduce

• HDInsight

Лабораторная работа: Запросы к большим данным

• Запросы к данным с Hive

• Запросы к данным с Excel

Модуль 2. Развертывание кластеров HDInsight

• Типы кластеров HDInsight

• Управление кластерами HDInsight

• Управление кластерами HDInsight с помощью PowerShell

Лабораторная работа: Управление кластерами HDInsight в Azure

• Создание кластера Hadoop в HDInsight

• Настройка HDInsight с помощью скрипта

• Настройка HDInsight с помощью Bootstrap

• Удаление кластера HDInsight

Модуль 3. Авторизация пользователей для доступа к ресурсам

• Недоменные кластеры

• Настройка кластера HDInsight, подключенного к домену

• Управление подключенным к домену кластером HDInsight

Лабораторная работа: Авторизация пользователей для доступа к ресурсам

• Настройка кластера HDInsight, подключенного к домену

• Настроить политики Hive

Модуль 4. Загрузка данных в HDInsight

• Хранилище HDInsigh

• Средства загрузки данных

• Производительность и надёжность

Лабораторная работа: Загрузка данных в HDInsight

• Загрузка данных с помощью Sqoop

• Загрузка данных с помощью AZcopy

• Загрузка данных с помощью ADLcopy

• Использование HDInsight для сжатия данных

Модуль 5. Поиск и устранение неисправностей в HDInsight

• Анализ журналов

• Журналы YARN

• Дампы кучи (Heap)

• Operations management suite

Лабораторная работа: Поиск и устранение неисправностей в HDInsight

• Анализ журналов HDInsight

• Анализ журналов YARN

• Мониторинг ресурсов с Operations management suite

Модуль 6. Внедрение пакетных решений

• Хранилище Apache Hive

• Запросы с Hive и Pig

• Подключение HDInsight

Лабораторная работа: Резервное копирование баз данных SQL Server

• Загрузка данных в таблицу Hive

• Запрос данных в Hive и Pig

Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark

• Что такое Spark?

• ETL и Spark

• Производительность Spark

Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark

• Создание кластера HDInsight с доступом к хранилищу Data Lake

• Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake

• Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight

• Управление ресурсами кластера Apache Spark в Azure HDInsight

Модуль 8. Анализ данных со Spark SQL

• Внедрение интерактивных запросов

• Проведение исследовательского анализа данных

Лабораторная работа: Анализ данных со Spark SQL

• Внедрение интерактивных запросов

• Проведение исследовательского анализа данных

Модуль 9. Анализ данных с помощью Hive и Phoenix

• Внедрение интерактивных запросов для больших данных с помощью Hive

• Проведение исследовательского анализа данных с помощью Hive

• Выполнение интерактивной обработки данных с помощью Apache Phoenix Лабораторная работа: Анализ данных с помощью Hive и Phoenix

• Внедрение интерактивных запросов для больших данных с помощью Hive

• Проведение исследовательского анализа данных с помощью Hive

• Выполнение интерактивной обработки данных с помощью Apache Phoenix

Модуль 10. Потоковая аналитика

• Потоковая аналитика

• Обработка потоковых данных из потоковой аналитики

• Управление задачами потоковой аналитики

Лабораторная работа: Внедрение потоковой аналитики

• Обработка потоковых данных из потоковой аналитики

• Управление задачами потоковой аналитики

Модуль 11. Spark Streaming и DStream API

• Обзор когнитивных служб

• DStream

• Создание приложений для обработки структурированных потоков в Spark

• Стабильность и визуализация

Лабораторная работа: Использование DStream API для создания приложений Spark Streaming

• Создание приложения Spark Streaming с помощью DStream API

• Создание приложения для обработки структурированных потоков в Spark

Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

• Долгохранимые данные

• Потоковые данные в Storm

• Создание топологии Storm

• Настройка Apache Storm

Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm

• Потоковые данные в Storm

• Создание топологии Storm

Модуль 13. Анализ данных с помощью Spark SQL

• Внедрение интерактивных запросов

• Проведение исследовательского анализа данных

Лабораторная работа: Использование R-сервисов машинного обучения

• Внедрение интерактивных запросов

• Проведение исследовательского анализа данных

Согласие на обработку персональных данных:

Настоящим в соответствии с Федеральным законом № 152-ФЗ «О персональных данных» от 27.07.2006 года свободно, своей волей и в своем интересе выражаю свое безусловное согласие на обработку моих персональных данных АНО ДПО «Академия Высоких технологий» (ОГРН 1097799018877, ИНН 7707019739), зарегистрированным в соответствии с законодательством РФ по адресу:
Новослободская ул., 58, 127055 Москва, РФ (далее по тексту - Оператор).
Персональные данные - любая информация, относящаяся к определенному или определяемому на основании такой информации физическому лицу.
Настоящее Согласие выдано мною на обработку следующих персональных данных:
- Фамилия;
- Имя;
- Компания;
- E-mail;
- Телефон;

Согласие дано Оператору для совершения следующих действий с моими персональными данными с использованием средств автоматизации и/или без использования таких средств: сбор, систематизация, накопление, хранение, уточнение (обновление, изменение), использование, обезличивание, а также осуществление любых иных действий, предусмотренных действующим законодательством РФ как неавтоматизированными, так и автоматизированными способами.
Данное согласие дается Оператору для обработки моих персональных данных в следующих целях:
- предоставление мне услуг/работ;
- направление в мой адрес уведомлений, касающихся предоставляемых услуг/работ;
- подготовка и направление ответов на мои запросы;
- направление в мой адрес информации, в том числе рекламной, о мероприятиях/товарах/услугах/работах Оператора.

Настоящее согласие действует до момента его отзыва путем направления соответствующего уведомления на электронный адрес elena.golyshevskaya@ht-edu.ru. В случае отзыва мною согласия на обработку персональных данных Оператор вправе продолжить обработку персональных данных без моего согласия при наличии оснований, указанных в пунктах 2 – 11 части 1 статьи 6, части 2 статьи 10 и части 2 статьи 11 Федерального закона №152-ФЗ «О персональных данных» от 26.06.2006 г.

Фамилия: *
Имя: *
Компания: *
E-mail: *
Телефон: *
Город:

Логин:
Пароль:
	Запомнить меня на этом компьютере

Забыли свой пароль?