Модуль 1. Начало работы с HDInsight
• Большие данные
• Hadoop
• MapReduce
• HDInsight
Лабораторная работа: Запросы к большим данным
• Запросы к данным с Hive
• Запросы к данным с Excel
Модуль 2. Развертывание кластеров HDInsight
• Типы кластеров HDInsight
• Управление кластерами HDInsight
• Управление кластерами HDInsight с помощью PowerShell
Лабораторная работа: Управление кластерами HDInsight в Azure
• Создание кластера Hadoop в HDInsight
• Настройка HDInsight с помощью скрипта
• Настройка HDInsight с помощью Bootstrap
• Удаление кластера HDInsight
Модуль 3. Авторизация пользователей для доступа к ресурсам
• Недоменные кластеры
• Настройка кластера HDInsight, подключенного к домену
• Управление подключенным к домену кластером HDInsight
Лабораторная работа: Авторизация пользователей для доступа к ресурсам
• Настройка кластера HDInsight, подключенного к домену
• Настроить политики Hive
Модуль 4. Загрузка данных в HDInsight
• Хранилище HDInsigh
• Средства загрузки данных
• Производительность и надёжность
Лабораторная работа: Загрузка данных в HDInsight
• Загрузка данных с помощью Sqoop
• Загрузка данных с помощью AZcopy
• Загрузка данных с помощью ADLcopy
• Использование HDInsight для сжатия данных
Модуль 5. Поиск и устранение неисправностей в HDInsight
• Анализ журналов
• Журналы YARN
• Дампы кучи (Heap)
• Operations management suite
Лабораторная работа: Поиск и устранение неисправностей в HDInsight
• Анализ журналов HDInsight
• Анализ журналов YARN
• Мониторинг ресурсов с Operations management suite
Модуль 6. Внедрение пакетных решений
• Хранилище Apache Hive
• Запросы с Hive и Pig
• Подключение HDInsight
Лабораторная работа: Резервное копирование баз данных SQL Server
• Загрузка данных в таблицу Hive
• Запрос данных в Hive и Pig
Модуль 7. Проектирование пакетных решений ETL для больших данных с помощью Spark
• Что такое Spark?
• ETL и Spark
• Производительность Spark
Лабораторная работа: Проектирование пакетных решений ETL для больших данных с помощью Spark
• Создание кластера HDInsight с доступом к хранилищу Data Lake
• Использование кластера Spark в HDInsight для анализа данных в хранилище Data Lake
• Анализ журналов сайта с помощью настраиваемой библиотеки кластера Apache Spark в HDInsight
• Управление ресурсами кластера Apache Spark в Azure HDInsight
Модуль 8. Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
Лабораторная работа: Анализ данных со Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
Модуль 9. Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix Лабораторная работа: Анализ данных с помощью Hive и Phoenix
• Внедрение интерактивных запросов для больших данных с помощью Hive
• Проведение исследовательского анализа данных с помощью Hive
• Выполнение интерактивной обработки данных с помощью Apache Phoenix
Модуль 10. Потоковая аналитика
• Потоковая аналитика
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики
Лабораторная работа: Внедрение потоковой аналитики
• Обработка потоковых данных из потоковой аналитики
• Управление задачами потоковой аналитики
Модуль 11. Spark Streaming и DStream API
• Обзор когнитивных служб
• DStream
• Создание приложений для обработки структурированных потоков в Spark
• Стабильность и визуализация
Лабораторная работа: Использование DStream API для создания приложений Spark Streaming
• Создание приложения Spark Streaming с помощью DStream API
• Создание приложения для обработки структурированных потоков в Spark
Модуль 12. Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Долгохранимые данные
• Потоковые данные в Storm
• Создание топологии Storm
• Настройка Apache Storm
Лабораторная работа: Разработка решений обработки больших данных в режиме реального времени с помощью Apache Storm
• Потоковые данные в Storm
• Создание топологии Storm
Модуль 13. Анализ данных с помощью Spark SQL
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных
Лабораторная работа: Использование R-сервисов машинного обучения
• Внедрение интерактивных запросов
• Проведение исследовательского анализа данных