Инструменты работы с большими данными

КОРПОРАТИВНОЕ ОБУЧЕНИЕ

РАСПИСАНИЕ

info@fpmi-edu.ru

НАПРАВЛЕНИЯ ОБУЧЕНИЯ

+7 (499) 938-99-79

info@fpmi-edu.ru

+7 (499) 938-99-79

КОРПОРАТИВНОЕ ОБУЧЕНИЕ

Инструменты работы
с большими данными

Форма обучения: очная с применением дистанционных технологий
Объем программы: 128 ак.ч.
Продолжительность обучения: 2,5 месяца (16 занятий)
Выдаваемый документ: Удостоверение о повышении квалификации МФТИ

Краткое описание программы:
На курсе мы познакомимся
- с технологиями работы с большими данными
- с типами хранилищ больших объёмов данных
- с подходами к потоковой и пакетной обработке данных
- с принципами трансляции высокоуровневых языков программирования (SQL-подобных и функциональных) в последовательность задач на Hadoop кластере

Для прохождения курса необходимо иметь базовые навыки работы с Python, SQL, Linux. Приветствуется минимальный навык в Java

Содержание программы:
.

Введение. О чём курс, какие будут формы контроля, как сдавать ДЗ. Что такое BigData
Виды отказов в сети. Распределённые файловые системы (GFS, HDFS). Их достоинство и сфера применения. Архитектура HDFS. Алгоритмы чтения и записи в HDFS. HDFS Web UI. Обзор API для работы с HDFS
Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming)
Дополнительные элементы MapReduce-задачи (Combiner, Comparator, Partitioner). Типы Join'ов и их реализации в парадигме MR. Паттерны проектирования MR (pairs, stripes, составные ключи).
Планирование задач в MapReduce. YARN
SQL over BigData: Повторение SQL. HiveQL vs. SQL. Hive. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
Оптимизация запросов в Hive (партиционирование, бакетирование, оптимизация Join'ов). Примерные расчеты в Hive. Расширения Hive (select-transform и UDF). Не только Hive: Apache Pig, Cloudera Impala, Presto
Итеративная обработка больших данных на Apache Spark, отличия Spark от MapReduce. Spark RDD API
Spark Dataframe API
Принципы обработки данных в реальном времени. Её отличия от "батч"-обработки.
Распределенная очередь данных. Apache kafka. Архитектура, отличия алгоритмов репликации от HDFS. Роль лидера в Kafka
Связь Kafka с обработкой данных в реальном времени. Kafka Streams
NoSQL в BigData. CAP-теорема. Google Bigtable и Apache HBase
Amazon Dynamo и Apache Cassandra.
От NoSQL снова к SQL. Google Spanner и CockroachDB
Администрирование экосистемы BigData

Целевая аудитория курса:

Разработчики - расширите свои профессиональные возможности и получите новые навыки работы с большими данными
Аналитики - освоите работу с большими данными и сможете решать более сложные и интересные аналитические задачи
Junior Data Engineers - научитесь грамотно использовать современные технологии работы с Big Data и понимать, какую технологию в каких случаях лучше применять.
Data Scientists - получите базу по современным инструментам и подходам к сбору, хранению и обработке данных, чтобы улучшить качество ML- модели

На курсе вы научитесь:

Пользоваться распределенной файловой системой
Запускать задачи на Hadoop кластере
Писать задачи для запуска на Hadoop кластере с помощью нативного Java-интерфейса
Писать задачи для запуска на Hadoop кластере с помощью любого другого языка программирования (с помощью инструментария Hadoop streaming)
Пользоваться высокоуровневыми языками программирования для BigData для обработки большого объема данных на вычислительном кластере
Решать задачи статистики, задачи поиска и индексации, задачи машинного обучения на Hadoop кластере
Работать с большими объемами данных и располагать кругозором в выборе архитектурного решения поставленной задачи

Записаться на курс

Главная страница
Медиа ФПМИ
Преподаватели

Курсы

Профессии
Воркшопы и интенсивы
Курсы магистратуры

Помощь

Реквизиты
Налоговый вычет

Подписка на новости