ИНСТРУМЕНТЫ РАБОТЫ
С БОЛЬШИМИ ДАННЫМИ
курс
  • Apache Hadoop (HDFS, MapReduce, YARN)
  • Apache Hive
  • Apache Spark (в том числе технологии Streaming)
  • Apache Kafka
  • NoSQL в больших данных (Apache Cassandra, Apache HBase)
Со скидкой 20%
91 250
73 000
Длительность обучения

2 месяца,
8 ак.ч. в неделю
Формат

Онлайн вебинары с преподавателем
Старт

февраль 2022


Дни занятий

вторник и четверг,
19:00 - 22:00



Документ

Удостоверение о повышении квалификации МФТИ
Подписка на рассылку новостей ФПМИ МФТИ
Хотите быть в курсе предстоящих событий и новых программ?
Тогда подпишитесь на нашу рассылку.
Подписка на новости
На курсе мы познакомимся:
с технологиями работы с большими данными
с типами хранилищ больших объёмов данных
с подходами к потоковой и пакетной обработке данных
с принципами трансляции высокоуровневых языков программирования (SQL-подобных и функциональных) в последовательность задач на Hadoop кластере
Для кого курс:
Разработчики
расширите свои профессиональные возможности и получите новые навыки работы с большими данными
Аналитики
освоите работу с большими данными и сможете решать более сложные и интересные аналитические задачи
Junior Data Engineers
научитесь грамотно использовать современные технологии работы с Big Data и понимать, какую технологию в каких случаях лучше применять
Data Scientists
получите базу по современным инструментам и подходам к сбору, хранению и обработке данных, чтобы улучшить качество ML- модели
Как проходит обучение:
Живые вебинары с преподавателем МФТИ в Zoom
Вебинары записываются и доступны всегда
Постоянная поддержка от преподавателей в чате курса
Домашнее задание раз в неделю (~3 часа)
Мини-тест на 10-15 минут после каждой темы (2-3 занятий)
В конце курса выпускной прикладной проект
Вы научитесь:
Пользоваться распределенной файловой системой

Пользоваться высокоуровневыми языками программирования для BigData для обработки большого объема данных на вычислительном кластере

Запускать задачи на Hadoop кластере

Решать задачи статистики, задачи поиска и индексации, задачи машинного обучения на Hadoop кластере

Писать задачи для запуска на Hadoop кластере с помощью нативного Java-интерфейса

Работать с большими объемами данных и располагать кругозором в выборе архитектурного решения поставленной задачи

Писать задачи для запуска на Hadoop кластере с помощью любого другого языка программирования (с помощью инструментария Hadoop streaming)

Преподаватель
Олег Ивченко
Разработчик системы HJudge - системы автоматизированного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space
Программа
Для прохождения курса необходимо иметь базовые навыки работы с Python, SQL, Linux.
Приветствуется минимальный навык в Java
Занятие 1
Введение. Зачем нужны большие данные. Распределённые файловые системы.

Файловые системы HDFS. Их составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web API, shell, Python API.

Занятие 2.
MapReduce, начало.
Основная идея. MapReduce на картах. Стадии MapReduce-задачи. Самая известная реализация MapReduce - Hadoop. Роли серверов в кластере Hadoop. API для работы с Hadoop (обзор Java API и Hadoop Streaming более подробно). Счётчики с Hadoop.
Занятие 3.
MapReduce, продолжение.
Дополнительные элементы MapReduce-задачи (Combiner, comparator, partitioner). Оптимизация MapReduce-задач, Distributed cache. Join'ы в MapReduce. Планирование задач в Hadoop.
Занятие 4.
SQL поверх MapReduce.
Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Примерные расчёты в Hive.
Занятие 5.
Расширения Hive.
Hive streaming, User defined functions. Оптимизация запросов в Hive (партиционирование, бакетирование, работа с несбалансированными данными). Оптимизация Join в Hive. Форматы данных.
Занятие 6.
Spark RDD.
Вычисления в оперативной памяти. RDD API: транфсормации, действия. Типы трансформаций. Аккумуляторы, сравнение со счётчиками в Hadoop. Broadcast-переменные, сравнение с Distributed cache в Hadoop. Кеширование. Join'ы в Spark.
Занятие 7.
Spark DataFrames.
Spark DF и pandas. Spark SQL и интеграция с Hive. User defined функции.
Занятие 8.
Обработка данных в реальном времени.
Принципы обработки данных в реальном времени. Её отличия от "батч"-обработки. Spark Streaming. Spark Structured streaming.
Занятие 9.
Чтение данных из внешних источников.
Apache Kafka. Интеграция Kafka со Spark Streaming. Разбор практических кейсов
Занятие 10.
NoSQL поверх больших данных. HBase
CAP-теорема. Google Bigtable и HBase Архитектура Hbase. Чтение, запись данных в HBase, Cassandra. Схема хранения, компактификация.
Занятие 11.
NoSQL поверх больших данных. Cassandra
Amazon dynamo и Cassandra. Архитектура Cassandra, отличие от Hbase-подобных систем. Интеграция Cassandra и Spark.
Занятие 12.
Администрирование экосистемы BigData.
Как создать Hadoop кластер с нуля. Какие вещи надо учесть чтоб не потерять данные и оптимизировать бюджеты
Финальный проект
Вы выполняете проект под руководством преподавателя курса, закрепляете знания и навыки, полученные на программе и систематизируете рабочий опыт.
Курс "ИНСТРУМЕНТЫ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ" является частью программы "Профессия DATA ENGINEERING"

Вы можете освоить новую профессию и получить Диплом о переподготовке государственного образца
Факты о МФТИ - нам есть, чем гордиться!
Факт 1
МФТИ вошел в 50 лучших вузов мира по физике и в 100 лучших по математике по результатам рейтинга QS World University Rankings by Subject 2021
Факт 2
В общих рейтингах лучших университетов мира Times Higher Education и Quacquarelli Symonds МФТИ занимает первое место среди технических вузов России
Факт 3
Двенадцать выпускников МФТИ вошли в список Forbes
Факт 4
2 выпускника МФТИ стали Нобелевскими лауреатами по физике в 2010 году
Факт 5
Среди молодых IT-специалистов, окончивших вузы в 2014-2019 годах, самые высокие зарплаты - 230 тыс. рублей в месяц - у выпускников Московского физико-технического института. Таковы результаты ежегодного исследования, проведенного порталом Superjob
Расписание курсов ФПМИ МФТИ 2021/2022
"Физтех-школа прикладной математики и информатики (ФПМИ) МФТИ – безусловно ведущий мировой центр науки и образования в области математики и информатики. Особенность нашей школы заключается в том, что она сочетает в себе активную научную деятельность и тесную связь с индустрией. На сегодняшний день школа включает в себя 28 кафедр и 22 лаборатории от ключевых академических институтов и ключевых представителей IT-индустрии: Яндекс, Тинькофф, Сбербанк, VK, Abbyy, 1C, Huawei и другие.

Наша школа и МФТИ в целом гордимся своими выпускниками, например, мы занимаем первое место в рейтинге вузов России по уровню зарплат занятых в IT-отрасли специалистов "

Андрей Райгородский о ФПМИ МФТИ
Доктор физико-математических наук, профессор, директор Физтех-школы прикладной математики и информатики (ФПМИ)
Партнеры ФПМИ
Стоимость обучения
Подать заявку, получить бесплатную консультацию и подробную программу обучения
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных
91 250
73 000 ₽
Подать заявку на обучение или консультацию
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных