ИНСТРУМЕНТЫ РАБОТЫ
С БОЛЬШИМИ ДАННЫМИ
курс
  • Apache Hadoop (HDFS, MapReduce, YARN)
  • Apache Hive
  • Apache Spark (в том числе технологии Streaming)
  • Apache Kafka
  • NoSQL в больших данных (Apache Cassandra, Apache HBase)
Со скидкой 20%
91 000
73 000
Длительность обучения

2,5 месяца,
8 ак.ч. в неделю
Формат

Онлайн вебинары с преподавателем
Старт

10 февраля 2022


Дни занятий

вторник и четверг,
19:00 - 22:00



Документ

Удостоверение о повышении квалификации МФТИ
Подписка на рассылку новостей ФПМИ МФТИ
Хотите быть в курсе предстоящих событий и новых программ?
Тогда подпишитесь на нашу рассылку.
Подписка на новости
На курсе мы познакомимся:
с технологиями работы с большими данными
с типами хранилищ больших объёмов данных
с подходами к потоковой и пакетной обработке данных
с принципами трансляции высокоуровневых языков программирования (SQL-подобных и функциональных) в последовательность задач на Hadoop кластере
Для кого курс:
Разработчики
расширите свои профессиональные возможности и получите новые навыки работы с большими данными
Аналитики
освоите работу с большими данными и сможете решать более сложные и интересные аналитические задачи
Junior Data Engineers
научитесь грамотно использовать современные технологии работы с Big Data и понимать, какую технологию в каких случаях лучше применять
Data Scientists
получите базу по современным инструментам и подходам к сбору, хранению и обработке данных, чтобы улучшить качество ML- модели
Как проходит обучение:
Живые вебинары с преподавателем МФТИ в Zoom
Вебинары записываются и доступны всегда
Постоянная поддержка от преподавателей в чате курса
Домашнее задание раз в неделю (~3 часа)
Мини-тест на 10-15 минут после каждой темы (2-3 занятий)
В конце курса выпускной прикладной проект
Вы научитесь:
Пользоваться распределенной файловой системой

Пользоваться высокоуровневыми языками программирования для BigData для обработки большого объема данных на вычислительном кластере

Запускать задачи на Hadoop кластере

Решать задачи статистики, задачи поиска и индексации, задачи машинного обучения на Hadoop кластере

Писать задачи для запуска на Hadoop кластере с помощью нативного Java-интерфейса

Работать с большими объемами данных и располагать кругозором в выборе архитектурного решения поставленной задачи

Писать задачи для запуска на Hadoop кластере с помощью любого другого языка программирования (с помощью инструментария Hadoop streaming)

Преподаватель
Олег Ивченко
Разработчик системы HJudge - системы автоматизированного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space
Программа
Для прохождения курса необходимо иметь базовые навыки работы с Python, SQL, Linux.
Приветствуется минимальный навык в Java
Занятие 1
Введение. Зачем нужны большие данные. Распределённые файловые системы

Виды отказов в сети. Распределённые файловые системы (GFS, HDFS). Их достоинство и сфера применения. Архитектура HDFS. Алгоритмы чтения и записи в HDFS. HDFS Web UI. Обзор API для работы с HDFS

Занятие 2
MapReduce
Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming)
Занятие 3
MapReduce, продолжение
Дополнительные элементы MapReduce-задачи (Combiner, Comparator, Partitioner). Типы Join'ов и их реализации в парадигме MR. Паттерны проекттирования MR (pairs, stripes, составные ключи).
Занятие 4
Планирование задач в MapReduce. YARN
Дополнительные применения MapReduce
Занятие 5
SQL over BigData
Повторение SQL. HiveQL vs. SQL. Hive. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
Занятие 6
Расширения Hive
Оптимизация запросов в Hive (партиционирование, бакетирование, оптимизация Join'ов). Примерные расчеты в Hive. Расширения Hive (select-transform и UDF). Не только Hive: обзор Apache Pig, Cloudera Impala, Presto, Trino
Занятие 7
Apache Spark
Итеративная обработка больших данных на Apache Spark, отличия Spark от MapReduce. Spark RDD API
Занятие 8
Spark Dataframe API
SQL-запросы на Spark. GraphX и GraphFrames
Занятие 9
Обработка данных в реальном времени
Принципы обработки данных в реальном времени. Её отличия от "батч"-обработки. Spark Streaming API
Занятие 10
Распределенный брокер сообщений
Apache kafka. Архитектура, отличия алгоритмов репликации от HDFS. Роль лидера в Kafka
Занятие 11
Связь Kafka с обработкой данных в реальном времени
Kafka и Spark Streaming. Kafka Streams. Работа с KafkaStreams и сравнение со Spark Streaming
Занятие 12
NoSQL в BigData
CAP-теорема. Google Bigtable и Apache HBase. Связь HBase с MapReduce и Spark
Занятие 13
Amazon dynamo и Cassandra
Связь Cassandra и Spark
Занятие 14
От NoSQL снова к SQL
Google Spanner и CockroachDB
Занятие 15
Администрирование экосистемы BigData
Практикум по Cloudera и Яндекс.Облаку
Финальный проект
Вы выполняете проект под руководством преподавателя курса, закрепляете знания и навыки, полученные на программе и систематизируете рабочий опыт.
Курс "ИНСТРУМЕНТЫ РАБОТЫ С БОЛЬШИМИ ДАННЫМИ" является частью программы DATA ENGINEER

Вы можете освоить новую профессию и получить Диплом о переподготовке государственного образца
Факты о МФТИ - нам есть, чем гордиться!
Факт 1
МФТИ вошел в 50 лучших вузов мира по физике и в 100 лучших по математике по результатам рейтинга QS World University Rankings by Subject 2021
Факт 2
В общих рейтингах лучших университетов мира Times Higher Education и Quacquarelli Symonds МФТИ занимает первое место среди технических вузов России
Факт 3
Двенадцать выпускников МФТИ вошли в список Forbes
Факт 4
2 выпускника МФТИ стали Нобелевскими лауреатами по физике в 2010 году
Факт 5
Среди молодых IT-специалистов, окончивших вузы в 2014-2019 годах, самые высокие зарплаты - 230 тыс. рублей в месяц - у выпускников Московского физико-технического института. Таковы результаты ежегодного исследования, проведенного порталом Superjob
Расписание курсов ФПМИ МФТИ 2021/2022
"Физтех-школа прикладной математики и информатики (ФПМИ) МФТИ – безусловно ведущий мировой центр науки и образования в области математики и информатики. Особенность нашей школы заключается в том, что она сочетает в себе активную научную деятельность и тесную связь с индустрией. На сегодняшний день школа включает в себя 28 кафедр и 22 лаборатории от ключевых академических институтов и ключевых представителей IT-индустрии: Яндекс, Тинькофф, Сбербанк, VK, Abbyy, 1C, Huawei и другие.

Наша школа и МФТИ в целом гордимся своими выпускниками, например, мы занимаем первое место в рейтинге вузов России по уровню зарплат занятых в IT-отрасли специалистов "

Андрей Райгородский о ФПМИ МФТИ
Доктор физико-математических наук, профессор, директор Физтех-школы прикладной математики и информатики (ФПМИ)
Партнеры ФПМИ
Стоимость обучения
Подать заявку и получить консультацию
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных
91 000
73 000 ₽
Подать заявку на обучение или консультацию
Нажимая кнопку «Отправить», вы соглашаетесь с условиями обработки персональных данных
Предлагаем нашим слушателям рассрочку на оплату обучения
(только для физических лиц)
Условия рассрочки
По каждой из предлагаемых программ/курсов, имеется возможность оплаты обучения в рассрочку.

Условия рассрочки:

Полная стоимость обучения при использовании рассрочки не изменяется. Рассрочка беспроцентна, оформление рассрочки бесплатно.

Детали рассрочки описаны в оферте на каждую соответствующую программу/курс, в Приложении № 1 – График платежей.

В Графике платежей указаны контрольные даты, на которые слушателем суммарно за всё предшествующее такой дате время должна быть перечислена указанная в графике платежей соответствующая сумма, или превышающая её сумма (но не более полной стоимости обучения). Например:

  • Оплата через равные промежутки времени платежами одинакового размера
  • Оплата одним платежом в размере стоимости всего обучения

Все описанные варианты допустимы, если на каждую из обозначенных в графике платежей дат внесено платежей на сумму не меньше указанной.