BIG DATA WORKSHOPS:
real-time обработка данных с использованием Spark и Kafka
Соотношение теории и практики 50/50
01 октября 10:00-18:00 | 19-20 ноября 10:00-18:00
Очно
Суперинтенсив
Место проведения: Московский корпус МФТИ (Учебный центр 1С)
расположен по адресу: г. Москва, Дмитровское шоссе, д.9 (метро "Тимирязевская")
Что такое real-time обработка больших данных и когда она нужна?
Real-time обработка данных - метод обработки данных, при которых данные обрабатываются небольшими порциями. Работа с каждой порцией занимает минимальное время, поэтому мы всегда имеем актуальный результат.

Отличными примерами real-time обработки больших данных являются потоковая передача данных, радиолокационные системы, рекомендательные системы и банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.
Для кого:
Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных
Программы и результаты обучения:
Realtime BigData workshop | 01 октября 2021
1 день
10.00- 18.00
8 ак.ч
Желательны знания: Python, Scala или Java, SQL, базовый Git

Научитесь разрабатывать приложения на Spark и запускать их на реальном Hadoop-кластере.
Научитесь строить pipelines обработки данных в реальном времени, используя Spark Structured streaming.

Основной упор будет на практике. Мы будем всё делать собственными руками: редактировать код, собирать и устанавливать приложение, гонять его на кластере. Скучать будет некогда.
Модуль 1 Batch-обработка
Тема 1. Большие данные и парадигма mapreduce | BigData and MapReduce paradigm
Тема 2. Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark
Тема 3. Spark RDD and Data frame APIs
Модуль 2 Обработка больших данных в реальном времени (Потоковая обработка данных с Apache Spark Structured Streaming)
Streaming Processing сложнее, чем Batch Processing по следующим причинам:
- Нет момента «окончания работы» приложения, напротив, приложение должно работать всегда: 24/7
- Важны не только объёмы данных, но и временные характеристики всех компонентов системы
- Балансировка нагрузки по нодам кластера может изменяться по ходу работы
- Форматы данных неизбежно меняются с течением времени, но приложение должно работать непрерывно и обеспечивать совместимость для потребителей данных

В этом семинаре мы начнём с основ потоковой обработки данных. Мы разберём типичные области применения Streaming Processing. Затем мы познакомимся с Apache Spark Structured Streaming и реализуем несколько сценариев для онлайн-магазина. Мы уделим внимание следующим аспектам:

- агрегация по временным окнам
- понятие времени и watermark
- синхронизация потоков данных из нескольких источников
- интеграция со сторонними системами через Apache Kafka
- форматы данных
- восстановление после аварии

Тема 4. Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count
Тема 5. Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop.
Тема 6. Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint
Модуль 1 Batch-обработка
Тема 1. Большие данные и парадигма mapreduce | BigData and MapReduce paradigm
Тема 2. Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark
Тема 3. Spark RDD and Data frame APIs
Модуль 2 Обработка больших данных в реальном времени
Streaming Processing сложнее, чем Batch Processing по следующим причинам:
- Нет момента «окончания работы» приложения, напротив, приложение должно работать всегда: 24/7
- Важны не только объёмы данных, но и временные характеристики всех компонентов системы
- Балансировка нагрузки по нодам кластера может изменяться по ходу работы
- Форматы данных неизбежно меняются с течением времени, но приложение должно работать непрерывно и обеспечивать совместимость для потребителей данных

В этом семинаре мы начнём с основ потоковой обработки данных. Мы разберём типичные области применения Streaming Processing. Затем мы познакомимся с Apache Spark Structured Streaming и реализуем несколько сценариев для онлайн-магазина. Мы уделим внимание следующим аспектам:

- агрегация по временным окнам
- понятие времени и watermark
- синхронизация потоков данных из нескольких источников
- интеграция со сторонними системами через Apache Kafka
- форматы данных
- восстановление после аварии

Тема 4. Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count
Тема 5. Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop.
Тема 6. Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint
Рекомендованные технические требования
-Вы можете использовать собственный компьютер или воспользоваться компьютером, который будет предоставлен организаторами.

Для прохождения воркшопа вам понадобится компьютер со следующими характеристиками:

Железо: 16 GB RAM, 4 CPU cores

OS:
Unix (любой, centOs тоже можно) или Mac (желательно не windows)

Программы:
  • Bash terminal
  • Linux or Mac - just terminal
  • Windows - one of: GitBash, Windows Subsystem for Linux (WSL)
  • Git
  • JDK 8 or later
  • Maven 3.6.0 or later
  • IntelliJ IDEA with Scala plugin
Workshop. Realtime обработка данных с использованием Kafka | 19-20 ноября 2021
2 дня
10.00-18.00, 10.00- 14.00
12 ак.ч
Необходимые знания: Python, Java, базовый Git и Docker

Получите опыт работы с распределенным брокером событий Kafka
Научитесь строить приложения потоковой обработки данных с помощью Kafka Streams
Модуль 1 Основные концепции и архитектура Apache Kafka
Тема 1.  Что такое Kafka и что она умеет
Тема 2. Что такое потоковая архитектура и на что способны потоковые обработчики
Тема 3. Основные инструменты разработчика
Модуль 2 Kafka Streams API

Тема 4. Kafka Streams: основы и stateless трансформации. Конфигурация приложения
Тема 5. Трансформации с использованием локального состояния
Тема 6. Дуализм «поток—таблица» и табличные join-ы
Тема 7. Время и оконные операции
Модуль 1 Основные концепции и архитектура Apache Kafka
Тема 1.  Что такое Kafka и что она умеет
Тема 2. Что такое потоковая архитектура и на что способны потоковые обработчики
Тема 3. Основные инструменты разработчика
Модуль 2 Kafka Streams API
Тема 4. Kafka Streams: основы и stateless трансформации. Конфигурация приложения
Тема 5. Трансформации с использованием локального состояния
Тема 6. Дуализм «поток—таблица» и табличные join-ы
Тема 7. Время и оконные операции
Как проходит обучение:
Мастер-класс и лекция
Получите 100% полезную теоретическую
и практическую часть
Практические задания
На практике научитесь разрабатывать приложения обработки больших данных
Домашнее задание
Для закрепления навыков выполните домашнее задание
Удостоверение о повышении квалификации МФТИ
Получите удостоверение государственного образца при успешном выполнении заданий
Наши преподаватели
Олег Ивченко
Разработчик системы HJudge - системы автоматизирванного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space
Арсений Ташоян
Инженер-разработчик Big Data & Machine Learning в Swisscom.
Кроме того ведёт лекции и семинары по Streaming Processing для студентов МФТИ.
Иван Пономарев
Технический лидер в компании КУРС. Более 15 лет работает в ИТ, пишет код и руководит проектами от доработки ERP-систем до построения систем мониторинга данных в интернете в реальном времени, кандидат физико-математических наук, доцент кафедры алгоритмов и технологий программирования МФТИ
Стоимость
Realtime BigData workshop
(1 день)
40 000 руб
Realtime обработка данных с использованием Kafka
(2 дня)
55 000 руб
Список тематических чатов
Список литературы
Во время воркшопа бесплатный доступ на Hadoop-кластер
Бонусы
Для тех, кто зарегистрируется и оплатит любой workshop
Участие в двух воркшопах (3 дня) при единовременной оплате
85 000 руб
30 000 руб
41 250 руб
65 000 руб
Факты о МФТИ - нам есть, чем гордиться!
Факт 1
МФТИ вошел в 50 лучших вузов мира по физике и в 100 лучших по математике по результатам рейтинга QS World University Rankings by Subject 2021
Факт 2
В общих рейтингах лучших университетов мира Times Higher Education и Quacquarelli Symonds МФТИ занимает первое место среди технических вузов России
Факт 3
Двенадцать выпускников МФТИ вошли в список Forbes
Факт 4
2 выпускника МФТИ стали Нобелевскими лауреатами по физике в 2010 году
Факт 5
Среди молодых IT-специалистов, окончивших вузы в 2014-2019 годах, самые высокие зарплаты - 230 тыс. рублей в месяц - у выпускников Московского физико-технического института. Таковы результаты ежегодного исследования, проведенного порталом Superjob
Расписание курсов ФПМИ МФТИ 2021/2022
Есть вопрос?
Напишите нам - ответим на вопросы, проведем бесплатную консультацию по обучению