Realtime BigData workshop
Форма обучения: очная (с применением дистанционных технологий)
Объем программы: 17 ак.ч.
Продолжительность обучения: 10 дней
Выдаваемый документ: Удостоверение о повышении квалификации МФТИ


Краткое описание программы:
Real-time обработка данных - это самый быстрый метод обработки данных, который обрабатывает данные за короткий период времени и обеспечивает наиболее точный результат. Обработка данных в реальном времени требует постоянного ввода, постоянной обработки и стабильного вывода данных.

Отличным примером real-time обработки больших данных является потоковая передача данных, радиолокационные системы, системы обслуживания клиентов и банковские банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.

Содержание программы:

  • Большие данные и парадигма mapreduce | BigData and MapReduce paradigm
  • Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark
  • Spark RDD and Data frame APIs
  • Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count
  • Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop.
  • Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint

Целевая аудитория программы:
  • Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
  • Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных

На курсе вы научитесь:
  1. разрабатывать приложения на Spark и запускать их на реальном Hadoop-кластере.
  2. строить pipelines обработки данных в реальном времени, используя Spark Structured streaming.