Форма обучения: очная (с применением дистанционных технологий)
Объем программы: 17 ак.ч.
Продолжительность обучения: 10 дней
Выдаваемый документ: Удостоверение о повышении квалификации МФТИ
Краткое описание программы:Real-time обработка данных - это самый быстрый метод обработки данных, который обрабатывает данные за короткий период времени и обеспечивает наиболее точный результат. Обработка данных в реальном времени требует постоянного ввода, постоянной обработки и стабильного вывода данных.
Отличным примером real-time обработки больших данных является потоковая передача данных, радиолокационные системы, системы обслуживания клиентов и банковские банкоматы, где немедленная обработка имеет решающее значение для правильной работы системы.
Содержание программы:
- Большие данные и парадигма mapreduce | BigData and MapReduce paradigm
- Итеративные вычисления на больших данных и spark | Iterative computing with BigData. Apache Spark
- Spark RDD and Data frame APIs
- Data streaming concepts. Spark Structured Streaming API. Output modes. Kafka integration and message formats. Streaming word count
- Time window aggregations. Timestamps and watermarks. Message deduplication. PracticeCount sold items in an online shop.
- Streaming joins. Failures and recovery. Streaming sales statistics per country. Lab: Recovery from a checkpoint
Целевая аудитория программы:
- Data engineers и архитекторы BigData приложений, которые интересуются методами realtime-обработки данных
- Разработчики из других сфер, которым интересно получить Best practices в области realtime-обработки данных
На курсе вы научитесь: - разрабатывать приложения на Spark и запускать их на реальном Hadoop-кластере.
- строить pipelines обработки данных в реальном времени, используя Spark Structured streaming.