Анализ текстов
Форма обучения: очная, с применением электронного обучения и дистанционных образовательных технологий
Продолжительность обучения: 12 занятий по 4 ак.ч.
Выдаваемый документ: Удостоверение о повышении квалификации МФТИ
Старт обучения: февраль 2023

Краткое описание программы:
Цель программы - знакомство студентов с ключевыми задачами и методами анализа текстов.

Содержание программы (программа составлена на английском языке, так как вся терминология предмета англоязычная):
1. Introduction and Basic Text Processing
1.1. Theories:
  • NLP Research Questions and Tasks
  • Math & Lingustics Background
  • Chomsky Hierarchy of Grammars and Automata
  • Text Segmentation
  • Tokenization and Stemming
  • Morphology and Universal Morphology Corpus
  • Word frequncies and Zipf's Law
  • Collocations and Multi-word Expressions
1.1. Practice:
  • Python Programming & NumPy & Jupyter Notebook
  • NLTK
2. NLP Techniques
2.1. Theories:
  • Machine Learning basics
  • Classifiers, Logistic Regressions
  • Stochastic Gradient Descend
  • Vector Space Models and TF-IDFs
  • Text Classification
  • Sentiment Analysis
Practice:
  • PyTorch & TensorFlow
  • Assignment 1:
  • Word2Vec
2.2. Theories:
  • Distributional Semantics and Word Embeddings
  • Word2Vec and Evaluation
  • Softmax and Cross-entropy Loss
  • GLoVe, Fasttext
Practice:
  • Word2Vec, Doc2Vec
  • Assignment:
  • 1st assignment is open.
2.3. Theories:
  • Artificial Neural Networks (ANNs)
  • Multilayer Perceptrons (MLPs)
  • Backpropagation
  • Convolutional Neural Networks (CNN)
  • Text Classification with CNNs
Practice:
  • Topiс Modeling and Visualization
2.4. Theories:
  • Part-of-Speech (POS) Tagging
  • Named Entity Recognition (NER)
  • Maximum Entropy (ME)
  • Sequence Labelling
  • Hidden Markov Models (HMMs)
  • Viterbi Search and Forward-Backword Algorithm
  • Conditional Random Fields (CRFs)
2.5. Theories:
  • Neural Language Models
  • Recurrent Neural Networks (RNNs)
  • Long Short Term Memory (LSTM) Units
  • Bi-LSTM-CRF Models for Sequence Labeling
Practice:
  • Neural Networks Tips and Tricks
  • Regularizations
  • Dropout
  • Initialization
2.6. Theories:
  • Syntactic Parsing
  • Treebanks
  • Probabilistic Phrase Structure Grammars (PCFGs)
  • Constituent Parings with PCFG
  • Dependency Parsing
  • Parsing with Neural Networks
  • Semantic Role Labeling (optional)
  • Coreference Resolution (optional)
  • Discourse Parsing (optional)
Practice:
  • Final Project Selection
2.7. Theories:
  • Statistical Machine Translation
  • Statistical Language Models
  • IBM Models
  • Log-linear Framework and Phrase-based Models
  • Beam Search Decoding
  • Machine Translation Evaluation and BLEU
  • Sequence-to-sequence Models
  • Attention Mechanisms
  • RNN-based Neural Machine Translation (NMT)
Practice:
  • RNN-based NMT
2.8. Theories:
  • Subword Level and Character Level NMT
  • Transformers
  • Transformer-based NMT
  • Pre-trained Language Models
  • BERT
  • GPT-2
Practice:
  • Transformers
2.9. Theories:
  • Question Answering
  • Semantic Parsing (optional)
  • Dialog
2.10. Theories:
  • Guest Lectures
2.11. Practice:
  • Final Project Presentation

Как проходит обучение:
  1. Лекции и семинары с преподавателем МФТИ в Zoom
  2. Все занятия записываются и доступны всегда
  3. Постоянная поддержка от преподавателей в чате курса
  4. Домашние задания в течение семестра
  5. Контрольные работы в качестве промежуточного контроля знаний
  6. Обратная связь на домашние задания