Форма обучения: очная, с применением электронного обучения и дистанционных образовательных технологий
Продолжительность обучения: 12 занятий по 4 ак.ч.
Выдаваемый документ: Удостоверение о повышении квалификации МФТИ
Старт обучения: февраль 2023
Краткое описание программы: Цель программы - знакомство студентов с ключевыми задачами и методами анализа текстов.
Содержание программы (программа составлена на английском языке, так как вся терминология предмета англоязычная):
1. Introduction and Basic Text Processing1.1. Theories:
- NLP Research Questions and Tasks
- Math & Lingustics Background
- Chomsky Hierarchy of Grammars and Automata
- Text Segmentation
- Tokenization and Stemming
- Morphology and Universal Morphology Corpus
- Word frequncies and Zipf's Law
- Collocations and Multi-word Expressions
1.1. Practice:
- Python Programming & NumPy & Jupyter Notebook
- NLTK
2. NLP Techniques 2.1. Theories:
- Machine Learning basics
- Classifiers, Logistic Regressions
- Stochastic Gradient Descend
- Vector Space Models and TF-IDFs
- Text Classification
- Sentiment Analysis
Practice:
- PyTorch & TensorFlow
- Assignment 1:
- Word2Vec
2.2. Theories:
- Distributional Semantics and Word Embeddings
- Word2Vec and Evaluation
- Softmax and Cross-entropy Loss
- GLoVe, Fasttext
Practice:
- Word2Vec, Doc2Vec
- Assignment:
- 1st assignment is open.
2.3. Theories:
- Artificial Neural Networks (ANNs)
- Multilayer Perceptrons (MLPs)
- Backpropagation
- Convolutional Neural Networks (CNN)
- Text Classification with CNNs
Practice:
- Topiс Modeling and Visualization
2.4. Theories:
- Part-of-Speech (POS) Tagging
- Named Entity Recognition (NER)
- Maximum Entropy (ME)
- Sequence Labelling
- Hidden Markov Models (HMMs)
- Viterbi Search and Forward-Backword Algorithm
- Conditional Random Fields (CRFs)
2.5. Theories:
- Neural Language Models
- Recurrent Neural Networks (RNNs)
- Long Short Term Memory (LSTM) Units
- Bi-LSTM-CRF Models for Sequence Labeling
Practice:
- Neural Networks Tips and Tricks
- Regularizations
- Dropout
- Initialization
2.6. Theories:
- Syntactic Parsing
- Treebanks
- Probabilistic Phrase Structure Grammars (PCFGs)
- Constituent Parings with PCFG
- Dependency Parsing
- Parsing with Neural Networks
- Semantic Role Labeling (optional)
- Coreference Resolution (optional)
- Discourse Parsing (optional)
Practice:
2.7. Theories:
- Statistical Machine Translation
- Statistical Language Models
- IBM Models
- Log-linear Framework and Phrase-based Models
- Beam Search Decoding
- Machine Translation Evaluation and BLEU
- Sequence-to-sequence Models
- Attention Mechanisms
- RNN-based Neural Machine Translation (NMT)
Practice:
2.8. Theories:
- Subword Level and Character Level NMT
- Transformers
- Transformer-based NMT
- Pre-trained Language Models
- BERT
- GPT-2
Practice:
2.9. Theories:
- Question Answering
- Semantic Parsing (optional)
- Dialog
2.10. Theories:
2.11. Practice:
- Final Project Presentation
Как проходит обучение: - Лекции и семинары с преподавателем МФТИ в Zoom
- Все занятия записываются и доступны всегда
- Постоянная поддержка от преподавателей в чате курса
- Домашние задания в течение семестра
- Контрольные работы в качестве промежуточного контроля знаний
- Обратная связь на домашние задания