Compling Nlp Hse Course Save Abandoned

Материалы курса по компьютерной лингвистике Школы Лингвистики НИУ ВШЭ

Project README

Материалы курса по компьютерной лингвистике (Natural Language Processing course materials)

Jupyter-ноутбуки 2021-22

  1. Предобработка текста (Text preprocessing)
    Токенизация, лемматизация, стемминг, pymorphy, mystem, regex, razdel.
  2. Классификация текста (мешок слов) (Bag-of-words classification)
    TFIDF, CountVectorizer, LogReg, KNN, DecisionTrees, Naive Bayes, RandomForest, косинусная близость, тональность текста
  3. Поиск и исправление опечаток (Spellchecking)
    Алгоритм Норвига, расстояние Левенштейна, символьные нграммы, SymSpell.
  4. Базовое языковое моделирование (Basic Language Modelling)
    Вероятность слова, Ngram language model, перплексия, генерация текста.
  5. Тематическое моделирование (Topic modelling)
    Матричные разложения (SVD, NMF), LDA, перплексия, когерентность.
  6. Векторные представления слов (word2vec/fastext) (Word embeddings)
    CBOW, Skip-gram, negative sampling, deep learning basics, sigmoid, softmax.
  7. WSD/WSI
    Adagram, кластеризация контекстов, wordnet, алгоритм Леска.
  8. RNN и извлечение именованных сущностей (Named Entity Recognition)
    LSTM, GRU, Bidirectional RNN, IOB кодировка, sequence labelling.
  9. Использование предобученных моделей (Fine-tuning pretrained models)
    Transformer, BERT, HuggingFace, fine-tuning.
  10. Машинный перевод (Machine Translation) - TBA
  11. Question answering - TBA
  12. Speech2Text - TBA

Архивные jupyter-ноутбуки

Jupyter-notebooks in English

Open Source Agenda is not affiliated with "Compling Nlp Hse Course" Project. README Source: mannefedov/compling_nlp_hse_course
Stars
118
Open Issues
0
Last Commit
2 years ago

Open Source Agenda Badge

Open Source Agenda Rating