Reddit高贊課程：基於GitHub的超全NLP視頻、PPT、作業

新智元報道

來源：GitHub

編輯：肖琴

Yandex近日開放了內部的自然語言理解課程。

這是一個基於GitHub的課程，涵蓋嵌入、sequence-to-sequence、注意力模型等一系列主題。

課程包含視頻講座，PPT，每週的jupyter的作業（colab友好）和大量的鏈接，非常具有實用性，在Reddit機器學習板塊獲得高贊。

地址：

https://github.com/yandexdataschool/nlp_course

YSDA自然語言理解課程

課程安排

第一週：嵌入（Embeddings）

講座：Word embeddings。分佈式語義、LSA、Word2Vec、GloVe。爲什麼以及何時需要它們。

研討會：單詞和句子嵌入。

第二週：文本分類

講座：文本分類。經典的文本表示方法：BOW、TF-IDF。神經方法：嵌入、卷積、RNN

研討會：使用卷積神經網絡進行薪酬預測;；解釋網絡預測。

第三週：語言模型

講座：語言模型：N-gram和神經方法; 可視化訓練模型

研討會：使用語言模型生成ArXiv論文

第四周：Seq2seq/Attention

講座：Seq2seq： encoder-decoder 框架。注意力模型：Bahdanau模型。自注意力模型、Transformer。Pointer networks；用於分析的注意力模型。

研討會：酒店和宿舍描述的機器翻譯

第05周：結構學習

講座：Structured Learning：結構感知器、結構預測、動態預言、RL基礎知識。

研討會：POS tagging

第六週：期望最大化（Expectation-Maximization）

講座：期望最大化和單詞對齊模型

研討會：實現期望最大化

第07周：機器翻譯

講座：機器翻譯：回顧PBMT的核心思想，過去3年基於NMT開發的應用程序，以及該領域的一些開放性問題。

研討會：學生演講

（持續中...）

獲取地址：

https://github.com/yandexdataschool/nlp_course