新智元報道
來源:GitHub
編輯:肖琴
【新智元導讀】Yandex近日開放了一個自然語言理解課程,包含嵌入、注意力模型等NLP相關的大量主題,並且所有視頻講座、PPT、作業等都可以直接從GitHub庫獲取,相當實用。
Yandex近日開放了內部的自然語言理解課程。
這是一個基於GitHub的課程,涵蓋嵌入、sequence-to-sequence、注意力模型等一系列主題。
課程包含視頻講座,PPT,每週的jupyter的作業(colab友好)和大量的鏈接,非常具有實用性,在Reddit機器學習板塊獲得高贊。
地址:
https://github.com/yandexdataschool/nlp_course
YSDA自然語言理解課程
- 每週的講座和研討會材料都在./week*文件夾中
- 可以直接從這個repo創建雲jupyter session
- 作業列在Anytask course頁面
- 任何技術問題、想法、課程材料中的bug、貢獻想法等,可以通過添加issue提交
- 安裝庫和故障教程
課程安排
第一週:嵌入(Embeddings)
講座:Word embeddings。分佈式語義、LSA、Word2Vec、GloVe。爲什麼以及何時需要它們。
研討會:單詞和句子嵌入。
第二週:文本分類
講座:文本分類。經典的文本表示方法:BOW、TF-IDF。神經方法:嵌入、卷積、RNN
研討會:使用卷積神經網絡進行薪酬預測;;解釋網絡預測。
第三週:語言模型
講座:語言模型:N-gram和神經方法; 可視化訓練模型
研討會:使用語言模型生成ArXiv論文
第四周:Seq2seq/Attention
講座:Seq2seq: encoder-decoder 框架。注意力模型:Bahdanau模型。自注意力模型、Transformer。Pointer networks;用於分析的注意力模型。
研討會:酒店和宿舍描述的機器翻譯
第05周:結構學習
講座:Structured Learning:結構感知器、結構預測、動態預言、RL基礎知識。
研討會:POS tagging
第六週:期望最大化(Expectation-Maximization)
講座:期望最大化和單詞對齊模型
研討會:實現期望最大化
第07周:機器翻譯
講座:機器翻譯:回顧PBMT的核心思想,過去3年基於NMT開發的應用程序,以及該領域的一些開放性問題。
研討會:學生演講
(持續中...)
獲取地址:
https://github.com/yandexdataschool/nlp_course