論AI領域的內卷：我配不配找工作？

在過去幾年時間裏，NLP領域取得了飛速的發展，這也推動了NLP在產業中的持續落地，以及行業對相關人才的需求。

但這裏我們要面對的現實是，行業上90%以上的NLP工程師是“不合格的”。在過去幾個月時間裏，我們其實也面試過數百名已經在從事NLP的工程師，但明顯發現絕大部分對技術深度和寬度的理解是比較薄弱的，大多還是只停留在調用現有工具比如BERT、XLNet等階段。

我們一直堅信AI人才的最大壁壘是創造力，能夠持續爲變化的業務帶來更多的價值。但創造的前提一定是對一個領域的深度理解和廣度認知，以及不斷對一個事物的追問比如不斷問自己爲什麼。

對於二分類，我應該選擇交叉熵還是Hinge Loss？BERT模型太大了，而且效果發現不那麼好比如next sentence prediction, 能不能改一改？爲什麼CRF要不HMM在不少NLP問題上效果更好？文本生成效果不太好，如何改造Beam Search讓效果更好呢？訓練主題模型效率太慢了，如果改造吉布斯採樣在分佈式環境下運行呢？數據樣本里的標籤中有一些依賴關係，能不能把這些信息也加入到目標函數裏呢？

另外，有必要保持對前沿技術的敏感性，但事實上，很多人還是由於各種原因很難做到這一點。基於上述的目的，貪心學院一直堅持跑在技術的最前線，幫助大家不斷地成長。貪心學院這次重磅推出了《自然語言處理高階研修》。

01 課程大綱

課程內容上做了大幅度的更新，課程覆蓋了從預訓練模型、對話系統、信息抽取、知識圖譜、文本生成所有必要的技術應用和學術前沿。課程採用全程直播授課模式。帶你全面掌握自然語言處理技術，能夠靈活應用在自己的工作中；深入理解前沿的技術，爲後續的科研打下基礎；通過完成一系列課題，有可能成爲一個創業項目或者轉換成你的科研論文。

第一章：預訓練模型基礎

| 預訓練模型基礎、語言模型回顧
| N-gram、Neural語言模型回顧
| 預訓練方法的發展歷程
| 預訓練和transfer learning
| Pre-BERT時代的transfer learning
| word2vec，transfer learning in NER
| Post-BERT時代的transfer learning
| Pre-train fine-tune範式

第二章：ELmo與BERT

| Elmo、Transformer、BERT
| 更強的BERT：RoBERTa
| 基於Elmo和BERT的NLP下游任務
| Huggingface Transformers庫介紹
| 構建基於BERT的情感分類器

第三章: GPT系列模型

| GPT、GPT2、GPT3
| 基於GPT的fine-tuning
| 基於GPT的Zero-shot learning
| 基於GPT模型的文本生成實戰
| Top-k + Top-p 採樣
| 基於給定Prompt生成續寫文本

第四章: Transformer-XL與XLNet

| 處理長文本
| Transformer-XL
| 相對位置編碼
| Permutation Language Model
| Two-stream attention
| XLNet
| 更進階的預訓練任務：MPNet

第五章：其他前沿的預訓練模型

| 考慮知識的預訓練模型：ERINE
| 對話預訓練模型：PLATO2, DialoGPT
| SpanBERT
| MASS，UniLM
| BART，T5
| 實現基於T5的文本分類模型

第六章: 低計算量下模型微調和對比學習

| 低計算量情況下的預訓練模型微調
| Adapter-based fine-tuning，
| Prompt-search，P-tuning
| 基於對比學習的預訓練
| 對比學習目標：Triplet Loss，InfoNCE Loss
| 對比學習在NLP中的前沿應用：SimCSE

第七章：多模態預訓練和挑戰

| 多模態預訓練模型
| 多模態匹配模型：CLIP，文瀾
| VQ-VAE
| 多模態生成模型：DALLE，CogView
| 預訓練模型面臨的挑戰及其前沿進展
| 模型並行帶來的挑戰
| 對於Transformer的改進：Reformer

第一章：對話系統綜述

| 對話系統發展歷程
| 對話系統的主要應用場景
| 常見的對話系統類別以及採用的技術
| 對話系統前沿的技術介紹
| 基礎：語言模型
| 基礎：基於神經網絡的語言模型

第二章：對話系統綜述

| 任務型對話系統的總體架構
| 案例：訂票系統的搭建
| 自然語言理解模塊簡介
| 對話管理模塊技術
| 對話生成模型技術
| 基於神經網絡的文本分類和序列標註

第三章：自然語言處理理解模塊

| 自然語言理解模塊面臨的挑戰
| NLU模型中意圖和槽位的聯合識別
| 考慮長上下文的NLU
| NLU中的OOD檢測
| NLU模型的可擴展性和少樣本學習
| 少樣本學習方法介紹
| 孿生網絡、匹配網絡、原型網絡

第四章：對話管理和對話生成

| 對話狀態追蹤
| 對話策略詳解
| POMDP技術
| 對話管理的最新研究進展
| 基於RL的對話管理
| 對話生成技術
| 端到端的對話系統
| 基於預訓練模型的DST

第五章：閒聊對話系統

| 閒聊對話系統基礎技術
| 基於檢索的閒聊對話系統
| 基於生成的閒聊對話系統
| 融合檢索和生成的閒聊對話系統
| Protoype rewriting, Retrieval augmented generation
| 閒聊對話系統的主要應用場景
| 閒聊對話系統技術所面臨的主要挑戰
| FAQ系統實戰，實現一個自己的FAQ系統
| 基於RNN/Transformer/BERT的文本匹配模型

第六章：對話系統進階

| 情感/共情對話系統
| 生成帶情緒的回覆
| 個性化對話生成
| 生成符合特定個性人設的回覆
| 風格化對話生成
| 對話回覆的多樣性
| Label Smoothing, Adaptive label smoothing
| Top-K Sampling, Nuclear Sampling
| Non-autoregressive 算法在生成模型中的應用
| 基於Transformer的對話生成模型
| TransferTransfo

第七章：開源對話系統架構RASA詳解

| RASA的主要架構
| 基於RASA搭建自己的對話系統
| 多模態對話、VQA
| 考慮圖像模態的對話回覆檢索和生成
| 基於預訓練模型的對話系統
| 基於GPT模型的對話模型
| Meena，PLA

第一章：知識圖譜與圖數據模型

| 知識圖譜：搜索引擎，數據整合，AI
| 實體抽取、關係抽取、詞向量
| graph embedding
| 圖數據模型：RDF, Cyper
| 結構化數據的關係抽取
| 介紹關係抽取的基本方法
| 介紹結構化數據的信息過濾

第二章：知識圖譜的設計

| RDF和Property graph的設計
| 創建KG：數據處理、文本和圖像
| 推斷用到的基本方法
| Path detection
| Centrality and community Detection
| 圖結構嵌入方法
| 重要性的基本方法：node，edge

第三章：關係抽取和預測

| Hand-built patterns
| Bootstrapping methods
| Supervised methods
| Distant supervision
| Unsupervised methods
| 實體識別的基本方法

第四章：低資源信息抽取和推斷

| Low-resource NER
| Low-resource structured models
| Learning multi-lingual Embeddings
| Deepath
| DIVA
| Generic Statistical Relational Entity Resolution in Knowledge Graphs

第五章：結構化預測模型

| Sequence labeling
| 結構化數據類別：Dependency，constituency
| Stack LSTM
| Stack RNNS
| Tree-structure LSTM

第六章：圖挖掘的熱門應用

| 基本圖概念
| Link Prediction
| Recommendation system
| Anomaly detection
| Gated Graph Sequence Neural Networks

第一章：Seq2Seq模型與機器翻譯

| Seq2seq 模型與機器翻譯任務
| 機器翻譯中未登錄詞UNK與subword
| 文本生成coverage
| length normalization
| 低資源語言生成
| 多任務學習
| Tearch Force Model

第二章：文本摘要生成（1）

| 摘要生成技術類別
| 生成式摘要生成技術
| 抽取式摘要生成技術
| 基於CNN的文本生成
| 基於RNN的文本生成

第三章：文本摘要生成（2）

| Pointer Network 及其應用
| CopyNet 於工業界的落地
| Length Normalization
| Coverage Normalization
| Text summarization 前沿研究

第四章：Creative Writing

| 可控性文本生成
| Story Telling 與預先訓練GPT
| 詩詞，歌詞，藏頭詩等文本生成
| 創作性文本生成技巧

第五章：多模態文本生成

| ResNet
| Inception 等預訓練圖片特徵抽取模型
| Image Caption 及其應用
| Table2text
| 圖神經網絡與文本生成

第六章：對抗式文本生成與NL2sql

| 對抗生成網絡 GAN模型
| 強化學習基礎
| 基於 Policy Gradient 的強化學習
| SeqGAN
| NL2sql ：自然語言轉SQL

如果對課程感興趣，請聯繫

添加課程顧問小姐姐微信

報名、課程諮詢

👇👇👇

02 部分案例和項目

學員可以選擇每個模塊完成我們提供的固定項目（以個人爲單位），或者以小組爲單位完成一個 開放式項目（capstone） ，當然你也可以提出你自己的項目。從項目的立項、中期驗收到最終答辯，在這個過程中我們的導師團隊會給你建議、並 輔助你完成課題 ，該課題最終很有可能成爲你 的創業項目或科研論文！