在過去幾年時間裏,NLP領域取得了飛速的發展,這也推動了NLP在產業中的持續落地,以及行業對相關人才的需求。
但這裏我們要面對的現實是,行業上90%以上的NLP工程師是“不合格的”。在過去幾個月時間裏,我們其實也面試過數百名已經在從事NLP的工程師,但明顯發現絕大部分對技術深度和寬度的理解是比較薄弱的,大多還是只停留在調用現有工具比如BERT、XLNet等階段。
我們一直堅信AI人才的最大壁壘是創造力,能夠持續爲變化的業務帶來更多的價值。但創造的前提一定是對一個領域的深度理解和廣度認知,以及不斷對一個事物的追問比如不斷問自己爲什麼。
另外,有必要保持對前沿技術的敏感性,但事實上,很多人還是由於各種原因很難做到這一點。基於上述的目的,貪心學院一直堅持跑在技術的最前線,幫助大家不斷地成長。貪心學院這次重磅推出了《自然語言處理高階研修》。
01 課程大綱
課程內容上做了大幅度的更新,課程覆蓋了從預訓練模型、對話系統、信息抽取、知識圖譜、文本生成所有必要的技術應用和學術前沿。課程採用全程直播授課模式。帶你全面掌握自然語言處理技術,能夠靈活應用在自己的工作中;深入理解前沿的技術,爲後續的科研打下基礎;通過完成一系列課題,有可能成爲一個創業項目或者轉換成你的科研論文。
第一章:預訓練模型基礎
| 預訓練模型基礎、語言模型回顧
| N-gram、Neural語言模型回顧
| 預訓練方法的發展歷程
| 預訓練和transfer learning
| Pre-BERT時代的transfer learning
| word2vec,transfer learning in NER
| Post-BERT時代的transfer learning
| Pre-train fine-tune範式
第二章:ELmo與BERT
| Elmo、Transformer、BERT
| 更強的BERT:RoBERTa
| 基於Elmo和BERT的NLP下游任務
| Huggingface Transformers庫介紹
| 構建基於BERT的情感分類器
第三章: GPT系列模型
| GPT、GPT2、GPT3
| 基於GPT的fine-tuning
| 基於GPT的Zero-shot learning
| 基於GPT模型的文本生成實戰
| Top-k + Top-p 採樣
| 基於給定Prompt生成續寫文本
第四章: Transformer-XL與XLNet
| 處理長文本
| Transformer-XL
| 相對位置編碼
| Permutation Language Model
| Two-stream attention
| XLNet
| 更進階的預訓練任務:MPNet
第五章:其他前沿的預訓練模型
| 考慮知識的預訓練模型:ERINE
| 對話預訓練模型:PLATO2, DialoGPT
| SpanBERT
| MASS,UniLM
| BART,T5
| 實現基於T5的文本分類模型
第六章: 低計算量下模型微調和對比學習
| 低計算量情況下的預訓練模型微調
| Adapter-based fine-tuning,
| Prompt-search,P-tuning
| 基於對比學習的預訓練
| 對比學習目標:Triplet Loss,InfoNCE Loss
| 對比學習在NLP中的前沿應用:SimCSE
第七章:多模態預訓練和挑戰
| 多模態預訓練模型
| 多模態匹配模型:CLIP,文瀾
| VQ-VAE
| 多模態生成模型:DALLE,CogView
| 預訓練模型面臨的挑戰及其前沿進展
| 模型並行帶來的挑戰
| 對於Transformer的改進:Reformer
第一章:對話系統綜述
| 對話系統發展歷程
| 對話系統的主要應用場景
| 常見的對話系統類別以及採用的技術
| 對話系統前沿的技術介紹
| 基礎:語言模型
| 基礎:基於神經網絡的語言模型
第二章:對話系統綜述
| 任務型對話系統的總體架構
| 案例:訂票系統的搭建
| 自然語言理解模塊簡介
| 對話管理模塊技術
| 對話生成模型技術
| 基於神經網絡的文本分類和序列標註
第三章:自然語言處理理解模塊
| 自然語言理解模塊面臨的挑戰
| NLU模型中意圖和槽位的聯合識別
| 考慮長上下文的NLU
| NLU中的OOD檢測
| NLU模型的可擴展性和少樣本學習
| 少樣本學習方法介紹
| 孿生網絡、匹配網絡、原型網絡
第四章:對話管理和對話生成
| 對話狀態追蹤
| 對話策略詳解
| POMDP技術
| 對話管理的最新研究進展
| 基於RL的對話管理
| 對話生成技術
| 端到端的對話系統
| 基於預訓練模型的DST
第五章:閒聊對話系統
| 閒聊對話系統基礎技術
| 基於檢索的閒聊對話系統
| 基於生成的閒聊對話系統
| 融合檢索和生成的閒聊對話系統
| Protoype rewriting, Retrieval augmented generation
| 閒聊對話系統的主要應用場景
| 閒聊對話系統技術所面臨的主要挑戰
| FAQ系統實戰,實現一個自己的FAQ系統
| 基於RNN/Transformer/BERT的文本匹配模型
第六章:對話系統進階
| 情感/共情對話系統
| 生成帶情緒的回覆
| 個性化對話生成
| 生成符合特定個性人設的回覆
| 風格化對話生成
| 對話回覆的多樣性
| Label Smoothing, Adaptive label smoothing
| Top-K Sampling, Nuclear Sampling
| Non-autoregressive 算法在生成模型中的應用
| 基於Transformer的對話生成模型
| TransferTransfo
第七章:開源對話系統架構RASA詳解
| RASA的主要架構
| 基於RASA搭建自己的對話系統
| 多模態對話、VQA
| 考慮圖像模態的對話回覆檢索和生成
| 基於預訓練模型的對話系統
| 基於GPT模型的對話模型
| Meena,PLA
第一章:知識圖譜與圖數據模型
| 知識圖譜:搜索引擎,數據整合,AI
| 實體抽取、關係抽取、詞向量
| graph embedding
| 圖數據模型:RDF, Cyper
| 結構化數據的關係抽取
| 介紹關係抽取的基本方法
| 介紹結構化數據的信息過濾
第二章:知識圖譜的設計
| RDF和Property graph的設計
| 創建KG:數據處理、文本和圖像
| 推斷用到的基本方法
| Path detection
| Centrality and community Detection
| 圖結構嵌入方法
| 重要性的基本方法:node,edge
第三章:關係抽取和預測
| Hand-built patterns
| Bootstrapping methods
| Supervised methods
| Distant supervision
| Unsupervised methods
| 實體識別的基本方法
第四章:低資源信息抽取和推斷
| Low-resource NER
| Low-resource structured models
| Learning multi-lingual Embeddings
| Deepath
| DIVA
| Generic Statistical Relational Entity Resolution in Knowledge Graphs
第五章:結構化預測模型
| Sequence labeling
| 結構化數據類別:Dependency,constituency
| Stack LSTM
| Stack RNNS
| Tree-structure LSTM
第六章:圖挖掘的熱門應用
| 基本圖概念
| Link Prediction
| Recommendation system
| Anomaly detection
| Gated Graph Sequence Neural Networks
第一章:Seq2Seq模型與機器翻譯
| Seq2seq 模型與機器翻譯任務
| 機器翻譯中未登錄詞UNK與subword
| 文本生成coverage
| length normalization
| 低資源語言生成
| 多任務學習
| Tearch Force Model
第二章:文本摘要生成(1)
| 摘要生成技術類別
| 生成式摘要生成技術
| 抽取式摘要生成技術
| 基於CNN的文本生成
| 基於RNN的文本生成
第三章:文本摘要生成(2)
| Pointer Network 及其應用
| CopyNet 於工業界的落地
| Length Normalization
| Coverage Normalization
| Text summarization 前沿研究
第四章:Creative Writing
| 可控性文本生成
| Story Telling 與預先訓練GPT
| 詩詞,歌詞,藏頭詩等文本生成
| 創作性文本生成技巧
第五章:多模態文本生成
| ResNet
| Inception 等預訓練圖片特徵抽取模型
| Image Caption 及其應用
| Table2text
| 圖神經網絡與文本生成
第六章:對抗式文本生成與NL2sql
| 對抗生成網絡 GAN模型
| 強化學習基礎
| 基於 Policy Gradient 的強化學習
| SeqGAN
| NL2sql :自然語言轉SQL
如果對課程感興趣,請聯繫
添加課程顧問小姐姐微信
報名、課程諮詢
👇👇👇
02 項目講解&實戰幫助
訓練營最終的目的是幫助學員完成項目,理解項目中包含核心知識技能,訓練營中會花大量的時間幫助學員理解項目以及所涉及到的實戰講解。
▲節選往期部分課程安排
03 專業的論文解讀
作爲AI工程師,閱讀論文能力是必須要的。在課程裏,我們每1-2週會安排一篇經典英文文章供學員閱讀,之後由老師幫助解讀。
▲僅供參考
04 代碼解讀&實戰
對於核心的模型如BERT,XLNet都會精心安排代碼解讀和實戰課,幫助學員深入理解其細節並有能力去實現。
▲BERT模型代碼實戰講解
05 行業案例分享
訓練營過程中會邀請合作的專家來分享行業案例以及技術解決方案,如知識圖譜的搭建、保險領域的客服系統等。
▲專家分享
《Google YouTube 基於深度學習的視頻推薦》
嘉賓簡介:曾博士
計算機視覺,機器學習領域專家
先後在CVPR,ACMMM,TPAMI,SCI 期刊,EI 會議等發表超過30篇論文
06 日常社羣答疑
爲了幫助解決學員遇到的問題,專業助教會提供全天社羣答疑服務。我們的助教均來來自於一線AI公司和國內外名校,紮實的理論和工業界應用也是我們選拔助教老師的重要標準,拒絕空談理論。
▲社羣內老師專業的解答
07 日常作業&講解
爲了鞏固對一些核心知識點,學員除了大項目,也需要完成日常的小作業。之後助教會給出詳細的解答。
▲課程學習中的小作業
適合什麼樣的人來參加吶?
-
從事AI行業多年,但技術上感覺不夠深入, 遇到了瓶頸; -
停留在使用模型/工具上,很難基於業務場景來 提出新的模型; -
對於機器學習背後的優化理論、前沿的 技術不夠深入; -
計劃從事尖端的科研、研究工作、 申請AI領域研究生、博士生; -
打算進入頂尖的AI公司如Google,Facebook,Amazon, 阿里等; -
讀ICML,IJCAI等會議文章比較喫力,似懂非懂, 無法把每個細節理解透。
本文分享自微信公衆號 - 機器學習算法與Python實戰(tjxj666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。