論AI領域的內卷:我配不配找工作?

在過去幾年時間裏,NLP領域取得了飛速的發展,這也推動了NLP在產業中的持續落地,以及行業對相關人才的需求。 


但這裏我們要面對的現實是,行業上90%以上的NLP工程師是“不合格的”。在過去幾個月時間裏,我們其實也面試過數百名已經在從事NLP的工程師,但明顯發現絕大部分對技術深度和寬度的理解是比較薄弱的,大多還是只停留在調用現有工具比如BERT、XLNet等階段。 


我們一直堅信AI人才的最大壁壘是創造力,能夠持續爲變化的業務帶來更多的價值。但創造的前提一定是對一個領域的深度理解和廣度認知,以及不斷對一個事物的追問比如不斷問自己爲什麼。


 對於二分類,我應該選擇交叉熵還是Hinge Loss?BERT模型太大了,而且效果發現不那麼好比如next sentence prediction, 能不能改一改? 爲什麼CRF要不HMM在不少NLP問題上效果更好? 文本生成效果不太好,如何改造Beam Search讓效果更好呢?訓練主題模型效率太慢了,如果改造吉布斯採樣在分佈式環境下運行呢? 數據樣本里的標籤中有一些依賴關係,能不能把這些信息也加入到目標函數裏呢?


另外,有必要保持對前沿技術的敏感性但事實上,很多人還是由於各種原因很難做到這一點。基於上述的目的,貪心學院一直堅持跑在技術的最前線,幫助大家不斷地成長。貪心學院這次重磅推出了《自然語言處理高階研修》。



01 課程大綱


課程內容上做了大幅度的更新課程覆蓋了從預訓練模型、對話系統、信息抽取、知識圖譜、文本生成所有必要的技術應用和學術前沿。課程採用全程直播授課模式。帶你全面掌握自然語言處理技術,能夠靈活應用在自己的工作中;深入理解前沿的技術,爲後續的科研打下基礎;通過完成一系列課題,有可能成爲一個創業項目或者轉換成你的科研論文。


第一章:預訓練模型基礎

  • | 預訓練模型基礎、語言模型回顧

  • | N-gram、Neural語言模型回顧

  • | 預訓練方法的發展歷程

  • | 預訓練和transfer learning

  • | Pre-BERT時代的transfer learning

  • | word2vec,transfer learning in NER

  • | Post-BERT時代的transfer learning

  • | Pre-train fine-tune範式


第二章:ELmo與BERT

  • | Elmo、Transformer、BERT

  • | 更強的BERT:RoBERTa

  • | 基於Elmo和BERT的NLP下游任務

  • | Huggingface Transformers庫介紹 

  • | 構建基於BERT的情感分類器


 第三: GPT系列模型

  • | GPT、GPT2、GPT3 

  • | 基於GPT的fine-tuning

  • | 基於GPT的Zero-shot learning

  • | 基於GPT模型的文本生成實戰

  • | Top-k + Top-p 採樣

  • | 基於給定Prompt生成續寫文本


第四: Transformer-XL與XLNet

  • | 處理長文本 

  • | Transformer-XL

  • | 相對位置編碼

  • | Permutation Language Model

  • | Two-stream attention

  • | XLNet

  • | 更進階的預訓練任務:MPNet


第五:其他前沿的預訓練模型

  • | 考慮知識的預訓練模型:ERINE

  • | 對話預訓練模型:PLATO2, DialoGPT

  • | SpanBERT

  • | MASS,UniLM

  • | BART,T5

  • | 實現基於T5的文本分類模型


第六: 低計算量下模型微調和對比學習

  • | 低計算量情況下的預訓練模型微調

  • | Adapter-based fine-tuning,

  • | Prompt-search,P-tuning 

  • | 基於對比學習的預訓練

  • | 對比學習目標:Triplet Loss,InfoNCE Loss

  • | 對比學習在NLP中的前沿應用:SimCSE


第七:多模態預訓練和挑戰

  • | 多模態預訓練模型

  • | 多模態匹配模型:CLIP,文瀾

  • | VQ-VAE

  • | 多模態生成模型:DALLE,CogView

  • | 預訓練模型面臨的挑戰及其前沿進展

  • | 模型並行帶來的挑戰

  • | 對於Transformer的改進:Reformer


第一:對話系統綜述

  • | 對話系統發展歷程

  • | 對話系統的主要應用場景

  • | 常見的對話系統類別以及採用的技術

  • | 對話系統前沿的技術介紹

  • | 基礎:語言模型

  • | 基礎:基於神經網絡的語言模型


第二:對話系統綜述

  • | 任務型對話系統的總體架構

  • | 案例:訂票系統的搭建

  • | 自然語言理解模塊簡介

  • | 對話管理模塊技術

  • | 對話生成模型技術

  • | 基於神經網絡的文本分類和序列標註


第三:自然語言處理理解模塊

  • | 自然語言理解模塊面臨的挑戰

  • | NLU模型中意圖和槽位的聯合識別

  • | 考慮長上下文的NLU

  • | NLU中的OOD檢測

  • | NLU模型的可擴展性和少樣本學習

  • | 少樣本學習方法介紹

  • | 孿生網絡、匹配網絡、原型網絡


第四:對話管理和對話生成

  • | 對話狀態追蹤

  • | 對話策略詳解

  • | POMDP技術

  • | 對話管理的最新研究進展

  • | 基於RL的對話管理

  • | 對話生成技術

  • | 端到端的對話系統

  • | 基於預訓練模型的DST


第五:閒聊對話系統

  • | 閒聊對話系統基礎技術

  • | 基於檢索的閒聊對話系統

  • | 基於生成的閒聊對話系統

  • | 融合檢索和生成的閒聊對話系統

  • | Protoype rewriting, Retrieval augmented generation

  • | 閒聊對話系統的主要應用場景

  • | 閒聊對話系統技術所面臨的主要挑戰

  • | FAQ系統實戰,實現一個自己的FAQ系統

  • | 基於RNN/Transformer/BERT的文本匹配模型


第六:對話系統進階

  • | 情感/共情對話系統

  • | 生成帶情緒的回覆

  • | 個性化對話生成

  • | 生成符合特定個性人設的回覆

  • | 風格化對話生成

  • | 對話回覆的多樣性

  • | Label Smoothing, Adaptive label smoothing

  • | Top-K Sampling, Nuclear Sampling

  • | Non-autoregressive 算法在生成模型中的應用

  • | 基於Transformer的對話生成模型

  • | TransferTransfo


第七:開源對話系統架構RASA詳解

  • | RASA的主要架構

  • | 基於RASA搭建自己的對話系統

  • | 多模態對話、VQA

  • | 考慮圖像模態的對話回覆檢索和生成

  • | 基於預訓練模型的對話系統

  • | 基於GPT模型的對話模型

  • | Meena,PLA


第一:知識圖譜與圖數據模型

  • | 知識圖譜:搜索引擎,數據整合,AI

  • | 實體抽取、關係抽取、詞向量

  • | graph embedding

  • | 圖數據模型:RDF, Cyper

  • | 結構化數據的關係抽取

  • | 介紹關係抽取的基本方法

  • | 介紹結構化數據的信息過濾


第二:知識圖譜的設計

  • | RDF和Property graph的設計

  • | 創建KG:數據處理、文本和圖像

  • | 推斷用到的基本方法

  • | Path detection

  • | Centrality and community Detection

  • | 圖結構嵌入方法

  • | 重要性的基本方法:node,edge


第三:關係抽取和預測

  • | Hand-built patterns

  • | Bootstrapping methods

  • | Supervised methods

  • | Distant supervision

  • | Unsupervised methods

  • | 實體識別的基本方法


第四:低資源信息抽取和推斷

  • | Low-resource NER 

  • | Low-resource structured models

  • | Learning multi-lingual Embeddings

  • | Deepath 

  • | DIVA

  • | Generic Statistical Relational Entity Resolution in Knowledge Graphs 


第五:結構化預測模型

  • | Sequence labeling

  • | 結構化數據類別:Dependency,constituency

  • | Stack LSTM

  • | Stack RNNS

  • | Tree-structure LSTM


第六:圖挖掘的熱門應用

  • | 基本圖概念

  • | Link Prediction

  • | Recommendation system

  • | Anomaly detection

  • | Gated Graph Sequence Neural Networks


第一:Seq2Seq模型與機器翻譯

  • | Seq2seq 模型與機器翻譯任務

  • | 機器翻譯中未登錄詞UNK與subword

  • | 文本生成coverage

  • | length normalization

  • | 低資源語言生成

  • | 多任務學習

  • | Tearch Force Model


第二:文本摘要生成(1)

  • | 摘要生成技術類別

  • | 生成式摘要生成技術

  • | 抽取式摘要生成技術

  • | 基於CNN的文本生成

  • | 基於RNN的文本生成


第三:文本摘要生成(2)

  • | Pointer Network 及其應用

  • | CopyNet 於工業界的落地

  • | Length Normalization 

  • | Coverage Normalization

  • | Text summarization 前沿研究


第四:Creative Writing

  • | 可控性文本生成

  • | Story Telling 與預先訓練GPT

  • | 詩詞,歌詞,藏頭詩等文本生成

  • | 創作性文本生成技巧


第五:多模態文本生成

  • | ResNet 

  • | Inception 等預訓練圖片特徵抽取模型

  • | Image Caption 及其應用

  • | Table2text

  • | 圖神經網絡與文本生成


第六:對抗式文本生成與NL2sql

  • | 對抗生成網絡 GAN模型

  • | 強化學習基礎

  • | 基於 Policy Gradient 的強化學習

  • | SeqGAN

  • | NL2sql :自然語言轉SQL


如果對課程感興趣,請聯繫

添加課程顧問小姐姐微信

報名、課程諮詢

👇👇👇



02 部分案例和項目

學員可以選擇每個模塊完成我們提供的固定項目(以個人爲單位),或者以小組爲單位完成一個 開放式項目(capstone) ,當然你也可以提出你自己的項目。從項目的立項、中期驗收到最終答辯,在這個過程中我們的導師團隊會給你建議、並 輔助你完成課題 , 該課題最終很有可能成爲你 的創業項目或科研論文!



如果對課程感興趣,請聯繫
添加課程顧問小姐姐微信
報名、課程諮詢
👇👇👇


03直播授課,現場推導演示

區別於劣質的PPT講解,導師全程現場推導,讓你在學習中有清晰的思路,深刻的理解算法模型背後推導的每個細節。更重要的是可以清晰地看到各種模型之間的關係!幫助你打通六脈!
▲源自:LDA模型講解


▲源自:Convex Optimization 講解
▲源自:Convergence Analysis 講解


04 科學的課程安排

採用 直播的授課方式 每週3-4次直播教學,包含核心理論課、實戰課、複習鞏固課以及論文講解課。教學模式上也參考了美國頂級院校的教學體系。以下爲其中一週的課程安排,供參考。  


02 項目講解&實戰幫助


訓練營最終的目的是幫助學員完成項目,理解項目中包含核心知識技能,訓練營中會花大量的時間幫助學員理解項目以及所涉及到的實戰講解。


▲節選往期部分課程安排


03 專業的論文解讀


作爲AI工程師,閱讀論文能力是必須要的。在課程裏,我們每1-2週會安排一篇經典英文文章供學員閱讀,之後由老師幫助解讀。   

    

▲僅供參考



04 代碼解讀&實戰


對於核心的模型如BERT,XLNet都會精心安排代碼解讀和實戰課,幫助學員深入理解其細節並有能力去實現。


▲BERT模型代碼實戰講解



05 行業案例分享


訓練營過程中會邀請合作的專家來分享行業案例以及技術解決方案,如知識圖譜的搭建、保險領域的客服系統等。


▲專家分享

《Google YouTube 基於深度學習的視頻推薦》

嘉賓簡介:曾博士

計算機視覺,機器學習領域專家

先後在CVPR,ACMMM,TPAMI,SCI 期刊,EI 會議等發表超過30篇論文



06 日常社羣答疑


爲了幫助解決學員遇到的問題,專業助教會提供全天社羣答疑服務。我們的助教均來來自於一線AI公司和國內外名校,紮實的理論和工業界應用也是我們選拔助教老師的重要標準,拒絕空談理論。


▲社羣內老師專業的解答



07 日常作業&講解


爲了鞏固對一些核心知識點,學員除了大項目,也需要完成日常的小作業。之後助教會給出詳細的解答。


▲課程學習中的小作業




適合什麼樣的人來參加吶?


  • 從事AI行業多年,但技術上感覺不夠深入, 遇到了瓶頸;  
  • 停留在使用模型/工具上,很難基於業務場景來 提出新的模型; 
  • 對於機器學習背後的優化理論、前沿的 技術不夠深入;
  • 計劃從事尖端的科研、研究工作、 申請AI領域研究生、博士生; 
  • 打算進入頂尖的AI公司如Google,Facebook,Amazon, 阿里等;
  • 讀ICML,IJCAI等會議文章比較喫力,似懂非懂, 無法把每個細節理解透。

05 報名須知

1、本課程爲收費教學。
2、本期招收學員名額有限
3、品質保障!學習不滿意,可在開課後7天內,無條件全額退款。
4、學習本課程需要具備一定的機器學習基礎和Python編程基礎。
●●●
如果對課程感興趣,請聯繫
添加課程顧問小姐姐微信
報名、課程諮詢
👇👇👇


本文分享自微信公衆號 - 機器學習算法與Python實戰(tjxj666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章