【學術研究】Notes 2020-1-12-3 清華大學-哈工大學術交流 圓桌會議

在研究工作中,如何既利用到BERT的能力又能突出我們的工作貢獻?/word2vec, Transformer, ELMo, BERT, XLNet之後,什麼是NLP的下一代模型。

  • zhiyuan liu, 應該想一想,bert何如提出來的,品味問題,bert對這個領域產生的影響。 加入知識。語言作爲符號系統,背後的意思利用外部信息完成深度理解。把知識考慮進去是非常重要的一個方面。
    一個是unsupervised的大規模數據使用
    一個是supervised labeled data的使用。
  • female. 我們下一步是什麼?
  • 可解釋性
  • 高效、簡化
  • 未來的模型在不同的設備上,大小可調但是性能不影響。
  • 跨媒體,一開始都是在NLP領域,後來會不會有一些解決綜合場景的參數和數據上的問題。
  • 知識和規則、如果bert足夠優秀,是否可以利用工具,使用高階規則,生成語料,與合適的詞結合起來。
  • 語言各種形式、但是語義是統一的。
  • yang liu. 02-19年ACL 最佳論文列了一下。 當時根本不知道這個概念。翻譯:爲什麼做不了這樣的事情
  • 大的浪潮一直在變化,如果不處於潮流的最前面,那麼就有滯後期。領先NLP的工具方面有很大差距。 不知道現在的時間點上,到底前沿在哪裏 閱讀文獻,看paper。
    人工智能的核心,知識從哪來?

人建造:知識圖譜
數據承載,在數據中挖掘。 深度學習
alphaGO,自然主義,間接反饋,獲取知識。

  • bert本質,在未標註數據上挖掘數據。
  • alphaGo是一個封閉系統,規則明確。真實NLP是一個開放系統。我們一定要做一個機器人,能聽能說能寫,真實世界學習到真實東西。
  • 看好機器人與多模態

wanxiang che. 在bert這個時間段中,應該擁抱bert。不需要去迴避,不實用bert也是不可取的。
下一代模型,知識並非是顯式的,符號化的。泛化的知識:數據、算法,都算是知識。人告訴機器,該如何使用知識。 meta知識,有/無/self 指導的數據中有知識、隱式知識告訴機器。知識圖譜這類顯式的,符號化的知識如何加入到現有的系統之中?
基於連接主義和符號主義。專家系統,現在:鏈接主義盛行。 如何融合? 鏈接主義容易計算,符號主義容易積累。 如何把符號信息鏈接化。
one paper in EMNLP, bert預測三元組。也包含了這些信息。非常有趣。

  1. 如何更好的大規模?
  2. 如何更好的利用bert
  3. visulization–bert可解釋性

attention並不是有用的,到底是否是一個重要程度?

yang liu. 觀點偏激, 大家觀察的時代變化,領域分散。 有大一統的,bert各個任務開始融合。 專注做單個任務,意義和價值就在弱化。如果我自己重新做phd,要選擇,核心、主幹的基礎泛化性問題。 看是否去提出一個更好的預訓練模型 (但是並非所有研究生會這麼做,太難了。但反正我會這麼做

任務出發確實解決了很多任務,但是具體任務結合,還有很多的信息需要添加。做生成時需要更多的信息、背景資料等等。 bert自動選擇通道,具體任務再訓練和更多的優化空間。

zhiyuan liu: 日本sigir感受,google等公司,不再來參加了。企業界開始佔據主導時,這是一個非常危險的信號。高校不再收到前沿關注了。bert大部分是企業來提出的。一方面還是需要去做general的事情,模型給我們的啓發需要做一個基礎通用的創新,影響力也大。第二:在原有的問題上提出改進,無法與公司競爭。需要提出挑戰性問題,這些通用模型無法使用,針對這些問題來做。這些模型只能在短文本上做—提出了docRED,不夠魯棒—(adversarial attack) 解決bert這些模型無法解決的問題,提出新的框架。非常重要。建設性的角度來說,並非每一個工作都要非常大的創新。第一、第二個工作可以保險一些。高年級同學,要更高的眼界和更難的挑戰。 要做更有價值的工作

屋子裏面有一個8歲的男孩和他的爸爸媽媽,請問屋子裏有幾個成年人?
zhiyuan liu:我是個實用主義者,我想問,這個問題有什麼用啊?
我笑死了。

NLP中爲什麼沒有像CV四小龍一樣的公司?

zhiyuan liu:我不同意, NLP最大的就是search engine,NLP應用的很多啊。 人臉識別只是在CV裏面很小的一個問題。 但是敏感詞這些應用和國家政策結合,一樣很有很大的觀點。

NLP的落地場景?

完整的表達知識、 在已有的知識上產生新的知識。 高校原創性不必企業差,提出新的架構和問題來解決問題。

yang liu: 和其他學者有過交流, 在中國做學術, 在基礎科研上重大貢獻----科學院院士,在應用上作出重大貢獻----工程院院士。
NLP是偏工程的,但是在項目上又沒有很好的顯示度。一句話不能解釋。
語言是間接性的,nlp絕對非常重要,但是不能一句話講清楚。
nlp哪些應用? 輸入輸出非常清晰: 翻譯。
但是輸入輸出中間態的問題,非常難解釋,句法分析等等。你能和老百姓解釋清楚句法解析樹有什麼用呢?
機器翻譯準確率很高,是一個很好的技術展現形式。如果要創業:要做一個什麼事情有很大的需求,技術成熟度能帶來很好的用戶體驗。

wanxiang che: 常識問題:
1.有沒有數據
2.算法調整
3.額外的知識。

別人在淘金,nlp人在送水, 在 to C 的產品形態後面。
nlp是在人機交互這個圈子。

多模態是下一個發展方向, context做處理時,有多種方面的。有了多模態信息之後就會有非常大的幫助,grounding 利用圖片與語言同時進行理解。

  • 虛擬世界 baby AI

聲、圖、文。 profile、location都是模態,也會幫助語言理解。

範式是 深度學習+有監督。 哪些沒什麼label的數據,擴大信息源。大規模未標註數據的應用。
方向還是,未標註數據的應用。

根據意原的原則來緩解unbalance的問題。 bert是否學習到了隱式表達問題。我們不明白bert學到了什麼,什麼沒學到。

發佈了1162 篇原創文章 · 獲贊 1239 · 訪問量 943萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章