LML(Lifelong Machine Learning)介紹

最近做評論分析碰到一些瓶頸,閱讀了衆多論文,還是覺得劉兵老師靠譜,實用派的翹楚。於是瞭解了他近年來發的論文,發現了一個很新穎的詞”lifelong”,而且還在KDD 2016做tutorial,題爲《Lifelong Machine Learning》[1]

何爲Lifelong Machine Learning

傳統的ML(他們叫做ML 1.0)都是單獨地對一個任務進行學習,也就是給定一個數據集,運行一個ML算法,並沒有考慮到以前學習過的知識,可以說是隔離(isolated)地學習。

ML 1.0的侷限也很顯而易見:
1. 學習的知識是不可積累的
2. 沒有存儲,即沒有保留學習過的知識
3. 缺乏先驗知識
4. 沒有知識積累和自學習(self-learning):構建一個真正智能的系統是不可能的,因爲不可想象每個任務都需要大量的標註工作。

而回頭看我們人類是如何學習的:
1. 人類從不隔離式地學習
2. 我們能在過去知識的幫助下從少量樣本中有效地學習(沒有人給我1000個正向和1000個負向文檔,來叫我人工構建一個分類器)
3. 當我們看到一個新例子的時候,大部分都是已知的,極少是未知的

由此提出LML:
Lifelong Machine Learning(LML)(還不知道中文怎麼翻譯)
* 像人類那樣學習
* 從過去任務中保留知識,並用它幫助未來的學習

他們叫這個LML爲ML 2.0。

LML例子

情感分析

情感分析很適合LML:
1. 跨領域/任務的大量知識共享
2. 情感表達(情感詞),如good, bad, expensive, great
3. 情感對象(sentiment targets),如”The screen is great but the battery dies fast”

(1)情感分類[3]

目標:將文檔或句子分爲+或-
困難:需要對每個領域人工標註大量的訓練數據

我們可以不對每個領域進行標註或者至少不標註那麼多嗎?

利用過去的信息
大家都知道一個A領域的情感分類器不能用於B領域,那怎麼辦?

  • 經典的解決方法:遷移學習(transfer learning)
    • 利用源領域的標註數據來幫助目標領域的學習
    • 兩個領域必須非常相似

但這可能不是最好的方法。

Lifelong情感分類(Chen, Ma and Liu 2015)
想象我們已經在大量的領域/任務用它們各自的訓練數據D學習了知識。

那我們需要新領域T的數據嗎?

  • 大多數情況不需要——一個幼稚的”LML”方法,就是引入所有數據來工作。
    • 能提高19%準確率
  • 其他情況需要:例如我們用D構建一個SC(sentiment classifier),但它對toy評論效果很差
    • 因爲”toy”這個詞(可能想表達領域太不相似)

(2)Lifelong Aspect抽取[4][5][6]

“The battery life is long, but pictures are poor.”
它的aspect爲:battery life, picture

觀察:

  • 不同產品或領域的評論有着大量的aspect重疊
    • 每個產品評論領域都有aspect price
    • 大部分電子產品都有aspect battery
    • 很多產品都有aspect screen
  • 不用這些aspect顯得很silly

其他LML應用

Lifelong machine learning跟傳統ML一樣,也分有監督、半監督、無監督和強化學習,後續會在博客中選擇性更新。

Reference

[1] Zhiyuan Chen, Estevam Hruschka, and Bing Liu. Lifelong Machine Learning Tutorial. KDD-2016
[2] Daniel L. Silver and Robert Mercer. 1996. The parallel transfer of task knowledge using dynamic learning rates based on a measure of relatedness. Connection Science, 8(2), 277–294.
[3] Zhiyuan Chen, Nianzu Ma and Bing Liu. Lifelong Learning for Sentiment Classification. Proceedings of the 53st Annual Meeting of the Association for Computational Linguistics (ACL-2015, short paper), 26-31, July 2015, Beijing, China.
[4] Shuai Wang, Zhiyuan Chen, and Bing Liu. Mining Aspect-Specific Opinion using a Holistic Lifelong Topic Model. Proceedings of the International World Wide Web Conference (WWW-2016), April 11-15, 2016, Montreal, Canada.
[5] Qian Liu, Bing Liu, Yuanlin Zhang, Doo Soon Kim and Zhiqiang Gao. Improving Opinion Aspect Extraction using Semantic Similarity and Aspect Associations. Proceedings of Thirtieth AAAI Conference on Artificial Intelligence (AAAI-2016), February 12–17, 2016, Phoenix, Arizona, USA.
[6] Zhiyuan Chen, Arjun Mukherjee, and Bing Liu. 2014. Aspect Extraction with Automated Prior Knowledge Learning. In Proceedings of ACL, pages 347–358.
[7] Zhiyuan Chen and Bing Liu. 2014. Mining Topics in Documents : Standing on
the Shoulders of Big Data. In Proceedings of KDD, pages 1116–1125.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章