因爲項目要求,主要先收集英文的語料庫來進行模型的訓練。
一、英文
1.(可下載) 康奈爾大學(Cornell)提供的影評數據集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/
由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中.
2. 伊利諾伊大學芝加哥分校(UIC)的Hu 和Liu 提供的產品領域的評論語料:主要包括從亞馬遜和Cnet 下載的五種電子產品的網絡評論(包括兩個品牌的數碼相機,手機,MP3 和DVD 播放器).其中他們將這些語料按句
子爲單元詳細標註了評價對象,情感句的極性及強度等信息.因此,該語料適合於評價對象抽取和句子級主客觀
識別,以及情感分類方法的研究.此外,Liu 還貢獻了比較句研究[74]方面的語料.
3. (可下載)Janyce Wiebe 等人所開發的MPQA(Multiple-Perspective QA)庫:包含535 篇不同視角的新聞評論,它是一個進行了深度標註的語料庫.其中標註者爲每個子句手工標註出一些情感信息,如觀點持有者,評價對象,主觀表達式以及其極性與強度.文獻[75]描述了整個的標註流程.MPQA 語料適合於新聞評論領域任務的研究.
4. 麻省理工學院(MIT)的Barzilay 等人構建的多角度餐館評論語料:共4,488 篇,每篇語料分別按照五個角度(飯菜,環境,服務,價錢,整體體驗)分別標註上1~5 個等級.這組語料爲單文檔的基於產品屬性的情感文摘提供
了研究平臺.
5. Hownet - http://www.keenage.com/html/e_index.html
6. 多域情感數據集包含從亞馬遜網站獲得的來自4種產品類型(域)的產品評論:廚房,書籍,DVD和電子產品。每個域名都有幾千條評論,但確切數量因域而異 - http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
- huge ngrams dataset from google storage.googleapis.com/books/ngrams/books/datasetsv2.html
- http://www.sananalytics.com/lab/twitter-sentiment/
- http://inclass.kaggle.com/c/si650winter11/data
- http://nlp.stanford.edu/sentiment/treebank.html
- or you can look into this global ML dataset repository: https://archive.ics.uci.edu/ml
二、中文:
1. 酒店評論語料
- http://www.datatang.com/data/11936
譚松波整理的一個較大規模的酒店評論語料。語料規模爲10000篇。語料從攜程網上自動採集,並經過整理而成。
2. 豆瓣網影評情感測試語料
- http://www.datatang.com/data/13539
來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料至527頁。每頁20條短評。共計11323條評論。
3. 酒店、電腦與書籍的評論語料
- http://www.datatang.com/data/11937
數據量不太大,也有一些重複的數據。
4. 評論網頁數據集
- http://www.datatang.com/data/12044
數據量不小,包括的電影和評論都不少