情感分析語料

因爲項目要求,主要先收集英文的語料庫來進行模型的訓練。

一、英文

1.(可下載) 康奈爾大學(Cornell)提供的影評數據集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/

由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標註了褒貶極性的句子各5,331 句,標註了主客觀標籤的句子各5,000 句.目前影評庫被廣泛應用於各種粒度的,如詞語、句子和篇章級情感分析研究中.

2. 伊利諾伊大學芝加哥分校(UIC)的Hu 和Liu 提供的產品領域的評論語料:主要包括從亞馬遜和Cnet 下
載的五種電子產品的網絡評論(包括兩個品牌的數碼相機,手機,MP3 和DVD 播放器).其中他們將這些語料按句
子爲單元詳細標註了評價對象,情感句的極性及強度等信息.因此,該語料適合於評價對象抽取和句子級主客觀

識別,以及情感分類方法的研究.此外,Liu 還貢獻了比較句研究[74]方面的語料.

3. (可下載)Janyce Wiebe 等人所開發的MPQA(Multiple-Perspective QA)庫:包含535 篇不同視角的新聞評論,它是一個進行了深度標註的語料庫.其中標註者爲每個子句手工標註出一些情感信息,如觀點持有者,評價對象,主觀表達式以及其極性與強度.文獻[75]描述了整個的標註流程.MPQA 語料適合於新聞評論領域任務的研究.

4. 麻省理工學院(MIT)的Barzilay 等人構建的多角度餐館評論語料:共4,488 篇,每篇語料分別按照五個角
度(飯菜,環境,服務,價錢,整體體驗)分別標註上1~5 個等級.這組語料爲單文檔的基於產品屬性的情感文摘提供

了研究平臺.

5. Hownet - http://www.keenage.com/html/e_index.html

6. 多域情感數據集包含從亞馬遜網站獲得的來自4種產品類型(域)的產品評論:廚房,書籍,DVD和電子產品。每個域名都有幾千條評論,但確切數量因域而異 - http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html

二、中文:

1. 酒店評論語料

http://www.datatang.com/data/11936 

譚松波整理的一個較大規模的酒店評論語料。

語料規模爲10000篇。語料從攜程網上自動採集,並經過整理而成。

2. 豆瓣網影評情感測試語料

http://www.datatang.com/data/13539 

來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標註。語料至527頁。每頁20條短評。共計11323條評論。

3. 酒店、電腦與書籍的評論語料

http://www.datatang.com/data/11937

數據量不太大,也有一些重複的數據。

4. 評論網頁數據集

http://www.datatang.com/data/12044

數據量不小,包括的電影和評論都不少
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章