淘寶京東類電商評論標籤化的思路

    最近發現京東的評論也開始標籤化了,雖然相對於淘寶的標籤顯得比較生硬,但是也可以看出標籤化是評論的一個趨勢,我個人比較喜歡看評論說話,作爲一個IT工作者,曾經思考了下評論的標籤化工作可能涉及的技術,正好微博有人問起,現在簡單的整理如下。

    評論標籤化的作用

    評論的標籤化的作用首先體現在用戶體驗好了,相對於看評論,標籤可讀性更好,更加明瞭,用戶一眼便能看出好壞,當然電商是不會把壞的結果給顯示出來的;其次,標籤化對電商來說也是一種更深入理解用戶的需求的方法,因爲標籤化涉及到評論的數據分析,而評論是用戶的感情,看法等多種要素混合在一起,通過評論可以將用戶看的更加清楚。

   評論標籤化的技術

    這裏從原始評論到評論的標籤化來簡單說一下。京東摘錄的幾條評論如下:{確實可以,符合這個價格;很好很不錯 性價比高;外觀洋氣,質量不錯,發貨很快,值得擁有(感覺這個像機器人發的)。相信品牌的力量,滿意}它們的標籤分別是{“性價比高”;“配置不錯”;速度快看電影不錯外觀漂亮性價比高

    1.分詞

    首先是將評論進行分詞,將每條評論分成詞的集合,這裏分詞跟常用的分詞器在詞典上有較大的不同,這裏的詞典較多的是電商根據自己應用獨有的,因爲分詞的好壞涉及到後續處理效果的好壞,所以第一步也是很重要的。在分詞過程中可以對去除一些無用的詞,或者將噪聲太多的評論丟掉。

   這裏假設分詞後的結果爲:確實/可以/符合/價格/;很好/很不錯/性價比高;外觀洋氣/質量不錯/發貨很快/值得擁有,這裏分詞只是舉例,不一定準確。

    2.聚類

    這裏的聚類涉及到兩種,一種是詞的聚類,另一種是評論的聚類。一般電商詞典大小可能上千萬維,常見的聚類算法效果不會好,具有降維效果的聚類算法應用較多,比如LDA,LFM,PLSA等,這類的算法是首先構造文檔-詞的矩陣,然後對矩陣進行分解,分解成兩個低維的帶有隱語義的矩陣,即文檔-主題矩陣和詞-主題矩陣,因爲分解後的矩陣維度較低,可以對詞和文檔進行聚類找到給定主題下語義相關的詞集合和文檔集合。通常根據每篇文檔出現哪些主題,哪些主題出現次數最多就選擇出來作爲展示結果,通常採用隱語義模型時,主題是不可描述的,可以統計該主題下哪些詞出現頻率最高作爲該主題的描述,但是這些詞一般可能較爲書面化,需要轉化爲展示的標籤。

    比如矩陣分解完成之後:可以/很好/很不錯屬於一類,價格/性價比高屬於另一類,簡單點就可以將很好、性價比高等作爲標籤展示,

    算法需要考慮的地方:就拿PLSA來說,評論一般比較短,意味這文檔-詞矩陣非常稀疏,一般會有億級*億級的大小,需要大規模的並行化運算,PLSA並行化主要是EM算法的並行化,原理比較簡單,但是工作會很複雜,這和集羣大小和並行策略有關。

    3.評論的標籤化

    經過聚類之後,可以得到給定主題下語義相關的詞的集合,可以將該主題下出現頻率最高的詞作爲標籤展示,但是一般電商會有專門的標籤庫,這裏涉及到一個索引的過程,比如可以/很好/很不錯這一類,可以將這一類標記爲質量不錯,當評論屬於這一類的時候,可以根據這一類的詞查找到這個要展示的標籤,通常電商的標籤庫很大,應該有個自動發現的過程,不然靠人的工作效率太地下了。

    4.其它補充

    通過以上三個步驟,基本上能對評論打標籤了,個人感覺,實現像淘寶一樣的服務,需要很多牛人一起努力的,畢竟從算法到線上服務實在太多坑了。除了上面提到一些方法,還會涉及情感分析,分類等,考慮到評論在某些類別下具有相似性,可以分塊進行聚類以降低複雜度等。

    以上就簡單的談這麼多,雖然有些研究,但是屬於紙上談兵,並沒有運用到實際系統中,如果有機會,可能會嘗試用在我們的評論系統中去。微博上有人發出了在知乎的討論方案,淘寶的評論歸納是如何做的 ,有興趣可以去那裏看一下,有些細節和思路跟本文不太一樣,同學習了。

發佈了45 篇原創文章 · 獲贊 16 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章