1. 詞法分析(分詞、詞性、實體):
– 算法:基於Bi-LSTM-CRF算法體系,以及豐富的多領域詞表
– 應用:優酷、YunOS、螞蟻金服、推薦算法、資訊搜索等
2. 句法分析(依存句法分析、成分句法分析):
– 算法:Shift-reduce,graph-based,Bi-LSTM
– 新聞領域、商品評價、商品標題、搜索Query
– 應用:資訊搜索、評價情感分析
3. 情感分析(情感對象、情感屬性、情感屬性關聯):
– 算法:情感詞典挖掘,屬性級、句子級、篇章級情感分析
– 應用:商品評價、商品問答、品牌輿情、互聯網輿情
4. 句子生成(句子可控改寫、句子壓縮):
– 算法:Beam Search、Seq2Seq+Attention
– 應用:商品標題壓縮,資訊標題改寫,PUSH消息改寫
5. 句子相似度(淺層相似度、語義相似度):
– 算法:Edit Distance,Word2Vec,DSSM
– 應用:問大家相似問題、商品重發檢測、影視作品相似等
6. 文本分類/聚類(垃圾防控、信息聚合):
– 算法:ME,SVM,FastText
– 應用:商品類目預測、問答意圖分析、文本垃圾過濾、輿情聚類、名片OCR後語義識別等
7. 文本表示(詞向量、句子向量、篇章向量、Seq2Seq):
– Word2Vec、LSTM、DSSM、Seq2Seq爲基礎進行深入研究
8. 知識庫
– 數據規模:電商同義詞,通用同義詞,電商上下位,通用上下位,領域詞庫(電商詞、娛樂領域詞、通用實體詞),情感詞庫
– 挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF
– 應用:語義歸一、語義擴展、Query理解、意圖理解、情感分析
9. 語料庫
– 分詞、詞性標註數據,依存句法標註數據