這是一本關於文本挖掘的很厚的英文電子書,看英文大部頭,很容易邊看邊忘記。
文本挖掘的三個問題:
a. 主要的算法模型是什麼?與其他數據挖掘的區別?
b. 有哪些可用的工具和技術?(模型是形而上的,技術是形而下的)
c. 有哪些關鍵的應用領域?
a. 文本數據的高維度和稀疏性
b.文本數據可以在多層次進行分析,如單詞,句,篇章,文本集合。
文本的語義表示很有用,如NER.
本section介紹文本挖掘所覆蓋的各種topic及其算法。
a. Information Extraction from Text Data:
Information Extraction is one of the key problems of text mining, which serves as a starting
point for many text mining algorithms.
b. Text Summarization:
Another common function needed in many text mining applications is to summarize the text documents.
The two main unsupervised learning methods commonly used in the context of text data are clustering and topic modeling.
representing the underlying data in compressed format for indexing and retrieval.
這點有點類似Text Summarization了。
f. Transfer Learning with Text Data:
用武之處: For example, labeled English documents are copious and easy to find. On the other hand, it is much
harder to obtain labeled Chinese documents. 英語的實體庫等如此open,的確是很大的機會去轉移到中文上去。
g. Probabilistic Techniques for Text Mining:
文本數據類似音頻流一樣的輸入,需要進行on-line連續處理,傳統的off-line批處理不適用了。
l. Opinion Mining from Text Data:
這是最常見的應用了。
這是在一個專業領域的應用了。
1.3 將來的方向
a. Scalable and robust methods for natural language understanding:
目前NLP的許多方法要scale to multiple domains比較困難,有監督學習對訓練數據量的要求太高。
這也是解決有監督學習缺乏訓練數據的問題。