第五部分,是比較專業的文字處理和自然語言處理,這2個方向也是今後的熱點所在。
文字處理方面的前景是主題詞提取,以及自動文章生成,可瞭解一下業內有幾家創業公司被收購,就是依賴準確的主題分析和個性推薦,另外還有根據材料自動編寫報道文章。
自然語言處理也是非常熱門的方向,最直觀就是siri 的成功,雖然離完全智能還差一點,但是對基本對話的理解準確率已經達到了可正常使用的地步。
- Corpus 語料庫
- Named Entity Recognition 命名實體識別
- Text Analysis 文本分析
- UIMA Unstructured Information Management Architecture非結構化信息管理架構
- Term Document Matrix 術語文檔矩陣
- Term Frequency & Weight 術語頻率和權重
- Support Vector Machines 支持向量機
- Association Rules 關聯規則
- Market Based Analysis ( Market Basket Analysis ? ) 基於市場分析(這裏懷疑原作者有筆誤)
- Feature Extraction 特徵提取
- Using Mahout 使用Mahout(開源機器學習算法分佈式框架)
- Using Weka 使用WaikatoEnvironmentforKnowledgeAnalysis(開源的數據分析軟件)
- Using Natural Language Toolkit (NLTK) 使用自然語言工具箱
- Classify Text ( Document Classification? ) 分類文本
- Vocabulary Mapping 詞彙映射