教你如何成爲數據科學家(五)

第五部分,是比較專業的文字處理和自然語言處理,這2個方向也是今後的熱點所在。

文字處理方面的前景是主題詞提取,以及自動文章生成,可瞭解一下業內有幾家創業公司被收購,就是依賴準確的主題分析和個性推薦,另外還有根據材料自動編寫報道文章。

自然語言處理也是非常熱門的方向,最直觀就是siri 的成功,雖然離完全智能還差一點,但是對基本對話的理解準確率已經達到了可正常使用的地步。


  1. Corpus                                                           語料庫
  2. Named Entity Recognition                              命名實體識別
  3. Text Analysis                                                 文本分析
  4. UIMA                                                              Unstructured Information Management Architecture非結構化信息管理架構
  5. Term Document Matrix                                   術語文檔矩陣
  6. Term Frequency & Weight                             術語頻率和權重
  7. Support Vector Machines                               支持向量機
  8. Association Rules                                           關聯規則
  9. Market Based Analysis ( Market Basket Analysis ? )          基於市場分析(這裏懷疑原作者有筆誤)
  10. Feature Extraction                                          特徵提取
  11. Using Mahout                                                 使用Mahout(開源機器學習算法分佈式框架)
  12. Using Weka                                                    使用WaikatoEnvironmentforKnowledgeAnalysis(開源的數據分析軟件)
  13. Using Natural Language Toolkit (NLTK)         使用自然語言工具箱
  14. Classify Text ( Document Classification? )      分類文本
  15. Vocabulary Mapping                                        詞彙映射

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章