原创 隨機採樣方法整理與講解(MCMC、Gibbs Sampling等)

原文地址:http://www.cnblogs.com/xbinworld/p/4266146.html 說明 本文是對參考資料中多篇關於sampling的內容進行總結+搬運,方便以後自己翻閱。其實參考資料中的資料寫的比我好,大家可以看一

原创 【5】使用結巴分詞對分類語料庫分詞

轉自 NLP論壇 http://www.threedweb.cn/thread-1295-1-1.html 工作空間(workspace)路徑:X:\WorkSpace\text_mining X爲Windows硬盤盤符 項目主目錄

原创 國內外有哪些自然語言處理的團隊?

清華大學自然語言處理與社會人文計算實驗室 清華大學智能技術與系統國家重點實驗室信息檢索組 北京大學計算語言學教育部重點實驗室 北京大學計算機科學技術研究所語言計算與互聯網挖掘研究室 哈工大社會計算與信息檢索研究中心 哈工大機器智

原创 【4】構建基於scikit-learn的文本挖掘學習系統

轉自 NLP論壇 http://www.threedweb.cn/thread-1293-1-1.html 配置開發環境 構建基於scikit-learn的文本挖掘學習系統 1. 下載和安裝 python-2.7.8 for win32

原创 mysql導入、導出文件

這裏的導出和mysqldump不同,只是導出表裏的純數據,而不是導出爲sql語句。 select 列1,列2, ....... 列n from tbname [where 條件] into outfile "C:\backup\

原创 【2】廣義向量空間模型

轉自 NLP論壇 http://www.threedweb.cn/thread-1283-1-1.html 文本最流行的結構化表示就是向量空間模型,它把文本表示爲一個向量,其中該向量的每個元素表示爲文本中出現的單詞。這會導致極高維的空間;

原创 sklearn Pipeline使用

_ 簡介 Pipeline按順序構建一系列轉換和一個模型,最後的一步是模型。Pipeline中間的步驟必須是轉換過程,它們必須包含fit和transform方法。最後一步模型只要有fit方法。 Pipeline的目的是能組合好幾個步驟,當

原创 Centos7 安裝sklearn gcc: error: ‘-Qunused-arguments’

1. 在centos7上安裝sklearn各種報錯 gcc: error: unrecognized command line option ‘-Qunused-arguments’ gcc: error: unrecognized co

原创 【1】文本挖掘的主要概念

轉自 NLP論壇 http://www.threedweb.cn/thread-1281-1-1.html 什麼是文本挖掘 文本挖掘可以廣義地定義知識密集的處理過程,其中用戶使用一套分析工具與文檔集合動態(隨着時間的推移)交互。在類似於