原创 【Python學習筆記】函數式編程:裝飾器

【根據廖雪峯python教程整理】 由於函數也是一個對象,而且函數對象可以被賦值給變量,所以,通過變量也能調用該函數。 >>> def now(): ...     print '2013-12-25' ... >>> f = now

原创 【Python學習筆記】面向對象編程:訪問限制

【根據廖雪芳python教程整理】 在Class內部,可以有屬性和方法,而外部代碼可以通過直接調用實例變量的方法來操作數據,這樣,就隱藏了內部的複雜邏輯。   但是,從前面Student類的定義來看,外部代碼還是可以自由地修改一個實例

原创 【Python學習筆記】第三方模塊

【根據廖雪峯python教程整理】 一、在Python中,安裝第三方模塊,是通過setuptools這個工具完成的。Python有兩個封裝了setuptools的包管理工具:easy_install和pip。目前官方推薦使用pip。

原创 【Python學習筆記】錯誤、調試和測試

【根據廖雪峯python教程整理】 在程序運行過程中,總會遇到各種各樣的錯誤。   有的錯誤是程序編寫有問題造成的,比如本來應該輸出整數結果輸出了字符串,這種錯誤我們通常稱之爲bug,bug是必須修復的。   有的錯誤是用戶輸入造成的

原创 【Python學習筆記】面向對象編程:繼承和多態

【根據廖雪峯python教程整理】 一、繼承 在OOP程序設計中,當我們定義一個class的時候,可以從某個現有的class繼承,新的class稱爲子類(Subclass),而被繼承的class稱爲基類、父類或超類(Base cla

原创 WEKA中文亂碼解決方法

測試環境:win7  32位  weka3.8 亂碼原因:weka默認的字符集編碼是Cp1252,如果導入的數據中有中文字符,就會顯示爲亂碼。 解決辦法: 1、打開weka安裝目錄下的RunWeka.ini文件,找到【fileEn

原创 特徵選擇

文本特徵提取的方法很多,如基於文本頻率的特徵提取法、信息增益法、卡方檢驗法和互信息法等。本文采用基於文本特徵頻率的提取法,計算文檔頻率DF,即計算出現某個term在同類文檔中的DF。根據計算出來的DF值來選取能代表某類文檔的特徵詞。 直接

原创 【Python學習筆記】IO編程:操作文件和目錄

【根據廖雪峯python教程整理】 如果我們要操作文件、目錄,可以在命令行下面輸入操作系統提供的各種命令來完成。比如dir、cp等命令。   如果要在Python程序中執行這些目錄和文件的操作怎麼辦?其實操作系統提供的命令只是簡單地調

原创 【Python學習筆記】IO編程:序列化

【根據廖雪峯python教程整理】 在程序運行的過程中,所有的變量都是在內存中,比如,定義一個dict: d = dict(name='Bob', age=20, score=88) 可以隨時修改變量,比如把name改成'Bill',

原创 詞頻統計

詞頻統計TF是統計一個term在文本中出現的次數,一般來說,一個term在某類文本中出現的次數越多,就越能代表一類文本。當然,如果某個term在一類文本中出現的次數越多而在其他類文本里根本不出現,就更能代表這一類文本。 直接上代碼: #

原创 Python調用NLPIR/ICTCLAS進行文本分詞

本文采用搜狗中文語料庫mini版的文本數據,共九類(財經、IT、健康、體育、旅遊、教育、招聘、文化、軍事),每個類別共1990個文本,並在實驗前通過.py程序抓取前500個文本數據作爲訓練集。 數據預處理包括文本分詞、去停用詞、詞頻統計、

原创 TF-IDF值和文本向量化

根據提取的特徵詞計算特徵值,即TF-IDF。採用向量空間模型(VSM)將文檔表示成向量,並將文檔輸出爲WEKA能處理的.arff格式。 直接上代碼: #!/user/bin/python # -*- coding: utf-8 -*-

原创 【python問題解決】UnicodeDecodeError :'gb2312' codec can't decode bytes:illegal multibyte sequence

錯誤提示:UnicodeDecodeError :'gb2312' codec can't decode bytes in position 2-3:illegal multibyte sequence 意思是:將一個字符串,通過gb23

原创 【python問題解決】去除文本中的所有換行符

<span style="font-family: Arial, Helvetica, sans-serif;">f = codecs.open('C:\\Users\\Administrator\\Desktop\\textmining

原创 【Python學習筆記】IO編程:文件讀寫

【根據廖雪峯python教程整理】 讀寫文件是最常見的IO操作。Python內置了讀寫文件的函數,用法和C是兼容的。   讀寫文件前,我們先必須瞭解一下,在磁盤上讀寫文件的功能都是由操作系統提供的,現代操作系統不允許普通的程序直接操作