原创 python持久性管理pickle模塊詳細介紹

pickle可以保存python對象,方便以後的使用,可以用來保存模型,使用方法: import cPickle as pickle hi = {1:{1:2,3:4},2:{2:3,3:8}} f = open('wordict','w

原创 linux文本處理三劍客(二):sed命令詳解

簡介 sed 是一種在線編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩衝區中,稱爲“模式空間”(pattern space),接着用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。接着處理下一行,這樣

原创 Reload

兩年多沒動這裏了,準備寫點總結,主要是JAVA方面的吧,總結一下工作中常用到的點,主要是備份

原创 幾個pandas數據處理中的常用操作

記幾個常用的函數,具體用法去官網查啦 import的慣例: import pandas as pd from pandas import Series,DataFrame 顯示一些數字特徵: df.describe()#顯示很多,均

原创 knn聚類測試

1,任務介紹 在kaggle上做的最簡單的一個題 題目地址:https://www.kaggle.com/c/street-view-getting-started-with-julia 訓練集: 由下圖所示的圖片 和圖片對應

原创 在sklearn中使用DataFrame的一些問題

問題1 DataFrame能直接做訓練集和測試集嗎? 猜想 最近使用sklearn的模型的時候發現訓練集可以直接傳入pandas的DataFrame進行訓練,而且進行預測的時候也可以直接傳入DataFrame,我以爲sklearn可以直

原创 決策樹(ID3,C4.5)Python實現

看了《統計學習方法》就嘗試寫了個簡單的決策樹,使用信息增益(ID3)或者信息增益率(C4.5),但是沒寫好剪枝,自己寫的剪枝一剪就只剩根節點和一個葉子節點了,目前只有訓練和預測的功能,容易過擬合。 用的隱形眼鏡數據集,把數據集讀入np.a

原创 pandas筆記,長期記錄不會的知識點~

1,如果有些列用不到了,用drop([列名],axis=1)去掉,別用del。   2,groupby後的對象是一個個的DataFrame,雖然不能print出來,但是可以使用apply方法,此時的apply傳入的參數x就是一個個的Dat

原创 windows下sklearn的安裝

之前只在linux下用過sklearn,前幾天在windows先也裝了sklearn,之前顯示安裝成功,結果各種不能用 主要是sicpy報錯,然後又發現scipy安裝的時候需要numpy+mkl(可選的pillow) 在這個網站http:

原创 python統計《悲慘世界》中出現次數最多的20個單詞並繪製柱狀圖

處理的數據像這樣的csv文件,已經統計好了,用mapreduce處理的 you,3768 i,3930 not,3981 this,4208 at,4292 on,4714 with,4737 which,5506 is,6504 had

原创 setuptools升級7+引發的錯誤

今天用pip install包的時候,下載完成後報了以下錯誤 ValueError: A 0.7-series setuptools cannot be installed with distribute. Found one at /

原创 python學習筆記,長期記錄不會的知識

推薦大家去看《Effective Python》,看了以後覺得以前的代碼都白寫了 1. 整型補0,2—>02,str(2).zfill(2),補0後變成字符串類型 2. 用ipython的時候,默認路徑中的斜槓不能是反斜槓 3. d

原创 用kmeans對圖片像素進行聚類

用kmeans對圖片像素進行聚類 對sklearn中kmeans的簡單應用 1,獲得示例圖像 在scipy.misc 模塊中有一個函數可以載入lena圖像 from scipy import misc lena = misc.l

原创 構造驗證碼訓練集

1,生成帶有字符的圖片 使用PIL庫中的Image,ImageFont,ImageDraw三個模塊 im = Image.new("L",(420,80),255) dr = ImageDraw.Draw(im) #錄入字體文件,在網

原创 用python從pdf中提取信息,轉爲txt或者html

主要用到了pdfminer這個庫 原文地址: http://www.bkjia.com/Pythonjc/1073800.html 示例代碼 # -*- coding: utf-8 -*- from pdfminer.pdfpa