原创 python 實現華安信達論壇自動登錄

近期需要從論壇採集一些數據,就使用爬蟲專屬語言python寫了一個小爬蟲,實現自動登錄,併到指定的板塊採集帖子標題、作者等信息。 實現自動登錄的關鍵在於模擬瀏覽器向服務器發送數據包,用Fiddler抓包看一下,過程非常清晰: 1. 論壇的

原创 從本地mysql服務器導出導入csv文件

1. 從本地mysql數據庫導出csv文件到本地文件: select * from table into outfile '***' fields terminated by ',' optionally enclosed by ''

原创 ASCII和Unicode編碼詳解

本文參考大量維基百科和網絡大牛的文章,並結合實際例子,試圖幫助大家理清計算機的編碼問題,從而更加高效的編寫程序。 一.    知識補充 1.1  位 我們常說的位是指比特位,即bit,每一個bit位存儲一個0或者1。所以,在計算機(二進制

原创 Linux無密碼登錄配置

在搭建Hadoop集羣時,master與slave,slave與slave之間通信設置爲無密碼登錄,設置過程中,涉及到文件夾和文件的權限更改,下面是設置過程: 1. 生成密鑰對 ssh-keygen -t rsa -P ' ' 2. 查

原创 新浪微博API認證並採集最新微博等信息

# -*-coding:utf-8-*- ''' @ Weibo API公共接口 @ Date : 12/25/2014 ''' from weibo import APIClient import json,webbrowser

原创 python實現調用搜狗號碼通返回查詢內容

# -*- coding: utf-8 -*- import urllib,urllib2 import cookielib,re ''' @搜狗號碼通,返回所查號碼的信息 @Time:2015/01/20 ''' class R

原创 centos 更改用戶名

系統原來的用戶lou,改爲scrapy,要改以下個地方,注:沒有修改對應密碼 1.    # vim /etc/passwd修改其中的用戶名部分、用戶組部分、主目錄部分 2.  修改用戶組的配置文件 # vim /etc/group修改

原创 二分法從數組中查找指定元素

# -*- encoding: utf-8 -*- # 二分法從數組中查找指定元素 def test(array,K): i = 0 l = 0 # 數組最左邊記爲 0 r = len(array) # 數組最右邊 whil

原创 Centos 6.5自帶JDK 升級

基於Centos6.5虛擬機搭建Hadoop僞分佈集羣,虛擬機中自帶有JDK,小紫爲了練手,特意卸載了原來自帶的版本,再自己安裝跟高級一點的,no zuo no die 啊! 直接過程: 1. 查看原來自帶的JDK # java -ver

原创 複製Centos虛擬機網卡eth1和eth0

在centos虛擬機羣安裝過程中,複製已經配置好的centos系統會節省很多時間,然而在打開復制的centos系統時,會出現網絡連接的問題,如圖: 下面是解決方法: 1.  查看我們的系統網卡     <span style="fon

原创 pyspider的mysql數據存儲接口

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2015-03-12 ''' pyspider結果保存到數據庫簡單樣例。 使用方法: 1, 把本文件放到py

原创 使用sina公開接口查詢ip地址信息

# -*- coding: utf-8 -*- import urllib2,json ''' @Time : 2015-01-19 @Author : zilangboya @Version: 1.0 ''' # 使用si

原创 Windows 下的Python擴展庫

轉載地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/點擊打開鏈接 Unofficial Windows Binaries for Python Extension Packages by 

原创 Python實現樸素貝葉斯分類器

# -*-coding:utf-8-*- '''     樸素貝葉斯算法 ''' from __future__ import division  global className className = "class" de

原创 KNN算法

# -*- coding:utf-8-*- from __future__ import division import matplotlib.pyplot as plt import mpl_toolkits.mplot3d impor