小豬的Python學習之旅 —— 20.抓取Gank.io所有數據存儲到MySQL中
標籤:Python
一句話概括本文:
內容較多,建議先mark後看,講解了一波MySQL安裝,基本操作,語法速成,DataGrip使用,
鏈接遠程數據庫問題,爬取Gank.io API接口,存儲到數據,還有遇到的三個問題。
引言:
失蹤人口迴歸,工種從開發變成了打雜後,供自己學習和寫文章的時間也沒以前充裕了,
大部分時間都在處理一些瑣事,唉…在學習Python以後,要處理什麼問題,我第一個想起
的都是它。比如前段時間在玩的微信小遊戲 “萌犬變變變“,前身是網頁版的,只是最近遷移
到了小程序上。
遊戲大概玩法如下:
- 每隔一段時間,天上會掉下一個快遞箱,用戶需要用手點開;
- 點開後會有一隻狗子,同樣的狗子可以合併成一隻更高級的狗子;
- 除了點箱子的方式手機狗,還可以直接在犬社用金幣買狗合成;
- 一個星球裏所有狗都集齊了,可以飛到下一個星球,繼續合成不同的狗;
遊戲的賣點:通過合成解鎖各種各樣有趣的狗子。
這樣的小遊戲看上去並不複雜,但是吸金數絕不可小覷,像我這種貧民玩家也
氪了30買月卡,然後排名5W開外:
站在個人視角分析下這個遊戲火的原因:
- 1.很多用戶都有輕度的收集癖,會不遺餘力地收集虛擬物品,以讓自己獲得更多
的滿足感,數目越多,會覺得越刺激; - 2.誘導社交分享,通過遊戲裏輪盤抽獎,分享獲得兩倍收益的套路,以及各種分享
其他人點開能獲得鑽石,體力之類的套路;使得他在各種羣聊擴散,還被微信禁止誘導分享過,
後來很快解封了,不知道是不是裏面有什麼py交易。 - 3.用戶惰性,通過點快遞箱子的方式獲取狗子,後面升級科技滿以後,每1s刷新一個箱子,
你覺得用戶會一直點麼?用戶都是比較懶的,自動點箱子只需花30買,除了自動點還送鑽石,
每天300鑽石,這裏又是一個套路,你需要登錄才能領取,遊戲又保證了用戶日活。
絕大部分用戶都會爲這個便利買單,因爲30真的不貴,殊不知掉入了更深的坑; - 4.如果你以爲你花30買了個會員,掛着等狗子自動合成美滋滋,那你這是太naive了。我們
來算個數,比如合成2級的狗需要兩隻1級的狗,合成3級的狗需要4只1級的狗,算式就是2^(級別-1),
然後呢,每個星球有四個場景,每個場景有6種狗,最後的宇宙場景還要合成4次,計算下就是
通關一個星球你需要2^(6*4+4-1) = 2^27只一級狗,按照最快每1s生成一隻狗的速度,你需要:
134217728秒=37282小時=1553天=4.25年,So,你會連續掛4年麼?所以後面的合成基本都是靠
買狗,而且狗的價格不是恆定的,越買越貴,所以繼續氪金吧,少年。 - 5.排行榜,刺激土豪用戶虛榮心,數據庫生成幾個牛逼的賬號霸榜,誘導前排玩家氪更多錢;
- 6.貧民玩家也不拋棄,通過輪盤或者各種任務可獲得鑽石,以此維持遊戲日活。
以上就是個人的一些愚見,都差點忘記這個是個開發仔了,說回程序把,關於這個程序,
之前想到用Python做的兩件事:
自動點箱子:
裁剪快遞箱的頂部小角,通過adb命令每隔一秒截屏,利用opencv進行模板匹配,獲取圖片
中頂部小角的座標數組,adb命令模擬點擊;
輪盤自動點擊:
先把輪盤的每種結果的執行流程都捋下,點哪裏,跳那裏,是否設置延時等,接着利用
adb截圖,利用ocr圖片識別關鍵字,比如’分享’自動關掉,’偷竊’點確定等。
因爲覺得沒什麼意思,都不玩了,就沒去整程序了,大概思路就是上面這樣。
說這麼多,只是想說明Python,真香。
嗯,扯得有點遠了,前面的章節學爬蟲,抓取到的數據存過txt,Excel和csv,
這三種對於非開發者來說挺友好的,對於開發仔來說,不存下數據庫就說不過了。
數據庫又分爲兩種:關係型數據庫 和 非關係型數據庫,
前者是基於關係模型的數據庫,多個二維表通過表與表間的關聯關係來組成一個數據庫;
後者NoSQL是基於鍵值對的,數據間沒有耦合性,非常高效;
本節使用的就是關係型數據庫裏的MySQL,相信很多童鞋都知道這個東東了,
編寫一波gank.io的爬蟲,爬取所有數據存起來,後續用Flask自己寫接口玩玩~
1.MySQL安裝
環境:阿里雲服務器 Ubuntu 16.04
依次鍵入下述命令安裝MySQL:
# 安裝MySQL服務,輸入Y後,如圖會讓你輸入密碼,重複輸入確認
sudo apt-get install mysql-server
# 安裝MySQL客戶端
sudo apt-get install mysql-client
# 安裝libmysqlclient,輸入Y
sudo apt-get install libmysqlclient-dev
安裝完後鍵入下述命令驗證是否安裝成功
sudo netstat -tap | grep mysql
2.MySQL基本操作
用戶登錄
# 回車後,需要輸入在安裝那裏設置的密碼
mysql -u root -p
查看數據庫
show databases;
選擇數據庫
use 數據庫名
查看數據庫裏的所有表
show tables;
停止,開始和重啓MySQL服務
# 開始服務
/etc/init.d/mysql stop
# 停止服務
/etc/init.d/mysql start
# 重啓服務
/etc/init.d/mysql restart
基本的操作就這些,對於數據庫的相關操作,再進入數據庫
後就可以通過數據庫語句完成相關操作了。
3.MySQL數據庫語法速成
MySQL數據類型
# 整型(取值範圍如果加了unsigned,則最大值翻倍)
TINYINT(m) 1個字節 範圍(-128~127);
SMALLINT(m) 2個字節 範圍(-32768~32767);
MEDIUMINT(m) 3個字節 範圍(-8388608~8388607);
INT(m) 4個字節 範圍(-2147483648~2147483647);
BIGINT(m) 8個字節 範圍(+-9.22*10的18次方);
# 浮點型
FLOAT(m,d) 單精度浮點型 8位精度(4字節) m總個數,d小數位;
DOUBLE(m,d) 雙精度浮點型 16位精度(8字節) m總個數,d小數位;
# 字符串
# 1.char(n)若存入字符小於n,以空格補齊後面,查詢時再將空格去掉,所以char類型存儲
# 的字符串末尾不能有空格。
# 2.char(n)固定長度,不管存幾個字符,都佔用n個字節
# 3.varchar(n)可變長度,存入的實際字符數+1個字節(n<=255)或2個字節(n>255)
# 4.char類型的字符串檢索速度要比varchar類型的快
# 5.text類型不能有默認值,varchar查詢速度快於text
CHAR(n) 固定長度,最多255個字符;
VARCHAR(n) 可變長度,最多65535個字符;
TINYTEXT 可變長度,最多255個字符;
TEXT 可變長度,最多65535個字符;
MEDIUMTEXT 可變長度,最多2的24次方-1個字符;
LONGTEXT 可變長度,最多2的32次方-1個字符;
# 二進制數據
_BLOB 以二進制方式存儲,不分大小寫,不用指定字符集,只能整體讀出;
_TEXT 以文本方式存儲,英文存儲區分大小寫,可以指定字符集;
# 日期時間類型
DATE 日期
TIME 時間
DATETIME 日期時間
TIMESTAMP 自動存儲記錄修改時間
數據類型的屬性
NULL 數據列可包含NULL值
NOT NULL 數據列不允許包含NULL值
DEFAULT 默認值
PRIMARY KEY 主鍵
AUTO_INCREMENT 自動遞增,適用於整數類型
UNSIGNED 無符號
CHARACTER SET name 指定一個字符集
庫操作相關
# 建庫
CREATE DATABASE 數據庫名;
# 刪庫(刪除數據庫無法恢復!!!),刪除不存在的庫會報
# database doesn't exist的錯誤,故先用IF EXISTS判斷下。
DROP DATABASE IF EXISTS 數據庫名;
表操作相關
# 建表,比如
CREATE TABLE test
(
_id VARCHAR(50) NOT NULL PRIMARY KEY,
dsec TEXT NULL,
images TEXT NULL,
url TEXT NULL,
type VARCHAR(50) DEFAULT '' NULL
);
# 清空表數據,整體刪除,速度較快,會重置Identity(標識列、自增字段)
TRUNCATE 表名
# 刪除表中數據,逐條刪除,速度較慢,不會重置Identity,配合WHERE關鍵字可以刪除部分
DELETE FROM 表名
# 刪表
DROP TABLE 表名
# 重命名錶
ALTER TABLE 原表名 RENAME 新表名;
RENAME TABLE 原表名 TO 新表名;
# 增加列
ALTER TABLE 表名 Add column 新字段 數據類型 AFTER 在哪個字段後添加
# 刪除列
ALTER TABLE 表名 DROP 字段名;
# 重命名列/數據類型
ALTER TABLE 表名 CHANGE 原列名 新列名 數據類型;
# 增加主鍵
ALTER TABLE 表名 ADD PRIMARY KEY (主鍵名);
# 刪除主鍵
ALTER TABLE 表名 DROP PRIMARY KEY;
# 添加唯一索引
ALTER TABLE 表名 ADD UNIQUE 索引名 (列名);
# 添加普通索引
ALTER TABLE 表名 ADD INDEX 索引名 (列名);
# 刪除索引
ALTER TABLE 表名 DROP INDEX 索引名;
# 把表默認的字符集和所有字符列(CHAR, VARCHAR, TEXT)改爲新的字符集:
ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8;
# 修改表某一列的編碼
ALTER TABLE 表名 CHANGE 列名 varchar(255) CHARACTER SET utf8;
# 僅僅改變一個表的默認字符集
ALTER TABLE 表名 DEFAULT CHARACTER SET utf8;
增刪改查(INSERT,DELETE,UPDATE,SELECT)
關鍵詞就上面幾個,通過一個完整示例來快速上手MySQL
# 建新數據庫
CREATE DATABASE test
# 新建一個表person,字段有(自增id,名字,年齡,性別)
CREATE TABLE person(
id INT AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(30) NOT NULL DEFAULT '',
age INT,
sex CHAR(2)
);
# 往表中插入5條數據
INSERT INTO person (name, age, sex) VALUES ('小明', 8, '男');
INSERT INTO person (name, age, sex) VALUES ('小紅', 14, '女');
INSERT INTO person (name, age, sex) VALUES ('小白', 4, '男');
INSERT INTO person (name, age, sex) VALUES ('小寶', 6, '男');
INSERT INTO person (name, age, sex) VALUES ('小莉', 16, '女');
# 更新表中數據(不添加WHERE子句篩選,更新的會是整個表的某列)
UPDATE person SET age = 10, sex = '女' WHERE name = '小明';
# 往表裏插入數據,如果某自動已存在則更新數據
INSERT INTO person (id,name, age, sex) VALUES (1,'小明', 20, '男') ON DUPLICATE KEY UPDATE age = '20';
# 刪除特定記錄
DELETE FROM person WHERE age < 10;
# 查詢數據
SELECT * FROM person; #查詢所有數據
SELECT name,age FROM person; #查詢特定列
SELECT name AS '姓名',age AS '年齡'FROM person; #爲檢索出來的列設置別名
SELECT name FROM person WHERE age > 15 AND age <=20; # 條件查詢
SELECT name FROM person WHERE age BETWEEN 15 AND 20; # 範圍查詢
# 數據求總和,平均值,最大,最小值,記錄數
SELECT SUM(age),AVG(age), MAX(age),MIN(age), COUNT(age) FROM person;
# 查詢的時候排序:升序(ASC),降序(DESC)
SELECT * FROM person ORDER BY age ASC;
事務
BEGIN # 開始一個事務
COMMIT # 事務確認
ROLLBACK # 事務回滾
關於MySQL的基本語法就到這裏,本節夠用了,其他的後續用到再講~
4.數據庫圖形化工具——DataGrip
一般來講數據庫操作很少寫命令,基本都會依賴一些圖形化工具來提高效率,
關於MySQL的圖形化工具,網上貌似挺多的,大部分用的貌似是Navicat for mysql
(我司後臺用的就是這個),不過我還是選擇了idea全家桶裏的DataGrip,沒有爲什麼…
建立數據庫關聯
依次點擊 New -> DataSource -> MySQL
如圖依次配置下Host,Database,User,Password,然後Test Connection測試是否
連接成功,成功的話點擊Ok**粗體文本**。
本地是這樣,如果你的數據庫不在本機而是在雲服務器上,就要另外折騰了。
設置mysql允許遠程訪問
mysql默認是不允許遠程訪問的,筆者用的是阿里雲的服務器,在連接遠程倉庫
的時候也遇到一些問題,順帶記錄下,方便後來者。(下述操作發生在服務器上已經安裝了mysql環境後!)
Step 1:雲服務器開啓安全組裏的3306端口
Step 2:停止mysql服務
/etc/init.d/mysql stop
Step 3:修改my.cnf文件,註釋掉bind-address = 127.0.0.1,鍵入sq保存退出;
vim /etc/mysql/my.cnf
Step 4:啓動mysql服務
/etc/init.d/mysql start
Step 5:輸入下述命令查看當前3306端口的狀態
netstat -an|grep 3306
Step 6:修改訪問權限
mysql -u root -p # 用戶登錄
use mysql; # 選中mysql數據庫
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '密碼' WITH GRANT OPTION; # 授權
FLUSH PRIVILEGES; # 更新權限
EXIT # 退出mysql
PS:上面設置的結果是所有ip都能訪問數據庫,如需指定特定ip才能訪問的話,
可以把'@'%
改成特定ip。還有這裏用的是root賬戶,你可以通過下述命令
創建一個新的用戶,然後用這個用戶進行訪問,可以由此做一些權限控制操作。
CREATE USER 新用戶 IDENTIFIED BY '密碼';
GRANT ALL PRIVILEGES ON *.* TO '新用戶'@'%' IDENTIFIED BY '密碼' WITH GRANT OPTION; # 授權
FLUSH PRIVILEGES;
Step 7:連接遠程mysql
這裏用的是DataGrip進行連接,右鍵,new -> Data Source -> MySQL
這裏要先配置SSH或者SSL,端口默認是22
再接着配置遠程數據庫相關,端口3306
配置完後點擊Test Connection成功後,點擊OK即可。
中途如果出現了異常,比如SSH Auth ERROR可能就是SSH密碼錯誤;
除此之外的MySQL異常或問題可自行查閱:
雲服務器 ECS Linux MySQL 無法遠程連接問題常見錯誤及解決辦法
5.編寫爬蟲程序
準備得差不多了,接着來編寫爬蟲程序了,因爲代碼家已經提供了
API接口,這裏就不一個個網頁爬取了,直接抓接口。
分析下接口:
有六種不同類型的數據:Android, iOS, 休息視頻, 福利, 拓展資源, 前端, 瞎推薦, App
然後每個接口取五個需要的字段:_id, dsec, images, url, type
所以要做的第一件事:循環建表
接着定義一個Gank類
再接着定義一個網數據庫裏插入數據的函數(參數是一個gank對象列表):
再定義一個爬取接口數據的方法
接着main函數調用下,
運行等待程序抓取完成,完成後可以直接代碼查詢:
或者直接通過DataGrip查看:
6.遇到的三個問題
字段長度不夠
接口返回的數據裏有些字段比如標題和URL巨長,一開始用了varchar(250)的,
報錯提示某列什麼錯誤,後來就全改成TEXT了。
特殊符號和表情問題
因爲有些標題裏包含特殊符號和表情,在插入數據的時候報錯,大概是這樣的:
Incorrect string value: ‘\xF0\x9F…’ for column ‘XXX’ at row 1
原因是:UTF-8編碼有可能是兩個、三個、四個字節。Emoji表情或者某些特殊字符是4個字節,
而Mysql的utf8編碼最多3個字節,所以數據插不進去。MySQL在5.5.3版本之後增加了
utf8mb4的編碼,專門用來兼容四字節的unicode。理論上將字符集修改爲utf8mb4
不會對已有的utf8編碼讀取產生任何問題。官方解釋:
10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)
解決過程:
Step 1:打開終端,鍵入:locale my.cnf 定位到文件位置(window下是my.ini):
Step 2:vim etc/mysql/my.cnf 追加下述內容,wq保存:
[mysqld]
character-set-server=utf8mb4
[client]
default-character-set=utf8mb4
[mysql]
default-character-set=utf8mb4
Step 3:重啓MySQL服務器
Step 4:進入mysql,然後鍵入show variables like ‘%character%’;確認設置是否生效
Step 5:更改數據庫,表,列編碼
ALTER DATABASE 數據庫名 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;
ALTER TABLE 表名 CHANGE 列名 VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;
到此問題就解決了,此時打開數據庫表可以看到對應記錄已存入,不過是顯示成問號
的形式,讀取到數據顯示到支持emoji表情的頁面上就可以了,比如手機。
DataGrip只能存500條記錄?
打開一個表看到裏面的數據只有500條,試了幾次還是這樣,以爲DataGrip只能存儲500條數據,
後來發現這裏有個501+,分頁,so,點擊右面那個類似於播放的按鈕就可以切換區間了!
小結
開頭扯了一下犢子,接着詳細講解了一波MySQL相關的東西,接着寫了一波簡單爬蟲
爬取gank.io,存儲數據的方式又新增了數據庫一種~
參考文獻:
附:最終代碼(都可以在:https://github.com/coder-pig/ReptileSomething 找到):
# 抓取Gank.io所有文章的爬蟲
import pymysql
import requests as rq
import urllib
import coderpig_n as cn
gank_api = "http://gank.io/api/data/"
# 各種分類的表名:Android,iOS,休息視頻,福利,拓展資源,前端,瞎推薦,App
category_list = ["android", "ios", "video", "meizi", "other", "fed", "random", "app"]
type_list = ["Android", "iOS", "休息視頻", "福利", "拓展資源", "前端", "瞎推薦", "App"]
column_list = ('_id', 'dsec', 'images', 'url', 'type')
def init_db():
db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
cursor = db.cursor()
try:
for category in category_list:
sql = "CREATE TABLE IF NOT EXISTS %s (" \
"_id VARCHAR(50) NOT NULL," \
"dsec TEXT," \
"images TEXT," \
"url TEXT," \
"type VARCHAR(50) DEFAULT ''," \
"PRIMARY KEY (_id))" % category
cursor.execute(sql)
db.close()
except:
pass
class Gank:
_id = dsec = images = url = type = ''
def __init__(self, _id, dsec, images, url, type):
self._id = _id
self.dsec = dsec
self.images = images
self.url = url
self.type = type
# 以元組的方式返回值
def to_value_tuple(self):
return self._id, self.dsec, self.images, self.url, self.type
def insert_db(gank_list):
db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
cursor = db.cursor()
try:
for data in gank_list:
if data.type in type_list:
category = category_list[type_list.index(data.type)]
data_tuple = data.to_value_tuple()
sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=category,
keys=','.join(column_list),
values=','.join(['%s'] * len(data_tuple)))
cursor.execute(sql, data_tuple)
print(data_tuple)
db.commit()
except Exception as e:
print(str(e))
db.rollback()
db.close()
def spider_data(pos):
count = 1
while True:
resp = rq.get(gank_api + urllib.parse.quote(type_list[pos]) + "/50/" + str(count), proxies=cn.get_proxy_ip())
resp_json = resp.json()
print(resp.url)
if resp.status_code == 200 and len(resp_json['results']) != 0:
json_list = []
for result in resp_json['results']:
images = result.get('images')
if images is None:
images = ''
else:
images = images[0]
gank = Gank(result['_id'], result['desc'], images, result.get('url', ''),
result['type'])
json_list.append(gank)
insert_db(json_list)
else:
break
count += 1
if __name__ == '__main__':
init_db()
for i in range(0, len(type_list)):
spider_data(i)
db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
cursor = db.cursor()
cursor.execute('SELECT * FROM android')
print(cursor.rowcount)
results = cursor.fetchall()
for result in results:
print(result)
cursor.close()
來啊,Py交易啊
想加羣一起學習Py的可以加下,智障機器人小Pig,驗證信息裏包含:
Python,python,py,Py,加羣,交易,屁眼 中的一個關鍵詞即可通過;
驗證通過後回覆 加羣 即可獲得加羣鏈接(不要把機器人玩壞了!!!)~~~
歡迎各種像我一樣的Py初學者,Py大神加入,一起愉快地交流學♂習,van♂轉py。