小豬的Python學習之旅 —— 20.抓取Gank.io所有數據存儲到MySQL中

小豬的Python學習之旅 —— 20.抓取Gank.io所有數據存儲到MySQL中

標籤:Python


一句話概括本文

內容較多,建議先mark後看,講解了一波MySQL安裝,基本操作,語法速成,DataGrip使用,
鏈接遠程數據庫問題,爬取Gank.io API接口,存儲到數據,還有遇到的三個問題。


引言

失蹤人口迴歸,工種從開發變成了打雜後,供自己學習和寫文章的時間也沒以前充裕了,
大部分時間都在處理一些瑣事,唉…在學習Python以後,要處理什麼問題,我第一個想起
的都是它。比如前段時間在玩的微信小遊戲 “萌犬變變變“,前身是網頁版的,只是最近遷移
到了小程序上。

遊戲大概玩法如下

  • 每隔一段時間,天上會掉下一個快遞箱,用戶需要用手點開
  • 點開後會有一隻狗子,同樣的狗子可以合併成一隻更高級的狗子;
  • 除了點箱子的方式手機狗,還可以直接在犬社用金幣買狗合成;
  • 一個星球裏所有狗都集齊了,可以飛到下一個星球,繼續合成不同的狗;

遊戲的賣點:通過合成解鎖各種各樣有趣的狗子。

這樣的小遊戲看上去並不複雜,但是吸金數絕不可小覷,像我這種貧民玩家也
氪了30買月卡,然後排名5W開外:

站在個人視角分析下這個遊戲火的原因:

  • 1.很多用戶都有輕度的收集癖,會不遺餘力地收集虛擬物品,以讓自己獲得更多
    的滿足感,數目越多,會覺得越刺激;
  • 2.誘導社交分享,通過遊戲裏輪盤抽獎,分享獲得兩倍收益的套路,以及各種分享
    其他人點開能獲得鑽石,體力之類的套路;使得他在各種羣聊擴散,還被微信禁止誘導分享過,
    後來很快解封了,不知道是不是裏面有什麼py交易。
  • 3.用戶惰性,通過點快遞箱子的方式獲取狗子,後面升級科技滿以後,每1s刷新一個箱子,
    你覺得用戶會一直點麼?用戶都是比較懶的,自動點箱子只需花30買,除了自動點還送鑽石,
    每天300鑽石,這裏又是一個套路,你需要登錄才能領取,遊戲又保證了用戶日活
    絕大部分用戶都會爲這個便利買單,因爲30真的不貴,殊不知掉入了更深的坑;
  • 4.如果你以爲你花30買了個會員,掛着等狗子自動合成美滋滋,那你這是太naive了。我們
    來算個數,比如合成2級的狗需要兩隻1級的狗,合成3級的狗需要4只1級的狗,算式就是2^(級別-1)
    然後呢,每個星球有四個場景,每個場景有6種狗,最後的宇宙場景還要合成4次,計算下就是
    通關一個星球你需要2^(6*4+4-1) = 2^27只一級狗,按照最快每1s生成一隻狗的速度,你需要:
    134217728秒=37282小時=1553天=4.25年,So,你會連續掛4年麼?所以後面的合成基本都是靠
    買狗,而且狗的價格不是恆定的,越買越貴,所以繼續氪金吧,少年。
  • 5.排行榜,刺激土豪用戶虛榮心,數據庫生成幾個牛逼的賬號霸榜,誘導前排玩家氪更多錢;
  • 6.貧民玩家也不拋棄,通過輪盤或者各種任務可獲得鑽石,以此維持遊戲日活。

以上就是個人的一些愚見,都差點忘記這個是個開發仔了,說回程序把,關於這個程序,
之前想到用Python做的兩件事:

自動點箱子

裁剪快遞箱的頂部小角,通過adb命令每隔一秒截屏,利用opencv進行模板匹配,獲取圖片
中頂部小角的座標數組,adb命令模擬點擊;

輪盤自動點擊

先把輪盤的每種結果的執行流程都捋下,點哪裏,跳那裏,是否設置延時等,接着利用
adb截圖,利用ocr圖片識別關鍵字,比如’分享’自動關掉,’偷竊’點確定等。

因爲覺得沒什麼意思,都不玩了,就沒去整程序了,大概思路就是上面這樣。
說這麼多,只是想說明Python,真香。
嗯,扯得有點遠了,前面的章節學爬蟲,抓取到的數據存過txt,Excel和csv,
這三種對於非開發者來說挺友好的,對於開發仔來說,不存下數據庫就說不過了。

數據庫又分爲兩種:關係型數據庫非關係型數據庫
前者是基於關係模型的數據庫,多個二維表通過表與表間的關聯關係來組成一個數據庫;
後者NoSQL是基於鍵值對的,數據間沒有耦合性,非常高效;

本節使用的就是關係型數據庫裏的MySQL,相信很多童鞋都知道這個東東了,
編寫一波gank.io的爬蟲,爬取所有數據存起來,後續用Flask自己寫接口玩玩~


1.MySQL安裝


環境:阿里雲服務器 Ubuntu 16.04

依次鍵入下述命令安裝MySQL:

# 安裝MySQL服務,輸入Y後,如圖會讓你輸入密碼,重複輸入確認
sudo apt-get install mysql-server

# 安裝MySQL客戶端
sudo apt-get install mysql-client

# 安裝libmysqlclient,輸入Y
sudo apt-get install libmysqlclient-dev

安裝完後鍵入下述命令驗證是否安裝成功

sudo netstat -tap | grep mysql


2.MySQL基本操作


用戶登錄

# 回車後,需要輸入在安裝那裏設置的密碼
mysql -u root -p

查看數據庫

show databases;

選擇數據庫

use 數據庫名

查看數據庫裏的所有表

show tables;

停止,開始和重啓MySQL服務

# 開始服務
/etc/init.d/mysql stop

# 停止服務
/etc/init.d/mysql start

# 重啓服務
/etc/init.d/mysql restart

基本的操作就這些,對於數據庫的相關操作,再進入數據庫
後就可以通過數據庫語句完成相關操作了。


3.MySQL數據庫語法速成

MySQL數據類型

# 整型(取值範圍如果加了unsigned,則最大值翻倍)

TINYINT(m)  1個字節 範圍(-128~127);
SMALLINT(m) 2個字節 範圍(-32768~32767);
MEDIUMINT(m)    3個字節 範圍(-8388608~8388607);
INT(m)  4個字節 範圍(-2147483648~2147483647);
BIGINT(m)   8個字節 範圍(+-9.22*1018次方);

# 浮點型

FLOAT(m,d)  單精度浮點型 8位精度(4字節) m總個數,d小數位;
DOUBLE(m,d) 雙精度浮點型 16位精度(8字節) m總個數,d小數位;

# 字符串
# 1.char(n)若存入字符小於n,以空格補齊後面,查詢時再將空格去掉,所以char類型存儲
# 的字符串末尾不能有空格。
# 2.char(n)固定長度,不管存幾個字符,都佔用n個字節
# 3.varchar(n)可變長度,存入的實際字符數+1個字節(n<=255)或2個字節(n>255)
# 4.char類型的字符串檢索速度要比varchar類型的快
# 5.text類型不能有默認值,varchar查詢速度快於text

CHAR(n) 固定長度,最多255個字符;
VARCHAR(n)  可變長度,最多65535個字符;
TINYTEXT    可變長度,最多255個字符;
TEXT    可變長度,最多65535個字符;
MEDIUMTEXT  可變長度,最多224次方-1個字符;
LONGTEXT    可變長度,最多232次方-1個字符;

# 二進制數據

_BLOB 以二進制方式存儲,不分大小寫,不用指定字符集,只能整體讀出;
_TEXT 以文本方式存儲,英文存儲區分大小寫,可以指定字符集;


# 日期時間類型

DATE    日期
TIME    時間
DATETIME    日期時間
TIMESTAMP   自動存儲記錄修改時間

數據類型的屬性

NULL    數據列可包含NULLNOT NULL    數據列不允許包含NULLDEFAULT 默認值
PRIMARY KEY 主鍵
AUTO_INCREMENT  自動遞增,適用於整數類型
UNSIGNED    無符號
CHARACTER SET name  指定一個字符集

庫操作相關

# 建庫
CREATE DATABASE 數據庫名;

# 刪庫(刪除數據庫無法恢復!!!),刪除不存在的庫會報
# database doesn't exist的錯誤,故先用IF EXISTS判斷下。
DROP DATABASE IF EXISTS 數據庫名;

表操作相關

# 建表,比如
CREATE TABLE test
(
  _id  VARCHAR(50)            NOT NULL PRIMARY KEY,
  dsec   TEXT                   NULL,
  images TEXT                   NULL,
  url    TEXT                   NULL,
  type   VARCHAR(50) DEFAULT '' NULL
);

# 清空表數據,整體刪除,速度較快,會重置Identity(標識列、自增字段)
TRUNCATE 表名

# 刪除表中數據,逐條刪除,速度較慢,不會重置Identity,配合WHERE關鍵字可以刪除部分
DELETE FROM 表名 

# 刪表
DROP TABLE 表名

# 重命名錶
ALTER TABLE 原表名 RENAME 新表名;
RENAME TABLE 原表名 TO 新表名;

# 增加列
ALTER TABLE 表名 Add column 新字段 數據類型 AFTER 在哪個字段後添加

# 刪除列
ALTER TABLE 表名 DROP 字段名;

# 重命名列/數據類型
ALTER TABLE 表名 CHANGE 原列名 新列名 數據類型;

# 增加主鍵
ALTER TABLE 表名 ADD PRIMARY KEY (主鍵名);

# 刪除主鍵
ALTER TABLE 表名 DROP PRIMARY KEY;

# 添加唯一索引
ALTER TABLE 表名 ADD UNIQUE 索引名 (列名);

# 添加普通索引
ALTER TABLE 表名 ADD INDEX 索引名 (列名);

# 刪除索引
ALTER TABLE 表名 DROP INDEX 索引名;

# 把表默認的字符集和所有字符列(CHAR, VARCHAR, TEXT)改爲新的字符集:
ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8;

# 修改表某一列的編碼
ALTER TABLE 表名 CHANGE 列名 varchar(255) CHARACTER SET utf8;

# 僅僅改變一個表的默認字符集
ALTER TABLE 表名 DEFAULT CHARACTER SET utf8;

增刪改查(INSERT,DELETE,UPDATE,SELECT)

關鍵詞就上面幾個,通過一個完整示例來快速上手MySQL

# 建新數據庫
CREATE DATABASE test

# 新建一個表person,字段有(自增id,名字,年齡,性別)
CREATE TABLE person(
  id INT AUTO_INCREMENT PRIMARY KEY,
  name VARCHAR(30) NOT NULL DEFAULT '',
  age INT,
  sex CHAR(2)
);

# 往表中插入5條數據
INSERT INTO person (name, age, sex) VALUES ('小明', 8, '男');
INSERT INTO person (name, age, sex) VALUES ('小紅', 14, '女');
INSERT INTO person (name, age, sex) VALUES ('小白', 4, '男');
INSERT INTO person (name, age, sex) VALUES ('小寶', 6, '男');
INSERT INTO person (name, age, sex) VALUES ('小莉', 16, '女');

# 更新表中數據(不添加WHERE子句篩選,更新的會是整個表的某列)
UPDATE person SET age = 10, sex = '女' WHERE name = '小明';

# 往表裏插入數據,如果某自動已存在則更新數據
INSERT INTO person (id,name, age, sex) VALUES (1,'小明', 20, '男') ON DUPLICATE KEY UPDATE age = '20';

# 刪除特定記錄
DELETE FROM person WHERE age < 10;

# 查詢數據
SELECT * FROM person;   #查詢所有數據
SELECT name,age FROM person;    #查詢特定列
SELECT name AS '姓名',age AS '年齡'FROM person; #爲檢索出來的列設置別名
SELECT name FROM person WHERE age > 15 AND age <=20;    # 條件查詢
SELECT name FROM person WHERE age BETWEEN 15 AND 20;    # 範圍查詢

# 數據求總和,平均值,最大,最小值,記錄數
SELECT SUM(age),AVG(age), MAX(age),MIN(age), COUNT(age) FROM person;

# 查詢的時候排序:升序(ASC),降序(DESC)
SELECT * FROM person ORDER BY age ASC;

事務

BEGIN # 開始一個事務
COMMIT  # 事務確認
ROLLBACK # 事務回滾

關於MySQL的基本語法就到這裏,本節夠用了,其他的後續用到再講~


4.數據庫圖形化工具——DataGrip

一般來講數據庫操作很少寫命令,基本都會依賴一些圖形化工具來提高效率,
關於MySQL的圖形化工具,網上貌似挺多的,大部分用的貌似是Navicat for mysql
(我司後臺用的就是這個),不過我還是選擇了idea全家桶裏的DataGrip,沒有爲什麼…

建立數據庫關聯

依次點擊 New -> DataSource -> MySQL
如圖依次配置下Host,Database,User,Password,然後Test Connection測試是否
連接成功,成功的話點擊Ok**粗體文本**。

本地是這樣,如果你的數據庫不在本機而是在雲服務器上,就要另外折騰了。

設置mysql允許遠程訪問

mysql默認是不允許遠程訪問的,筆者用的是阿里雲的服務器,在連接遠程倉庫
的時候也遇到一些問題,順帶記錄下,方便後來者。(下述操作發生在服務器上已經安裝了mysql環境後!)

Step 1:雲服務器開啓安全組裏的3306端口

Step 2停止mysql服務

/etc/init.d/mysql stop

Step 3:修改my.cnf文件,註釋掉bind-address = 127.0.0.1,鍵入sq保存退出;

vim /etc/mysql/my.cnf

Step 4:啓動mysql服務

/etc/init.d/mysql start

Step 5:輸入下述命令查看當前3306端口的狀態

netstat -an|grep 3306

Step 6修改訪問權限

mysql -u root -p    # 用戶登錄
use mysql;  # 選中mysql數據庫
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '密碼' WITH GRANT OPTION;    # 授權
FLUSH PRIVILEGES;   # 更新權限
EXIT # 退出mysql

PS:上面設置的結果是所有ip都能訪問數據庫,如需指定特定ip才能訪問的話,
可以把'@'%改成特定ip。還有這裏用的是root賬戶,你可以通過下述命令
創建一個新的用戶,然後用這個用戶進行訪問,可以由此做一些權限控制操作。

CREATE USER 新用戶 IDENTIFIED BY '密碼';
GRANT ALL PRIVILEGES ON *.* TO '新用戶'@'%' IDENTIFIED BY '密碼' WITH GRANT OPTION;    # 授權
FLUSH PRIVILEGES;

Step 7:連接遠程mysql

這裏用的是DataGrip進行連接,右鍵,new -> Data Source -> MySQL
這裏要先配置SSH或者SSL,端口默認是22

再接着配置遠程數據庫相關,端口3306

配置完後點擊Test Connection成功後,點擊OK即可。

中途如果出現了異常,比如SSH Auth ERROR可能就是SSH密碼錯誤;
除此之外的MySQL異常或問題可自行查閱:
雲服務器 ECS Linux MySQL 無法遠程連接問題常見錯誤及解決辦法


5.編寫爬蟲程序

準備得差不多了,接着來編寫爬蟲程序了,因爲代碼家已經提供了
API接口,這裏就不一個個網頁爬取了,直接抓接口。

分析下接口:
有六種不同類型的數據:Android, iOS, 休息視頻, 福利, 拓展資源, 前端, 瞎推薦, App
然後每個接口取五個需要的字段:_id, dsec, images, url, type

所以要做的第一件事:循環建表

接着定義一個Gank類

再接着定義一個網數據庫裏插入數據的函數(參數是一個gank對象列表):

再定義一個爬取接口數據的方法

接着main函數調用下,

運行等待程序抓取完成,完成後可以直接代碼查詢:

或者直接通過DataGrip查看:


6.遇到的三個問題

字段長度不夠

接口返回的數據裏有些字段比如標題和URL巨長,一開始用了varchar(250)的,
報錯提示某列什麼錯誤,後來就全改成TEXT了。

特殊符號和表情問題

因爲有些標題裏包含特殊符號和表情,在插入數據的時候報錯,大概是這樣的:
Incorrect string value: ‘\xF0\x9F…’ for column ‘XXX’ at row 1

原因是:UTF-8編碼有可能是兩個、三個、四個字節。Emoji表情或者某些特殊字符是4個字節,
Mysql的utf8編碼最多3個字節,所以數據插不進去。MySQL在5.5.3版本之後增加了
utf8mb4的編碼,專門用來兼容四字節的unicode。理論上將字符集修改爲utf8mb4
不會對已有的utf8編碼讀取產生任何問題。官方解釋:
10.9.1 The utf8mb4 Character Set (4-Byte UTF-8 Unicode Encoding)

解決過程

Step 1:打開終端,鍵入:locale my.cnf 定位到文件位置(window下是my.ini):

Step 2vim etc/mysql/my.cnf 追加下述內容,wq保存:

[mysqld]
character-set-server=utf8mb4

[client]
default-character-set=utf8mb4

[mysql]
default-character-set=utf8mb4

Step 3:重啓MySQL服務器

Step 4:進入mysql,然後鍵入show variables like ‘%character%’;確認設置是否生效

Step 5更改數據庫,表,列編碼

ALTER DATABASE 數據庫名 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;  
ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;  
ALTER TABLE 表名 CHANGE 列名 VARCHAR(191) CHARACTER SET utf8mb4 COLLATE utf8mb4_bin;

到此問題就解決了,此時打開數據庫表可以看到對應記錄已存入,不過是顯示成問號
的形式,讀取到數據顯示到支持emoji表情的頁面上就可以了,比如手機。

DataGrip只能存500條記錄?

打開一個表看到裏面的數據只有500條,試了幾次還是這樣,以爲DataGrip只能存儲500條數據,
後來發現這裏有個501+,分頁,so,點擊右面那個類似於播放的按鈕就可以切換區間了!


小結

開頭扯了一下犢子,接着詳細講解了一波MySQL相關的東西,接着寫了一波簡單爬蟲
爬取gank.io,存儲數據的方式又新增了數據庫一種~


參考文獻


附:最終代碼(都可以在:https://github.com/coder-pig/ReptileSomething 找到):

# 抓取Gank.io所有文章的爬蟲

import pymysql
import requests as rq
import urllib
import coderpig_n as cn

gank_api = "http://gank.io/api/data/"

# 各種分類的表名:Android,iOS,休息視頻,福利,拓展資源,前端,瞎推薦,App
category_list = ["android", "ios", "video", "meizi", "other", "fed", "random", "app"]
type_list = ["Android", "iOS", "休息視頻", "福利", "拓展資源", "前端", "瞎推薦", "App"]
column_list = ('_id', 'dsec', 'images', 'url', 'type')


def init_db():
    db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
    cursor = db.cursor()
    try:
        for category in category_list:
            sql = "CREATE TABLE IF NOT EXISTS %s (" \
                  "_id  VARCHAR(50) NOT NULL," \
                  "dsec TEXT," \
                  "images  TEXT," \
                  "url  TEXT," \
                  "type VARCHAR(50)  DEFAULT ''," \
                  "PRIMARY KEY (_id))" % category
            cursor.execute(sql)
        db.close()
    except:
        pass


class Gank:
    _id = dsec = images = url = type = ''

    def __init__(self, _id, dsec, images, url, type):
        self._id = _id
        self.dsec = dsec
        self.images = images
        self.url = url
        self.type = type

    # 以元組的方式返回值
    def to_value_tuple(self):
        return self._id, self.dsec, self.images, self.url, self.type


def insert_db(gank_list):
    db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
    cursor = db.cursor()
    try:
        for data in gank_list:
            if data.type in type_list:
                category = category_list[type_list.index(data.type)]
                data_tuple = data.to_value_tuple()
                sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=category,
                                                                             keys=','.join(column_list),
                                                                             values=','.join(['%s'] * len(data_tuple)))
                cursor.execute(sql, data_tuple)
                print(data_tuple)
        db.commit()
    except Exception as e:
        print(str(e))
        db.rollback()
    db.close()


def spider_data(pos):
    count = 1
    while True:
        resp = rq.get(gank_api + urllib.parse.quote(type_list[pos]) + "/50/" + str(count), proxies=cn.get_proxy_ip())
        resp_json = resp.json()
        print(resp.url)
        if resp.status_code == 200 and len(resp_json['results']) != 0:
            json_list = []
            for result in resp_json['results']:
                images = result.get('images')
                if images is None:
                    images = ''
                else:
                    images = images[0]
                gank = Gank(result['_id'], result['desc'], images, result.get('url', ''),
                            result['type'])
                json_list.append(gank)
            insert_db(json_list)
        else:
            break
        count += 1


if __name__ == '__main__':
    init_db()
    for i in range(0, len(type_list)):
        spider_data(i)

    db = pymysql.connect(host='localhost', user='root', password='zpj12345', port=3306, db='gank', charset="utf8")
    cursor = db.cursor()
    cursor.execute('SELECT * FROM android')
    print(cursor.rowcount)
    results = cursor.fetchall()
    for result in results:
        print(result)
    cursor.close()

來啊,Py交易啊

想加羣一起學習Py的可以加下,智障機器人小Pig,驗證信息裏包含:
PythonpythonpyPy加羣交易屁眼 中的一個關鍵詞即可通過;

驗證通過後回覆 加羣 即可獲得加羣鏈接(不要把機器人玩壞了!!!)~~~
歡迎各種像我一樣的Py初學者,Py大神加入,一起愉快地交流學♂習,van♂轉py。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章