原创 pandas全表查詢,根據條件返回。記錄一次爬坑過程。

關於pandas的查詢,深深的掉了一個大坑。 以此來記錄一下 不知道元素在那一列,哪一行,先上一個坑。 t1 =time.clock() for id in ids:#id爲需要查找的元素 for indexs in df

原创 mysql備忘

mysql生成臨時表的語法 CREATE TEMPORARY TABLE tmp_table(名字) SELECT val,GROUP_CONCAT(id) from ce GROUP BY val

原创 pandas備忘(二)

關於pandas的透視表的用法 import pandas as pd import numpy as np df = pd.DataFrame({'ID':['01','02','01','03','01'], "code"

原创 pyqt5 +pyinstall打造屬於自己的桌面版程序(學習階段)

網上關於pyqt5的教程特別少,終於東拼西湊,做出一點東西出來,很簡單的小應用,便於上手學習。 pyqt5的主文件代碼如下,代碼特別多,也沒怎麼細分。大家可以參考下。github地址 pyinstall打包的一點小技巧送給大家。 取

原创 pyqt5顯示sql數據

代碼 pip install sqlalchemy from sqlalchemy import create_engine self.engine = create_engine('mysql+pymysql://root:roo

原创 ubuntu連接主機mysql

首先必須保證主機和虛擬機能ping通. 橋接網卡即可。 主機端進入mysql輸入 mysql -u root -p **** 接着輸入 grant all PRIVILEGES on test.* to root@'192.168.1

原创 關於pandas的一些常用知識,備忘

原帖地址,此貼爲學習驗證過程。傳送門 創建一個series語法如下 series = pd.Series([1,2,3,4],['beijing','shanghai','xian','shenzhen']) series = pd

原创 使用python+pyqt5製作exe文件,並支持pdf轉換,圖片轉換爲py文件

出於學習的目的,以前只會python爬蟲方面的一些知識,這次乾脆來個大整合,用pyqt5生成exe版爬蟲,加入一些常用的小功能,期待後期完善。 下面是界面,以及些許小功能。 百度網盤提取碼:uvx6 支持pdf轉換爲txt文件 支持

原创 mysql5.7.23修改密碼

mysql -u root -p 修改密碼ALTER USER ‘root’@‘localhost’ IDENTIFIED BY ‘root123’;

原创 uiautomator2簡單使用記錄。

開始之前大概瞭解一下,這個目前可以用於app端一些爬蟲使用,調試不叫方便,配合mitmproxy使用,遠勝於appium。appium環境太複雜。 首先是安裝依賴庫。 adb傳送門百度網盤。提取碼:lfc7 pip install

原创 最新美團網數據抓取實戰。

寫在前面的話,還處於爬蟲初期,很多東西一知半解,邊學邊記錄,邊學邊做。代碼寫的自己都看不下去了。。。。 本期重點,美團網商鋪數據,暫只抓了美食商家數據。先上戰果,暫只抓了10萬條,一小時左右,未對數據去重。大概思路如下,先抓取各個省份

原创 爬蟲url去重(二)

還是關於去重,想着有些請求可能失敗以後,雖然回滾了當前爬取失敗的url,可是要是此url一直請求失敗,應該是要刪除的,重新學習了一邊基礎知識。 # -*- coding: utf-8 -*- import redis class

原创 爬蟲url去重管理

用於記錄學習爬蟲過程中遇到的斷點續爬、url去重問題學習 。 環境 redis python 第三方庫 redis 。安裝 pip install redis 核心功能,基於redis裏面set類型,達到去重,插入,記錄的小功能。

原创 隨筆關於yield,轉載

原文鏈接,深入理解yield def h(): print ('Wen Chuan',) m = yield 5 # Fighting! print (m) d = yield 12 prin

原创 基於python抓取微信公衆號的實驗爬蟲

Python爬取微信公衆號 工具準備 fiddler+pycharm fiddler設置手機端代理抓包 找到一段相似代碼 這裏返回一段json數據,json解析後得到 對比手機端 此頁面可以拿到該公衆號所有的歷史文章鏈接,這樣一來