原创 xpath常見用法

本文在jupyter notebook下可以直接運行,選取的站點爲貓眼電影top排行版。 本文是在異步社區出版圖書《精通python爬蟲框架scrapy》的第二章的幫助下完成的 # -*- encoding:utf-8 -*- impo

原创 linux下mysql可視化工具安裝

之前是一直用shell交互界面,但是最近頻繁地檢查數據庫中的數據感覺特別麻煩,便裝了一個可視化工具。 安裝: $ sudo apt-get install mysql-workbench [sudo] ubuntu 的密碼: 正在讀取軟

原创 sqlalchemy中文插入報錯

今天在使用sqlalchemy時插入數據報錯,將字符編碼設置來設置取都沒用,到最後發現sqlalchemy在創建數據庫時沒有設置編碼。網上大多數教程都是教讓在create_engine("mysql+pymysql://root:xxpo

原创 戊戌年 8月總結

八月轉眼而逝。忙忙碌碌一個月學了不少東西,也虛度了不少光陰。 8月的flog: 看完三本以上技術書,精讀兩本上將筆記上傳到github 繼續熟練scrapy的應用,加深對scrapy理解,使用scrapy爬取一個全站項目,並將筆記記錄到

原创 7月總結

七月很快就過去了,七月底入職一家小公司。沒有產品沒有老司機,老闆不懂技術。說實話我很想走,但是目前自己水平也不行,知道的不少但是都做不出東西。所以只能自己默默底努力,爭取早日掌握多點東西,這樣以後才能拿更高的待遇去更好的公司。由於沒有人指

原创 pandas.to_json官方文檔閱讀

例子 import pandas as pd df = pd.DataFrame([['a', 'b'], ['c', 'd']], index=['ro

原创 ubuntu16.04安裝uwsgi

原本裝過了,試了各種方法並且出現了各種錯誤,也看了不少帖子,結果還是沒有。最後我使用anaconda安裝,結果因爲使用的是清華鏡像源的鏡像,因爲不是穩定版本,結果還是各種衝突。最後使用了miniconda3的最後一個版本,然後再使用ana

原创 python爬蟲亂碼(ISO-8859-1)

參考:https://blog.csdn.net/qq_36278071/article/details/79660196 爬一個網站時出現了亂碼,然後就百度瞭解決方案。便找到了上面那篇文章。 代碼原本是用scrapy寫的,沒有亂碼。因

原创 自己寫python的線程池

參考原文:https://www.cnblogs.com/Eva-J/p/5106564.html 一個調用三方接口的獲取數據,總共三千五百多個請求。原本我是用50個進程獲取信息,都需要十多分鐘。如果放到低配服務器就會直接崩潰。在得知這類