原创 11月10日python爬蟲分析網頁的模塊lxml和Beautiful Soup

unicode是字符集,不是編碼方式 ajax返回的是json字符串,json字符是類字典的形式,裏面是鍵值對 format自動排列 # 定義文件存儲的位置,原始的定義要改變的地方是定義在字符串中的 fileName = 'g:/sp

原创 11月7日python爬蟲框架Scrapy基礎知識

爬蟲最好的方式: 下載一頁匹配一頁,以後可以使用多線程讓抓取頁面和存儲到數據庫分開進行 爬取動態網頁的兩種方式, 1.selenium模擬瀏覽器 2. 在F12的Network中抓包,使用json字符串 運行爬蟲需要安裝win23 : 

原创 11月9日python分佈式爬蟲

實例方法, 靜態方法, 類方法的區別 實例方法: 類中定義的普通方法,只能通過實例對象調用 靜態方法: 靜態方法主要是用來存放邏輯性的代碼,邏輯上類型屬於這個類,但是和類本身沒有關係,實例對象和類對象都可以 調用 類方法的區別:假設有個方

原创 11月6日排序函數,匿名函數,回調函數,遞歸函數, zip函數

##### 排序sort, sorted的區別: list.sort(func=None, key=None, reverse=False(or True)) 對於reverse這個bool類型參數,當reverse=False時:爲正

原创 2018年10月15日中間件,CDN,IDC,雲計算

—————————————————————————————————— 中間件是一類軟件的總稱,主要用於管理計算機資源和網絡通訊,可以連接兩個獨立的應用程序或者兩個獨立的系統,即使接口不同,通過中間件,應用程序也可以工作在多平臺或OS環境

原创 2018年10月14日分佈式和集羣的區別

  分佈式:一個任務分給多臺機器去做,減少單個任務的執行時間。 集羣:提高單位時間內執行任務數。 例如:一個任務由10個子任務組成,每個子任務單獨執行需要1個小時,則在一臺服務器上執行該任務需要10個小時。 分佈式方案:提供10臺服務器

原创 10月13日緩存穿透,緩存擊穿,緩存雪崩

前言 設計一個緩存系統,不得不要考慮的問題就是:緩存穿透、緩存擊穿與失效時的雪崩效應。   緩存穿透 緩存穿透是指查詢一個一定不存在的數據,由於緩存是不命中時被動寫的,並且出於容錯考慮,如果從存儲層查不到數據則不寫入緩存,這將導致這個不存

原创 2018年10月6日makdown編輯器的常用語法

直接把下面的文本複製到markdown編輯器就能看效果! # 一級標題 ## 二級標題 普通字體 *傾斜的字體* **加粗的字體** ***斜體加粗*** ~~這是刪除線~~ >這是引用的東西 >>引用的東西 >>>引用的東西3 >>>>

原创 2018年10月8日django查看版本命令,python2&3中print區別,iterable報錯,SSH,pycharm/ubuntu顏色設置

查看Django版本的命令: 1. 在終端中輸入: python -m django –-version 2. 進入python交互環境:        import django        print(django.VERSION)

原创 2018年10月7日虛擬機出現無法連接MKS錯誤提示和docx, rtf類型文件簡介

在VMware中打開虛擬機時報錯:“無法連接MKS:套接字連接嘗試次數太多,正在放棄” 解決方案: 打開服務,開啓下列服務: VMware Authorization Service VMware DHCP Service VMware

原创 2018年10月4日命令行模式和python交互模式的區別以及如何關注CSDN好友

命令行模式和Python交互模式: 命令行模式就是win的shell終端,它的提示符類似C:\>,可以直接python xxx.py運行python文件,py文件中如果沒有Input等語句用於暫停,或者print語句輸出結果的話會直接把文

原创 2018年10月4日python中字典的遍歷和佔位符的使用

關於字典的遍歷: >>> dic = {"a":1, "b":2} 字典的遍歷默認是隻遍歷主鍵: >>> for i in dic: ...     print(i) a b 指定遍歷主鍵 >>> for key in dic.keys(