原创 [python僞裝定義包]僞裝包

# -*- coding: UTF-8 -*- import random,requests from urllib import request,parse 僞裝瀏覽器 def pa(): #打開文件txt文件,文件內容請

原创 區塊鏈的四大分支:公有鏈、聯盟鏈、私有鏈、側鏈

 根據區塊鏈的開發對象的不同,可以將區塊鏈分成主要的三類:公有鏈,私有鏈和聯盟鏈。公有鏈對所有人開放,節點可以隨意的加入;私有鏈支隊單獨的實體進行開放,如公司內部;聯盟連會對一個特定的組織開放。 一、公有鏈  公有鏈是完全去中心

原创 merkle二叉樹

merkle樹 區塊鏈中的每個區塊都包含了產生於該區塊的所有交易,且以Merkle樹表示。  默克爾樹(又叫哈希樹)是一種二叉樹,由一個根節點、一組中間節點和一組葉節點組成。最下面的葉節點包含存儲數據或其哈希值,每個中間節點是

原创 區塊鏈技術分析

區塊鏈是加密貨幣背後的技術,與基礎語言或平臺等差別較大,它本身不是新技術,類似Ajax,可以說它是一種技術架構,所以我們從架構設計的角度談談區塊鏈的技術實現。 無論你擅長什麼編程語言,都能夠參考這種設計去實現一款區塊鏈產品。與此同

原创 區塊鏈技術基礎

簡述 區塊鏈本質上是一個對等網絡(peer-to-peer)的分佈式賬本數據庫。 區塊鏈本身其實是一串鏈接的數據區塊,其鏈接 指針是採用密碼學哈希算法對區塊頭進行處理所產生的區塊頭哈希值。 一、基本概念 1、數據區塊:

原创 爬取中國木業企業大全

使用的是urllib爬取這個裏我導入的包首先我們需要看爬取的網頁是以什麼樣的請求如何獲取網頁內容爬取內容信息頁面存儲函數開啓進程池注意事項編碼器 這個裏我導入的包 from urllib import request from

原创 Spark Streaming與Storm的區別

Spark Streaming與Storm的區別 Spark Streaming和Storm最大的區別在於,SparkStreaming無法實現毫秒級的流計算,而Storm可以實現毫秒級響應。 Streaming無法實現毫秒級

原创 Hadoop及spark框架結構

Hadoop結構框架 spark框架 Spark各部件介紹 Spark Core Spark生態圈的核心: 負責從HDFS, Amazon S3和HBase等持久層讀取數據 在YARN和Standalone爲資源管

原创 [python爬蟲]爬取boss直聘並且存到Mysql數據庫裏

導包 import chardet,re,json,pymysql from urllib import request,parse from piaot import * Mysql def sql(sql_z): # 打

原创 [僞裝瀏覽器報頭]html爬蟲僞裝頭

共99個僞裝 ['Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36', 'Mozi

原创 Scrapy的架構[圖解]

這就是整個Scrapy的架構圖了; Scrapy機構流程過程 Scrapy Engine》Spider Middlewares》Spiders》Scheduler 》Downloader Middlewares》Downloader》

原创 [Python爬蟲]Scrapy框架爬取網易國內新聞

啓動文件main.py from scrapy.cmdline import execute execute('scrapy crawl wangyi'.split()) 執行spider文件下的爬取文件 # -*- coding: u

原创 [Python爬蟲]使用Scrapy框架爬取圖蟲圖片

啓動文件main.py from scrapy.cmdline import execute execute('scrapy crawl tuchong'.split()) 在spiders下的執行爬蟲文件 # -*- coding:

原创 [Python爬蟲]使用Scrapy框架爬取糗事百科

啓動main.py文件 說明qiushi是執行文件名 from scrapy.cmdline import execute execute('scrapy crawl qiushi'.split()) 在spiders文件夾下執行文件q

原创 [Python爬蟲]爬取拉勾網存儲到Mysql

說明 爲什麼不用Scrapy框架寫呢?爲什麼不用多進程爬取的呢?  拉鉤的反爬機制不讓多進程爬取,試了很多方法就算開2個進程都不行,太快了被檢測出來了~~當然代理也試了,哎!!!重要的是單進程爬取不上代理也不封殺,這有點可疑!  結果