原创 conda報錯:CondaHTTPError: HTTP 000 CONNECTION FAILED for url

從conda中下載包時報錯: CondaHTTPError: HTTP 000 CONNECTION FAILED for url <http://mirrors.ustc.edu.cn/anaconda/pkgs/free/wi

原创 kaggle——Santander Customer Transaction Prediction

比賽地址 https://www.kaggle.com/c/santander-customer-transaction-prediction 一、賽後總結 1.1學習他人 1.1.1 List of Fake Samples a

原创 Scrapy(十一)設置隨機User-Agent

User-Agent:使得服務器能夠識別客戶使用的操作系統及版本、CPU 類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。如果不設置,很容易導致服務器將你判斷爲爬蟲程序從而拒絕訪問。 設置隨機User-Agent s

原创 算法篇——分治

1、概念 分而治之,一個複雜的問題分爲兩個或更多相同或相似子問題,再把子問題分成更小的子問題……直到最後子問題可以簡單的直接求解,原問題的解即子問題的解的合併。這個技巧是很多高效算法的基礎,如排序算法(快速排序,歸併排序),傅立葉

原创 Scrapy(七)Item Pipeline

在之前的Scrapy學習篇(四)之數據的存儲的章節中,我們其實已經使用了Item Pipeline,那一章節主要的目的是形成一個籠統的認識,知道scrapy能幹些什麼,但是,爲了形成一個更加全面的體系,我們在這一章節中,將會單獨介

原创 下載pycocotools時遇到:cl.exe failed with exit status 2

在下載pycocotools時遇到error: cl.exe failed with exit status 2 在這個鏈接找到解決方法 首先: conda install git 然後: pip3 install "git+ht

原创 Lecture 01 : Introduction and Word Vectors

Lecture 01 : Introduction and Word Vectors slides 鏈接1 鏈接2 note 鏈接 vedio 鏈接 1.詞的表示 1.1 WordNet missing nuance 無法表示細

原创 極大似然估計

極大似然估計 貝葉斯決策 P(w∣x)=P(x∣w)P(w)P(x) P(w|x)=\frac{P(x|w)P(w)}{P(x)} P(w∣x)=P(x)P(x∣w)P(w)​ P(w)P(w)P(w):先驗概率 Priori p

原创 lecture02 : Word Vectors 2 and Word Senses

lecture02 : Word Vectors 2 and Word Senses 1. word vertor and word2vec word2vec基本在lecture01,這裏寫一些補充的東西。 Word2vec m

原创 Scrapy(十二)設置隨機IP代理(IPProxy)

當我們需要大量的爬取網站信息時,除了切換User-Agent之外,另外一個重要的方式就是設置IP代理,以防止我們的爬蟲被拒絕,下面我們就來演示scrapy如何設置隨機IPProxy。 設置隨機IPProxy 同樣的你想要設置IPPro

原创 Scrapy(十)下載器中間件(Downloader Middleware)

下載器中間件是介於Scrapy的request/response處理的鉤子框架,是用於全局修改Scrapy request和response的一個輕量、底層的系統。 激活Downloader Middleware 要激活下載器中間件組

原创 Scrapy(十三)scrapy-splash

之前我們學習的內容都是抓取靜態頁面,每次請求,它的網頁全部信息將會一次呈現出來。 但是,像比如一些購物網站,他們的商品信息都是js加載出來的,並且會有ajax異步加載。像這樣的情況,直接使用scrapy的Request請求是拿不到我們

原创 Scrapy(一)框架

概覽 在具體的學習scrapy之前,我們先對scrapy的架構做一個簡單的瞭解,之後所有的內容都是基於此架構實現的,在初學階段只需要簡單的瞭解即可,之後的學習中,你會對此架構有更深的理解。 下面是scrapy官網給出的最新的架構圖示。

原创 Scrapy(三)創建項目

創建項目 創建項目是爬取內容的第一步,之前已經講過,Scrapy通過scrapy startproject <project_name>命令來在當前目錄下創建一個新的項目。 下面我們創建一個爬取博客園(‘https://www.cnb

原创 Scrapy(四)數據存儲

上一篇中,我們簡單的實現了一個博客首頁信息的爬取,並在控制檯輸出,但是,爬下來的信息自然是需要保存下來的。這一篇主要是實現信息的存儲,我們以將信息保存到文件和mongo數據庫爲例,學習數據的存儲,依然是以博客首頁信息爲例。 編寫爬蟲