台部落谷震平

問題背景有個童鞋在百姓網挖坑中，累啊。他的老大告訴他，那誰誰需要58/趕集的數據。他當時的第一反應是找個黑帽去脫庫…擦嘞。老大面對他：“嗯哼，趕集的，你上吧！有問題找xx協助一下。” 他就只能“哦”了一下….. 挖坑結束，下面填坑。

2018-09-01 22:33:16

前言本篇承襲之前的系列文章，開始動真格。以趕集網招聘類信息爬取爲例，詳細解說爬蟲程序構建過程。準備工作：閱讀之前的系列一、系列二、系列三，有一定遞進關係登陸趕集網，瞭解下“地形” OK，let’s go！構建URL庫

2018-09-01 22:33:16

前言寫了兩篇博文介紹了： Python調用Tesseract引擎(Ubuntu下) Tesseract 3.x 架構及原理解析這一篇將更加深入OCR的世界！不得不把一些和本專欄(後面會整理出一個系列)相關的參考資料列出來，

2018-09-01 22:33:16

前言遠程連接數據出錯，報： host “XXXXXXXXXXXX” is not allowed to connect to this MySql server unable to authentic SSH tunnel: I

2018-09-01 22:33:16

概要Python語言中，pytesseract是用於驗證碼、字符識別的常用model。研究OCR期間，接觸到這個模塊。深究其源碼，才明白，這個庫是如此簡單。安裝：首先安裝依賴:PIL、Image、tesseract-ocr，然後： p

2018-09-01 22:33:16

前言本文的搭建基於上卷的配置，環境不再一一贅述。網絡配置好的5臺節點均可相互ping通，對於節點hadoop1(192.168.20.2)可以ping同其餘四臺hadoop2(192.168.20.3)、hadoop3(192.168

2018-09-01 22:33:16

前言本篇介紹Hadoop的一些常用知識。要說和網上其他manual的區別，那就是這是筆者寫的一套成體系的文檔，不是隨心所欲而作。常用HDFS命令 hadoop fs -ls URI hadoop fs -du -h URI h

2018-09-01 22:33:16

Flask入門 Flask並不是小白就能隨意入門的，需要基礎知識。例如： Python基礎網絡基礎 Jinja2模板引擎和Werkzeug WSGI套件工具的使用（PyCharm）所以，小白請謙虛，請Google不會的專業名

2018-09-01 22:33:15

前言看了文章標題，你也許嚇一跳，心想一個人有那麼牛逼嘛。就當筆者浮誇吧，不想爭辯了。這是一個神奇的時代，我這一代IT人有太多的工具。雖然我懶（其實程序員都懶），但是，我選擇的技術和工具仍然具有相當大的自定義空間。這不是一篇啥好文章，

2018-09-01 22:33:15

Abstract 整理了很多OCR的資料，這篇主要是對Tesseract重要的知識進行總結羅列。本次總結，基於2007年Smith所寫的Paper—-《An Overview of the Tesseract OCR Engine》，所

2018-09-01 22:33:14