原创 爬蟲之刃----總覽之心裏雞湯(系列一)

問題背景 有個童鞋在百姓網挖坑中,累啊。 他的老大告訴他,那誰誰需要58/趕集的數據。他當時的第一反應是找個黑帽去脫庫…擦嘞。 老大面對他:“嗯哼,趕集的,你上吧!有問題找xx協助一下。” 他就只能“哦”了一下….. 挖坑結束,下面填坑。

原创 爬蟲之刃----趕集網招聘類爬取案例詳解(系列四)

前言 本篇承襲之前的系列文章,開始動真格。以趕集網招聘類信息爬取爲例,詳細解說爬蟲程序構建過程。 準備工作: 閱讀之前的系列一、系列二、系列三,有一定遞進關係 登陸趕集網,瞭解下“地形” OK,let’s go! 構建URL庫

原创 OCR----Tesseract引擎核心類TessBaseAPI的操作

前言 寫了兩篇博文介紹了: Python調用Tesseract引擎(Ubuntu下) Tesseract 3.x 架構及原理解析 這一篇將更加深入OCR的世界! 不得不把一些和本專欄(後面會整理出一個系列)相關的參考資料列出來,

原创 站長篇----遠程連接數據庫失敗的解決方法

前言 遠程連接數據出錯,報: host “XXXXXXXXXXXX” is not allowed to connect to this MySql server unable to authentic SSH tunnel: I

原创 我笑了...pytesseract是這麼簡單的model

概要Python語言中,pytesseract是用於驗證碼、字符識別的常用model。研究OCR期間,接觸到這個模塊。深究其源碼,才明白,這個庫是如此簡單。安裝: 首先安裝依賴:PIL、Image、tesseract-ocr,然後: p

原创 Hadoop----集羣搭建指南(中卷)

前言 本文的搭建基於上卷的配置,環境不再一一贅述。網絡配置好的5臺節點均可相互ping通,對於節點hadoop1(192.168.20.2)可以ping同其餘四臺hadoop2(192.168.20.3)、hadoop3(192.168

原创 Hadoop----集羣運維(持續更新...)

前言 本篇介紹Hadoop的一些常用知識。要說和網上其他manual的區別,那就是這是筆者寫的一套成體系的文檔,不是隨心所欲而作。 常用HDFS命令 hadoop fs -ls URI hadoop fs -du -h URI h

原创 Flask系列----快速入門實戰解析(上篇)

Flask入門 Flask並不是小白就能隨意入門的,需要基礎知識。例如: Python基礎 網絡基礎 Jinja2模板引擎和Werkzeug WSGI套件 工具的使用(PyCharm) 所以,小白請謙虛,請Google不會的專業名

原创 全沾工程師----如何一個人寫完web、Android、iOS、接口、CMS

前言 看了文章標題,你也許嚇一跳,心想一個人有那麼牛逼嘛。就當筆者浮誇吧,不想爭辯了。這是一個神奇的時代,我這一代IT人有太多的工具。雖然我懶(其實程序員都懶),但是,我選擇的技術和工具仍然具有相當大的自定義空間。 這不是一篇啥好文章,

原创 OCR----你不得不知的Tesseract六大重要核心

Abstract 整理了很多OCR的資料,這篇主要是對Tesseract重要的知識進行總結羅列。本次總結,基於2007年Smith所寫的Paper—-《An Overview of the Tesseract OCR Engine》,所