原创 selenium + PhantomJS 瀏覽器後臺抓取

PhantomJs是一個‘無頭’’=瀏覽器, 下載地址:http://phantomjs.org/download.html 下載之後最好把bin目錄設置成環境變量 他會把網站加載到內存並執行頁面上的JavaScript,但是他不會向用戶

原创 checkstyle檢測後的修改方法

1.工具類不應該有公有的構造函數 工具類是一系列靜態成員或方法的集合,意味着它不可以被實例化,即使是抽象的工具類,它可以被繼承,但也不可以有公有的構造函數。 Java類如果沒有聲明構造函數,則會默認有一個公有的構造函數,因此需要給工具類至

原创 生成代碼文檔圖—doxygen graphviz

用於代碼寫完之後補充詳細設計說明書 doxygen 生成文檔結構圖的開源軟件,下載之後,按照說明選擇設置,在expert中dot模塊,把graphviz的bin目錄寫進去,運行之後,doxygen會自己編輯dot腳本 graphviz 

原创 tesseract train python_file

# tesseract-trainer This is a set of two tools used to generate OCR traini

原创 htmlhintrc

http://htmlhint.com/     box-model Beware of box model size display-property-groupin Require properties appropr

原创 訓練tesseract

tesseract識別率,通過樣本數量提升,呈對數型增長,所以根據你的驗證碼的複雜程度來確定你的訓練樣本數量 因爲本身tesseract的識別精度很低,所以很有必要進行訓練 驗證碼:是由背景圖片和字符圖片複合而成,訓練的時候我們要告訴每

原创 正則表達式(python爲綱)

正則表達式 re.match函數:re.match(pattern, string, flags=0) 參數 描述 pattern

原创 Junit覆蓋率插件—Eclemma

Eclemma 安裝方法一:在EclipseMaeketplace中搜索emma會搜索出本軟件,然後點擊安裝 安裝成功後,會提示重啓eclipse,重啓之後就安裝成功了 安裝方法二: Install new softwares中: -

原创 tesseract_OCR驗證碼識別技術(python)

一、安裝pytesseract:pip install pytesseract 二、安裝PIL:pip install PIL 三、安裝tesseract-OCR:       下載tesseract-ocr文件並安裝,注意有一部要選擇

原创 String、Cstring、char*

char*最基本的類 Cstring在MFC中會使用到 String在C++中會使用到 通過char類型轉換成相應的對象 string 到Cstring:cstring.format("%s",string.c_str()); cstr

原创 notepad++使用技巧

1。不排序去除重複行 勾選 正則表達式  和  匹配新行(re.D) ,在替換框中使用 ^(.*?)$\s+?^(?=.*^\1$)替換爲空白 注意:此種方法可能和正則表達式本身有關係,每次處理500行爲佳 .*?  非貪婪模式匹配

原创 python用到的庫

常用Python第三方庫     分類 庫名稱 庫用途 Web框架 Django 開源web開發框架,它鼓勵快速開發,並遵循MVC設計,我以前用過很多次,比較好用,開發週期短  

原创 Sublime text配置前端代碼(JavaScript/Html/CSS)校驗工具

前端代碼檢查分別包括html、css、JavaScript三部分的檢查,代碼檢查需要安裝node。 安裝Package Control 給sublime安裝PackageControl,Package Control是最佳的sublime

原创 Python美化文本內容

一般情況下可以通過,NotePad++中的,正則表達式替換 但是,如果想一次性替換完成的話,則寫一個程序比較好 主要使用 .strip()去除空字符 如果要刪除或者替換文字要使用.replace() 因爲,strip是漢字的時候有時候失效

原创 python篩選中日韓文

通常我們可以使用 repr()函數查看字串的原始格式。這對於寫正則表達式有所幫助。 UTF-8 是變長的,1-6個字節,少數是漢字每個佔用3個字節,多數佔用4個字節,正則式爲[\x80-\xff]{3} re.match(), re.