【技術原創】京東商城價格圖片分析解析源代碼下載(C#),附演示程序

 2011-11-18 10:31 by Brush, 354 visits, 收藏, 編輯

      前陣子研究過京東商城的價格圖片採集算法,並在《【技術原創】探討一下京東商城價格圖片解析算法的優化,附演示程序下載》一文中詳細闡述了這個算法的來源及推理過程,隨後我又將自己演示的程序上傳供大家下載。今天我就關於京東價格採集分析這塊,將C#寫的源代碼向大家免費開放,希望能對大家有所幫助,同時也希望大家尊重本人的勞動成果,在項目中使用的時候儘量保留代碼頭部標示的出處。

     此圖片解析算法理論上是京東價格圖片解析速度最快的了(當然不包括下載圖片),不知道有沒有朋友有比這個還快的思路或者實現Demo,有的話可以在這裏交流一下。

      下面就是演示程序的截圖:

image

      這兩天呢,我又將代碼整理了一下,將算法部分單獨弄到一個項目裏,使其成爲DLL以供其它項目使用。其中SpiderHtml是根據商品頁面的HTML代碼採集價格類,它提供了兩種方法:根據商品地址或根據商品頁面HTML採集價格;SpiderImg是根據商品價格圖片分析出價格,它同樣也提供了兩種方法:根據商品的ID或根據商品價格圖片解析價格。HTML方式和圖片方式各有各的優缺點,前者使用正則表達式直接找出價格,但容易被京東發現短時間內連續訪問頁面,可能會被屏蔽掉;後者不訪問頁面直接下載商品價格圖片,並採用了性價比相當高的算法快速解析出商品價格(大家可以看到上圖中,解析39個價格,比對了1115次,平均每個價格圖片比對了不到29次,也就是說每張圖片大約採集29個像素點即可以解析出圖片上的所有數字)。

      若想更安全地,高正確率地使用此接口,建議同時使用兩種方案,即使用HTML方式採集價格後,也要通過圖片方式再驗證一下,只有兩者相等再確定(經本人實驗表明,採集了相當量的數據後,並未發現有解析錯的地方)。

      源代碼下載地址:JingDongInterface.zip

      演示程序下載地址:JingDongInterfaceExe.zip

來源:http://www.cnblogs.com/yimi329/archive/2011/11/18/2253629.html

發佈了7 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章