差不多10個月的斷斷續續的實習,今天來整理一下做過的app的各自的特點吧
上週就像整理來着。。。這周來完成。
簡單整理一下,期間的比較有特點的APP
1.雲南通 :這個是第一個做的,主要是熟悉數據採集的流程,年代久遠,記不清了,貌似是Url兩次跳轉。
2.梨視頻:這個特點是不僅是頻道多,主要還是頻道中文章內容多混爲微信文章、新華網、中國網事等等外部鏈接。
需要完全採集,就需要對各自外部鏈接進行match,然後個性化採集。
3.雲上雲夢:當時採集的時候挺正常的,現在看起來,應該是帶有sign的加密的Url,後續也沒有修復。
4.寧夏日報:特點就是首新華網分享頁次採集,這個頁面在其他的APP中也有采集,所以做個標記。
採集方法,當時是用的fastjson,現在看起來,直接處理一下返回的數據,送給模板處理就好了。
5.愛新疆:首次遇到POST這種Url,post的內容還是json格式的,這裏需要注意一下,要記得添加content-type 頭部內容。要不然,有的網站不支持,返回404或415。
6.人民智雲:第一次遇到加密APP,Url中sign的主要的加密方法就是:隨機數+時間戳+頻道信息
然後MD5一下,就得到了相應的Sign值。
還有一個特點:那就是文章列表頁是html,之前都是json格式,所以記錄一下。
7.掌中惠州:卡了半個月,學習了一下Frida框架,簡單的進行了hook一下。
加密Sign方法爲:時間戳+隨機生成5位字符串+設備+url
卡住的原因在frida之後也得到了結果,那就是頭部信息沒有填全!!!(暈死)
8.領導者:文章詳情頁採集是HTML,不是簡單的json。第一次採集