1.期望元素
- 每個店鋪的sellerid
與淘寶的界面類似,但是結果卻不太一樣
2.過程
2.1 搜索鏈接
Link:天貓店鋪搜索鏈接
url1='https://list.tmall.com/search_product.htm?q=%CA%D6%B0%EC&type=p&style=w&spm=a220m.1000858.a2227oh.d100&xl=%CA%D6%B0%EC_2&from=.list.pc_2_suggest';
url2='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.8.72f7287d3hUSIc&s=20&q=%CA%D6%B0%EC&sort=s&style=w&from=.list.pc_2_suggest&suggest=0_2&type=pc#J_Filter';
url3='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.9.521e287d1kfRpM&s=40&q=%CA%D6%B0%EC&sort=s&style=w&from=.list.pc_2_suggest&suggest=0_2&type=pc#J_Filter';
不同之處如下:
爲什麼會有這麼多奇奇怪怪的內容.😵.
2.2 搜索界面
2.3 源碼元素提取
期望元素如下:
href="search_shopitem.htm?spm=a220m.1000858.1000725.2.72f7287dblwbxy&user_id=3414770928&from=_1_&stype=search";
user_id:即爲所求
但是與之相同的元素,卻有很多:
遍歷這些個元素,可以發現最後一個元素即爲所求:
備註:這裏的user_ids一共有20個對應的是界面上出現的這些id
現在需要將這麼多個id分別於每一個店鋪對應起來,在控制檯可以通過js代碼輸出:
str_pr="";
user_ids=document.getElementsByClassName("shopCon")[0].getElementsByTagName("input")[0].value;
id_list=user_ids.match('(?:user_ids=)(.*)')[1].split('|');
name_list=document.getElementsByClassName("sHi-title");
for(var i=0;i<id_list.length;i++){
str_temp=id_list[i]+':'+name_list[i].innerHTML;
str_pr=str_pr+str_temp+'\n';
}
str_pr;//Chrome控制檯可用,作爲JS代碼,不太合乎規範
//console.log(str_pr);但是在該界面的控制檯這條語句失效
備註:上一篇中忘了對效果截圖,這一篇中補上。
2.4 Network
備註:只有這個已經被刪除的元素中含有當前頁面所有元素的信息。
後記:
思考一個問題:記錄這些東西類似於搬磚,對自身是否有益處?