22-0002 天貓店鋪搜索頁面分析

1.期望元素

  • 每個店鋪的sellerid

與淘寶的界面類似,但是結果卻不太一樣

2.過程

2.1 搜索鏈接

Link:天貓店鋪搜索鏈接

url1='https://list.tmall.com/search_product.htm?q=%CA%D6%B0%EC&type=p&style=w&spm=a220m.1000858.a2227oh.d100&xl=%CA%D6%B0%EC_2&from=.list.pc_2_suggest';
url2='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.8.72f7287d3hUSIc&s=20&q=%CA%D6%B0%EC&sort=s&style=w&from=.list.pc_2_suggest&suggest=0_2&type=pc#J_Filter';
url3='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.9.521e287d1kfRpM&s=40&q=%CA%D6%B0%EC&sort=s&style=w&from=.list.pc_2_suggest&suggest=0_2&type=pc#J_Filter';

不同之處如下:

在這裏插入圖片描述

爲什麼會有這麼多奇奇怪怪的內容.😵.

2.2 搜索界面

在這裏插入圖片描述

2.3 源碼元素提取

在這裏插入圖片描述
期望元素如下:

href="search_shopitem.htm?spm=a220m.1000858.1000725.2.72f7287dblwbxy&user_id=3414770928&from=_1_&stype=search";
user_id:即爲所求

但是與之相同的元素,卻有很多:
在這裏插入圖片描述
遍歷這些個元素,可以發現最後一個元素即爲所求:
在這裏插入圖片描述
備註:這裏的user_ids一共有20個對應的是界面上出現的這些id
現在需要將這麼多個id分別於每一個店鋪對應起來,在控制檯可以通過js代碼輸出:

str_pr="";
user_ids=document.getElementsByClassName("shopCon")[0].getElementsByTagName("input")[0].value;
id_list=user_ids.match('(?:user_ids=)(.*)')[1].split('|');
name_list=document.getElementsByClassName("sHi-title");
for(var i=0;i<id_list.length;i++){
    str_temp=id_list[i]+':'+name_list[i].innerHTML;
    str_pr=str_pr+str_temp+'\n';
}
str_pr;//Chrome控制檯可用,作爲JS代碼,不太合乎規範
//console.log(str_pr);但是在該界面的控制檯這條語句失效

在這裏插入圖片描述
備註:上一篇中忘了對效果截圖,這一篇中補上。

2.4 Network

在這裏插入圖片描述
備註:只有這個已經被刪除的元素中含有當前頁面所有元素的信息。


後記:
思考一個問題:記錄這些東西類似於搬磚,對自身是否有益處?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章