dedecms採集功能的詳細介紹(十)
今天來給大家講解下dedecms的採集功能,希望大家認真學習
一.採集第一要素:確定目標網站
二.路徑:後臺--採集--採集節點管理--添加一個新節點----普通文章和圖片集--設置新增採集節點
三.下面講解下設置詳細內容和介紹
1.
節點名稱:隨便寫下那個站的採集就可以了
編碼:查看目標站的源碼,頭部的charse屬性就知道了該怎麼填寫了
區域匹配模式:一般均默認字符串;而正則表達式相當於過濾的意思
內容導入順序:這個看你想怎麼做了,正着導入還是倒序導入,你就選擇相應的導入方式
防盜鏈模式:開啓(防止刷新時間:20s)
2.列表網址獲取規則
來源屬性:有兩種方式
(1)批量生成列表網址
匹配網址:填目標站一個欄目的第一頁的網址,將其中的1改成*
然後設置*爲從1到n,每頁遞增多少頁由你自己決定,呵呵
啓用多欄目通配(#):list-(#)-(*).htm
#表示採集多欄目
*表示採集多列表頁面的內容
(2)手工指定網址
只指定某頁面的部分文章,直接輸入文章內容頁面的網址就可以了
3.文章網址匹配規則
(1)區域開始的html:目標站的被採集的一個列表頁的源文件的採集區域的開頭的一個html標籤
(2)區域結束的html:目標站的被採集的一個列表頁的源文件的採集區域的結束的一個html標籤
(3)如果連接中含有圖片
採集爲縮略圖:圖片採集到本機
不處理:就是不採集
(4)對區域網址進行再次篩選:這個必須包含 採集網址的共同點
四.網址獲取匹配規則測試
保存進入下一步設置
五.網頁內容獲取規則
1.文章標題
匹配規則:
2.文章來源
匹配規則:
時間:[內容]
3.文章內容
匹配規則:
總之,這些例子就舉到這裏,它就是所需內容的形式,即語言的形式和CSS樣式
4.過濾規則講解
常用規則----隨便選中一個----選擇去掉中間的文字---得到如下代碼
{dede:trim replace=""}{/dede:trim}
將要過濾的字放在中間就OK 了
六。採取成功後,前臺不出現的原因
(1)先增加一個欄目---:核心---網站欄目管理----增加頂級欄目
(2)採集---採集節點管理---選中節點總目錄---導出數據----採集管理
採集管理中有兩個選項
第一個選項:默認導出欄目:選中剛纔設置的欄目
第二個選項:附帶選項中:選中完成後自動生成導入內容html
好了,採集功能就講到這了,大家要在實踐中操作,我在這裏只是大致講解了下dedecms採集功能設置
過程中的一些要點,重要的還是要大家去操作實踐!