在上一篇的發文中,提到批量下載郵件正文內容,但僅能以純文本文件形式存放內容,對部分場景可能是夠用的,只需關鍵字匹配,但畢竟文本文件除去格式後結構化水平太弱,靈機一動,其實還是可以追加另存爲html網頁格式的,然後使用網頁採集功能,重新將有用的網頁元素內容採集到位。
功能補充及改進
在下載正文時,增加了html文本可供選擇,下文同樣介紹下如何從html文件中提取指定內容。
現在提取到的正文是html格式了。
當使用html文件時,如果同一類型的正文,就可以比較方便用網頁採集的技術將其採集到位,較比純文本內容有較大優勢。甚至還可以採集跳轉鏈接、圖片鏈接等。
爲了讓大家懶到底,正文路徑也幫大家構建好了。
如何提取網頁指定內容
有了內容,就差如何將其送達到Excel單元格中結構化存儲。
如果有追蹤過Excel催化劑過往的功能,就可知道,除了上篇提及的從文本文件中使用正則自定義函數來提取指定內容外,對於網頁格式的如html、xml、json格式的文件,也已經有一套專門針對它的自定義函數,相對正則提取業說,更容易及更準確操作。
網頁採集自定義函數,以WY開頭,有對json和xml的結構化文件的解釋操作(html是廣義上的xml文件)。
筆者已經在網頁採集的視頻教程裏給大家送上了全套的網頁採集教程,使用Excel催化劑輕鬆採集90%合理性需求。例如以下的網頁xpath元素定位技術。
以下輕鬆從網頁正文中將重要信息提取到位。更多網頁採集知識學習,不容錯過的Excel催化劑視頻+工具,讓你快速學以致用。
結語
Excel催化劑,給大家一個五星級的用戶體驗,歡迎大家多多使用,多多反饋,本篇功能近期給大家錄製視頻教程,一口氣給大家完美解決所有郵件相關的批量性場景使用。
如果覺得受用,多多支持,不妨購買個視頻教程,學習更快,快速應用到工作場合中產出效益。