定製你的私人arXiv論文報告,掌握一手科研動態

arXiv是一個收錄科學文獻預印本的在線數據庫,許多還未被期刊會議收錄的論文會被掛到arXiv上,以證明作者論文的原創性。

我們需要閱讀相關領域最新的論文,掌握一手科研動態,看看自己關注的領域的其他研究者們在做些什麼研究,做到了什麼樣的成果。arXiv可能就是這樣一種選擇,它每個工作日都會更新最新的論文以供大家查閱。

於是我寫了一個簡單的爬蟲來每天將最新的論文信息收集下來,以郵件的形式發送到自己的郵箱,以供隨時查閱。

這是當天所有論文的信息列表截圖,包含文章下載鏈接、文章標題、文章作者以及文章類別這幾個要素。

每天都有幾百篇論文更新,可能看標題都會覺得累,因此這裏使用關鍵詞以及所屬類別進行論文的篩選,自動地挑選出符合要求的論文,還可以將論文原文下載,以附件的形式同時發送到郵箱。

首先是爬蟲部分,https://arxiv.org/list/cs/pastweek 網頁便是我們的目標(其他領域的只需將cs替換即可),該頁面可以添加show參數來指定每頁顯示論文的數量,頁面的結構非常清晰,爬取也非常容易,幾乎沒有什麼反爬措施。

我們只需要將論文根據其所屬領域以及關鍵詞進行篩選即可獲取我們想要的論文,比方說關注attention在計算機視覺領域的最新研究,我們可以將關鍵詞設置爲attention,將論文所屬類別設置爲cs.CV。

接着是郵件發送的部分,我們將包含當日所有論文信息的csv文件和感興趣的論文pdf文件作爲附件進行添加。

m=MIMEMultipart()
def add_apart(m,apart_file):
    Apart=MIMEApplication(open('arxiv_paper/'+apart_file, 'rb').read())
    Apart.add_header('Content-Disposition', 'attachment', filename=apart_file)
    m.attach(Apart)

爲了每天都能夠獲取這樣的郵件,我們可以採取定時任務的方法來定時運行代碼,Linux系統可以採取crontab命令,Windows系統則可以通過添加任務計劃程序庫來做到。

最後,需要完整的代碼的旁友可以在後臺回覆「arxiv」獲取。

——END——

推薦閱讀


字體反爬之博X網實戰

解決滑動驗證碼的新姿勢

Python做一個藏頭詩生成器

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章