原创 數據缺失、混亂、重複怎麼辦?最全數據清洗指南讓你所向披靡

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍正文來源:機器之心前言要獲得優秀的模型,首先需要清洗數據。這是一篇如何在 Python 中執行數據清洗的分步指南。在擬合機器學習或統計模型之前,我們通常需要清洗數據。用雜亂數據訓練出的模型無法輸出

原创 在深度學習頂會ICLR 2020上,Transformer模型有什麼新進展?

一隻小狐狸帶你解鎖煉丹術&NLP祕籍大數據文摘出品來源:medium編譯:一一、AndyICLR是機器學習社羣最喜愛的會議平臺之一。如今,機器學習領域的會議已成爲預印本里論文質量的標誌和焦點。但即使這樣,論文的發表數量還是越來越龐大,這

原创 推薦系統的發展與簡單回顧

“本文結合百度和支付寶兩段推薦系統相關的實習經歷,針對工業界的模型發展做了簡單梳理與回顧,涵蓋表示學習,深度學習,強化學習知識圖譜以及多任務學習”表示學習和深度學習在推薦系統中的應用是目前工業界比較成熟的,但是與強化學習、知識圖譜、多任

原创 賣萌屋算法崗面試手冊上線!通往面試自由之路

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作爲算法工程師,基礎知識的重要性自然不必多說。雖然在有些項目中比較難感受到基礎的作用,但紮實的coding能力,對算法本質和適用情況的理解,始終是決定工作效率與未來發展的重要feature。這也是

原创 在K40小破卡訓練50層BERT Large的寶藏trick

前言 雖然TPU的顯存令人羨慕,但是由於衆所周知的原因,絕大部分人還是很難日常化使用的。英偉達又一直在擠牙膏,至今單卡的最大顯存也僅僅到32G(參考V100、DGX-2)。然而,訓練一個24層的BERT Large模型的時候,如果seq

原创 巨省顯存的重計算技巧在TF、Keras中的正確打開方式

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:蘇劍林(來自追一科技,人稱“蘇神”)前言在前不久的文章《BERT重計算:用22.5%的訓練時間節省5倍的顯存開銷(附代碼)》中介紹了一個叫做“重計算”的技巧(附pytorch和paddlep

原创 如何做機器學習項目規劃?一個事半功倍的checklist

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍前言在接到一個新項目的時候,對其進行合理的安排和規劃往往會有事半功倍的效果。下面是從規劃30 多個機器學習項目的經驗中,提煉出的一個簡單有效的checklist。一起來看看叭~項目動機明確你的項目

原创 2020年,中國AI創業公司將走向何方

前言如果說2012年深度學習的崛起是點燃AI浪潮的星星之火,那麼2016年的AlphaGo的成功則是一陣東風,AI之火已成燎原之勢。那麼,走向21世紀的新的十年(2020年),中國AI創業公司將走向何方呢?作者是一位90後創業者,18年

原创 丁香園在語義匹配任務上的探索與實踐

前言語義匹配是NLP領域的基礎任務之一,直接目標就是判斷兩句話是否表達了相同或相似意思。其模型框架十分簡潔,通常包含文本表示和匹配策略兩個模塊,因而很容易擴展到相關應用場景,如搜索、推薦、QA系統等。此類模型通常依賴數據驅動,即模型的效

原创 怎樣高效閱讀一份深度學習項目代碼?

猶豫很久要不要把讀代碼這個事情專門挑出來寫成一篇推文。畢竟讀代碼嘛,大家可能都會讀。而且筆者個人讀的和寫的代碼量也並不足以到指導大家讀代碼的程度。但筆者還是決定大膽地寫一點:就當是給自己設立今後讀代碼的標準,也將一些之前未能踐行的方法給

原创 聽說讀論文也有trick?這篇文章告訴你深度學習論文閱讀最佳姿勢

2020年的今天,我們的專業是deep learning,但是我們要keep learning,每天早上一睜眼,arxiv每天更新上百篇的論文,著名微博博主@愛可可-愛生活保持也在推送最新的deep learning資訊和論文。我們不缺

原创 ACL2020 | 線上搜索結果大幅提升!亞馬遜提出對抗式query-doc相關性模型

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:機智的叉燒(OPPO算法工程師,擅長Query理解方向)背景搜索和推薦經常會被放在一起對比,其中最突出的區別就是搜索中存在query,需要充分考慮召回內容和query之間的相關性,而如果內容

原创 別再蒸餾3層BERT了!變矮又能變瘦的DynaBERT瞭解一下

一隻小狐狸帶你解鎖煉丹術&NLP祕籍神經網絡模型除了部署在遠程服務器之外,也會部署在手機、音響等智能硬件上。比如在自動駕駛的場景下,大部分模型都得放在車上的終端裏,不然荒山野嶺沒有網的時候就尷尬了。對於BERT這類大模型來說,也有部署在

原创 NLP、煉丹技巧和基礎理論文章索引

玩家你好 恭喜你撿到了一個來自上古時期的*七*星*煉*丹*爐*,只見爐壁上鑲嵌着自然語言處理、推薦系統、信息檢索、深度煉丹、機器學習、數學與基礎算法等失傳已久的江湖祕術。熔爐中雖然已有一層厚厚塵土,卻依然掩蓋不住塵埃下那一顆顆躁動不安的

原创 GPT-3誕生,Finetune也不再必要了!NLP領域又一核彈!

一隻小狐狸帶你解鎖煉丹術&NLP祕籍2018年10月推出的BERT一直有着劃NLP時代的意義,然而還有一個讓人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式堅持着,向更通用的