原创 NLP中的少樣本困境問題探究

 一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:JayLou婁傑(NLP算法工程師,信息抽取方向)前言在醫療、金融、法律等領域,高質量的標註數據十分稀缺、昂貴,我們通常面臨少樣本低資源問題。本文從「文本增強」和「半監督學習」這兩個角度出

原创 面試必備!賣萌屋算法工程師思維導圖—統計機器學習篇

賣萌屋的妹子們(劃掉)作者團整理的算法工程師思維導圖,求職/自我提升/查漏補缺神器。該手冊一共分爲數據結構與算法、數學基礎、統計機器學習和深度學習四個部分。下面是第二部分統計機器學習的內容~公衆號後臺回覆【思維導圖】獲取完整手冊(Xmi

原创 卷積神經網絡中十大令人拍案叫絕的操作

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:Justin ho來源:https://zhuanlan.zhihu.com/p/28749411前言CNN從2012年的AlexNet發展至今,科學家們發明出各種各樣的CNN模型,一個比一

原创 告別自注意力,谷歌爲Transformer打造新內核Synthesizer

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:舒意恆(南京大學碩士生,知識圖譜方向)今天給大家介紹一篇來自Google的最新論文《SYNTHESIZER: Rethinking Self-Attention in Transformer

原创 7款優秀Vim插件幫你打造完美IDE

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍集成開發環境(IDE,Integrated Development Environment )是用於提供程序開發環境的應用程序,不管是Java、C還是Python,使用IDE編程可以幫你檢查語法、

原创 楊強教授新番!破解機器學習數據孤島和數據保護難題

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍移動互聯技術這把“溫柔刀”,帶來巨大便利之餘,也將我們的個人數據放進了櫥窗,爲“推動信息技術發展”而供人調取。我們都清楚網絡“裸奔”的行爲很混亂,但你知道到底有多亂嗎?真相,可能遠比想象中嚴重。近

原创 萬能的BERT連文本糾錯也不放過

一隻小狐狸帶你解鎖煉丹術&NLP祕籍作者:孫樹兵學校:河北科技大學方向:QA/NLU/信息抽取編輯:小軼背景文本糾錯(Spelling Error Correction)技術常用於文本的預處理階段。在搜索引擎、輸入法和 OCR 中有着廣

原创 硬核推導Google AdaFactor:一個省顯存的寶藏優化器

一隻小狐狸帶你解鎖煉丹術&NLP祕籍作者:蘇劍林(來自追一科技,人稱“蘇神”)前言自從GPT、BERT等預訓練模型流行起來後,其中一個明顯的趨勢是模型越做越大,因爲更大的模型配合更充分的預訓練通常能更有效地刷榜。不過,理想可以無限遠,現

原创 萬字長文梳理CTR點擊預估模型發展過程與關係圖譜

背景在推薦、搜索、廣告等領域,CTR(click-through rate)預估是一項非常核心的技術,這裏引用阿里媽媽資深算法專家朱小強大佬的一句話:“它(CTR預估)是鑲嵌在互聯網技術上的明珠”。本篇文章主要是對CTR預估中的常見模型

原创 如何以初學者角度寫好一篇國際學術論文?

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍人工智能頂會論文之爭越來越激烈了,CVPR、AAAI、ICLR等各大會議雖然錄取率逐年降低,但是投稿論文數量卻在逐年增加。雖說發論文不是衡量一位學者的學術能力的唯一標準,但確是極爲重要的標準。一篇

原创 【面試必備】奉上最通俗易懂的XGBoost、LightGBM、BERT、XLNet原理解析

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍在非深度學習的機器學習模型中,基於GBDT算法的XGBoost、LightGBM等有着非常優秀的性能,校招算法崗面試中“出鏡率”非常高。這些經典的機器學習算法不僅是數據科學競賽神器,在工業界中也被

原创 預訓練模型超全知識點梳理與面試必備高頻FAQ

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍作者:JayLou婁傑來源:https://zhuanlan.zhihu.com/p/115014536預訓練模型(Pre-trained Models,PTMs)的出現將NLP帶入了一個全新時代

原创 賣萌屋福利場:《機器閱讀理解》免費送送送!

一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍在送書之前,先來了解一下機器閱讀理解是什麼~已經很熟悉的小夥伴可以快速下拉進入福利場~機器閱讀理解是什麼機器閱讀理解(Machine Reading Comprehension,MRC)是一種利用

原创 斯坦福大學最甜網劇:知識圖譜CS520面向大衆開放啦!

一隻小狐狸帶你解鎖煉丹術&NLP祕籍受本次疫情的影響,斯坦福大學的2020春季知識圖譜課程——CS520面向公衆線上開放啦!連課名都是愛你的形狀!簡單翻譯一下重點:今年的CS520面向公衆開放,大家可以通過遠程視頻軟件Zoom聽課。課程

原创 高效利用無標註數據:自監督學習簡述

 一隻小狐狸帶你解鎖 煉丹術&NLP 祕籍 作者:huyber來源:https://zhuanlan.zhihu.com/p/108906502BERT的大熱讓自監督學習成爲了大家討論的熱點,但其實word2vec和自編碼器也都屬於自監