原创 系統學習NLP(三十二)--BERT、XLNet、RoBERTa、ALBERT

參考:https://zhuanlan.zhihu.com/p/84559048 一.BERT BERT是一種基於Transformer Encoder來構建的一種模型,它整個的架構其實是基於DAE(Denoising Autoencod

原创 系統學習NLP(二十七)--EMLo

論文:Deep contextualized word representations 參考:https://www.cnblogs.com/huangyc/p/9860430.html https://blog.csdn.net/fir

原创 系統學習機器學習之增強學習(五)--馬爾可夫決策過程策略TD求解(SARSA)

轉自:https://www.cnblogs.com/pinard/p/9529828.html 1.時間差分法(temporal difference) 蒙特卡洛方法,需要所有的採樣序列都是經歷完整的狀態序列。如果我們沒有完整的狀態序列

原创 系統學習機器學習之弱監督學習(二)--半監督學習綜述

一、半監督學習 1-1、什麼是半監督學習 讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是半監督學習(semi-supervised learning)。 要利用未標記樣本,必然要做一些將未標記樣本所揭示的數據分佈信息與類

原创 系統學習機器學習之特徵工程(四)--分箱總結

首先from wiki給出一個標準的連續特徵離散化的定義: 在統計和機器學習中,離散化是指將連續屬性,特徵或變量轉換或劃分爲離散或標稱屬性/特徵/變量/間隔的過程。這在創建概率質量函數時非常有用 - 正式地,在密度估計中。它是一種離散化的

原创 系統學習NLP(二十三)--淺談Attention機制的理解

轉自:https://zhuanlan.zhihu.com/p/35571412 Attentin機制的發家史 Attention機制最早是應用於圖像領域的,九幾年就被提出來的思想。隨着谷歌大佬的一波研究鼓搗,2014年google mi

原创 系統學習NLP(二十四)--詳解Transformer (Attention Is All You Need)

轉自:https://zhuanlan.zhihu.com/p/48508221 推薦:http://jalammar.github.io/illustrated-transformer/ 前言 注意力(Attention)機制[2]由B

原创 系統學習NLP(二十六)--NBSVM

論文:Baselines and Bigrams: Simple, Good Sentiment and Topic Classification 參考:https://blog.csdn.net/leayc/article/detail

原创 常用數據分析方法總結

最近優化一個畫像產品,用到一些數據分析方法,這裏總結一下。 主要參考:https://www.jianshu.com/p/809fb2261b23 ,補充一些細節 一、描述統計 描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對

原创 系統學習NLP(三十一)--基於CNN句子分類

這篇文章翻譯自A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classificatio

原创 系統學習NLP(二十九)--BERT

補充一份細節的理解:https://zhuanlan.zhihu.com/p/74090249 輸入嵌入:https://www.cnblogs.com/d0main/p/10447853.html 1. 前言 在本文之前我們已經介紹了E

原创 系統學習NLP(二十五)--語種識別landID

一.項目簡介 1.1LangID & langid 項目地址:https://github.com/saffsd/langid.py Langid是一個現成的語言識別工具。語言識別(LangID)可用於USENET信息,網絡搜索

原创 系統學習NLP(三十)--詞向量對齊

這塊,也可以參考facebook的https://www.jiqizhixin.com/articles/under-the-hood-multilingual-embeddings 關於詞向量對齊的歷史方法,可以看這裏:https://

原创 系統學習NLP(二十八)--GPT

論文:Improving Language Understandingby Generative Pre-Training   1. 前言 本文對2018年OpenAi提出的論文《Improving Language Understand

原创 系統學習NLP(二十一)--關鍵詞提取算法總結

先說一下自動文摘的方法。自動文摘(Automatic Summarization)的方法主要有兩種:Extraction和Abstraction。其中Extraction是抽取式自動文摘方法,通過提取文檔中已存在的關鍵詞,句子形成摘要;A