原创 TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING

TINYBERT: DISTILLING BERT FOR NATURAL LANGUAGE UNDERSTANDING 來源:ICLR 2020 在審 鏈接:https://arxiv.org/pdf/1909.10351

原创 Felix: Flexible Text Editing Through Tagging and Insertion (2020-03)

論文地址:https://arxiv.org/pdf/1911.03829.pdf 除了翻譯之外,對大部分的序列到序列任務,其目標句子和源句子高度重合,比如句子複述、文本摘要、語法糾錯等等。因此,有時候不必從頭開始生成文本,而是基

原创 Mask-Predict

Mask-Predict: Parallel Decoding of Conditional Masked Language Models 來源:EMNLP2019 鏈接:https://arxiv.org/pdf/1904

原创 Combating Adversarial Misspellings with Robust Word Recognition

Combating Adversarial Misspellings with Robust Word Recognition 來源:ACL2019 鏈接: https://arxiv.org/pdf/1905.11268

原创 中文語法糾錯論文解讀(一)

NLPTEA-2017 CGED比賽第一名 1.Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatica

原创 中文以及英文語法糾錯論文集合

中文語法糾錯(最近三年): 1.Alibaba at IJCNLP-2017 Task 1: Embedding Grammatical Features into LSTMs for Chinese Grammatical Error

原创 在一億個數的有序數組中查找一個數所用時間

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/80386220 #include<iostream> #i

原创 leetcode 鏈表1

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/80385341 Given a singly linked

原创 數據清洗

缺失值處理:刪除記錄,數據插補,不處理數據插補:1.根據屬性值的類型,用該屬性值的平均數、中位數、衆數進行插補2.將缺失值的屬性值用用一個固定值表示3.在記錄中找到與缺失樣本最接近的樣本的屬性值4.用機器學習的方法預測缺失值5.插值法:利

原创 如何寫一篇學術論文

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/79116540 Abstract:提出了什麼方法,解決了什

原创 numpy 用法

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/78734605 numpy 是python的一個矩陣類型,

原创 基於不確定性主動學習的基本過程

主動學習(Active learning): 主動學習也是一種監督學習 與傳統監督學習不同的是,傳統監督學習直接利用外界提供的已標註樣例進行訓練,即訓練集合由已標註樣例構成 而主動學習則主動選擇所需要的樣例,從大量無類別樣例中挑選認爲最有

原创 比較笨的中文預處理 python

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/78887190 def clean_str(string)

原创 語言模型之英文數據預處理

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/ltochange/article/details/78546968 在做語言模型的時候需要對文本做一些預處理,

原创 領域自適應簡述

摘自 https://zhuanlan.zhihu.com/p/21441807 深度學習大講堂 在經典的機器學習問題中,我們往往假設訓練集和測試集分佈一致,在訓練集上訓練模型,在測試集上測試。然而在實際問題中,測試場景往往非可控,測