原创 關係抽取專題(一)Relation Classification via Convolutional Deep Neural Network

關係抽取論文筆記: Relation Classification via Convolutional Deep Neural Network Author: Daojian Zeng, Kang Liu, Siwei Lai,

原创 NLP基礎學習7-word2vec

這次實在沒有時間我偷一點懶,寫的簡略些。雖然這一次的任務是NLPer熟悉的不能再熟悉的word2vec, 具體來看: 文本表示:從one-hot到word2vec。 詞袋模型:離散、高維、稀疏。 分佈式表示:連續、低維、稠密。w

原创 NLP論文精讀系列(一)BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1. 論文研讀筆記 1.1 研究動機 Bert 作爲最近最爲熱門,甚至可以稱爲近期NLP 里程碑式的研究成果,是值得仔細品讀的。Bert 之前elmo 和 GPT已經證明了無監督的預訓練可以很好的在監督學習的微調中,發揮作用。Be

原创 NLP基礎學習2--常見數據集和評價指標

好久好久沒有補交作業的感覺,今天收到羣管理員的信息,才發現自己居然忘了提交作業,虧得自己還在羣裏瞎嘚瑟的回答別人關於精確率和準確率的問題,汗顏。補作業可能寫的簡略些,但我儘量記錄下自己覺得比較重要的。 子任務1:數據集下載 本次作

原创 NLP基礎學習6--神經網絡基礎

左手腫了兩個手指,寫博客敲代碼這酸爽。。。 言歸正傳,這一次的學習開始轉入神經網絡,主要任務是: 前饋神經網絡、網絡層數、輸入層、隱藏層、輸出層、隱藏單元、激活函數的概念。 感知機相關;利用tensorflow等工具定義簡單的

原创 NLP基礎學習5--文本分類傳統方法

週末各種事情,到了週日晚上,纔想起來還要做作業,想起週一晚上還約了健身的課,沒辦法,只能硬着頭皮寫作業了。這一期的任務其實還是挺多的。 樸素貝葉斯的原理 利用樸素貝葉斯模型進行文本分類 SVM的原理 利用SVM模型進行文本分類

原创 對話系統(一) 綜述篇 Review of spoken dialogue systems 和 A Survey on Dialogue Systems

1. 論文研讀筆記 這一期的論文研讀開始涉入對話系統,這一自然語言處理目前學術界和工業界最爲關注的話題。 在深入研究的開始,我們從綜述開始學習,先瀏覽一下,這個方向比較主流的一些研究成果,從而展開更爲深入的論文閱讀。本期的綜述,主

原创 NLP基礎學習4--tfidf和互信息

繼續做早鳥,首先這一期的任務提綱: TF-IDF原理。 文本矩陣化,使用詞袋模型,以TF-IDF特徵值爲權重。(可以使用Python中TfidfTransformer庫) 互信息的原理。 使用第二步生成的特徵矩陣,利用互信息進行

原创 NLP基礎學習9(本次結伴學習完結篇,撒花)--TextRNN

終於來到最後一期,也是目前NLP最常用的架構RNN,及其各種變種。具體來看,本次總結的主要內容: RNN的結構。循環神經網絡的提出背景、優缺點。着重學習RNN的反向傳播、RNN出現的問題(梯度問題、長期依賴問題)、BPTT算法。

原创 NLP基礎學習1--環境搭建

心血來潮,覺得轉行NLP以來,也確實需要梳理一下知識體系。想想當年自己博士階段在園子裏下的功夫,感覺自己從一個練習易筋經的變成了一個修煉辟邪劍譜的速成選手,遂決定沉下心來,藉着這個機會磨鍊一下自己的基本功。 第一階段的四個子任務:

原创 NLP基礎學習8--TextCNN

終於到了卷積神經網絡,這一次的任務是: 卷積運算的定義、動機(稀疏權重、參數共享、等變表示)。一維卷積運算和二維卷積運算。 反捲積(tf.nn.conv2d_transpose) 池化運算的定義、種類(最大池化、平均池化等)、動

原创 XLnet論文研讀

1. 論文研讀筆記 寫在前面 最近事情實在太多,這真不是藉口,而是確實擠佔我幾乎所有的工作外的時間,一度讓我苦惱的想離職。。。 xlnet這篇文章看了很久,這個總結是我自己回憶了一下,自己寫了一點,然後來不及貼了點我認爲特別好的

原创 NLP基礎學習3--分詞和文本矩陣化

這次爭取做一個早鳥,免得要趕作業。 這次的任務依然非常的基本,主要是分詞和文本矩陣化。具體來看: 1. 基本文本處理技能 儘管現在很多文本處理採用基於字/字符的方式,詞作爲能夠獨立語用的基本語言單位,依然是目前是主流的NLP任務

原创 Matching the Blanks: Distributional Similarity for Relation Learning論文筆記

動機 本文主要在於設計一個通用的關係抽取器,即學到一個合適的關係的表達,可以對任意關係建模。之前的工作,如利用Surface Form來表示關係,或者藉助知識庫中關係的定義,但這兩類方案都需要事先定義好關係,泛化能力較弱。 本文受

原创 Fine-Grained Entity Typing in Hyperbolic Space

1. 論文研讀筆記 1.1 研究動機 本文的一個重要的理論是論證雙曲線嵌入能更好的編碼層次信息,從而將其應用於細粒度的命名實體分類任務。 1.2 研究方法 本文的結構如下: 1.3 實驗結果 1.4 個人點評 (本週論文的理