原创 【Deep Learning】循環神經網絡(RNN)推導和實現

       主要參考wildml的博客所寫,所有的代碼都是python實現,並且沒有使用深度學習的框架,所以對理解RNN可以起到很大的幫助。 一、語言模型         如果一個句子有m個詞,那麼這個句子生成的概率就是:      

原创 【論文筆記】Character-Aware Neural Language Models

一、概要   該文章發於AAAI 2016,作者提出了僅建立在字符輸入,預測在詞水平上進行的一個神經語言模型(NLM)。當輸入一個LSTM循環神經網絡語言模型(RNN-LM)時,該模型在字符上啓用了一個卷積神經網絡(CNN),讓

原创 【Natural Language Processing】seq2seq學習筆記

         seq2seq可以看成是一個翻譯模型,即通過一個sequence轉換爲另一個sequence,也可以看做是對聯的生成,即通過上聯來產生下聯,其主要是使用兩個RNN(其實是LSTM,具體可看:LSTM(Long Shor

原创 【其他】macos安裝git及上傳文件到github

一、Git安裝         下載安裝包,下載完成後按照提示安裝即可。 二、在github上建立項目        到官網註冊一個賬號,然後新建一個倉庫(repositories),選擇自動生成README.md文件,可以填一些本

原创 【論文筆記】Neural Relation Extraction with Multi-lingual Attention

一、概要   該paper發於ACL2017上,作者主要基於關係事實通常在各種語言中存在某種模式表達,並且不同語言之間的模式是不同的這兩個動機,針對於當前存在的單語言關係抽取的方法,從而存在忽略不同語言中存在大量

原创 【Machine Learning】使用隨機森林進行特徵選擇

一、特徵選擇         在我們做特徵工程時,當我們提取完特徵後,可能存在並不是所有的特徵都能分類起到作用的問題,這個時候就需要使用特徵選擇的方法選出相對重要的特徵用於構建分類器。此外,使用特徵選擇這一步驟也大大減少了訓練的時間,而且

原创 【Natural Language Processing】TF-IDF及其Python實現

一、TF-IDF簡介 1.1  TF-IDF概念         TF-IDF(term frequency-inverse document frequency):一種用於信息檢索與數據挖掘的常用加權技術。用以評估一字詞對於一個文件集或

原创 【Natural Language Processing】跨語言情感分析(NLP&CC 2013)

一、任務介紹         本任務是NLP&CC 2013的跨語言情感分析,主要是在英文資源的前提下,對測試集內的每條中文評論進行傾向性分類。         本任務的所有數據均由主辦方提供,主要包含三部分:         ①  英文

原创 【Machine Learning】特徵工程之合併稀疏特徵

一、稀疏特徵                 在我們做特徵工程的時候,可能會碰到一個特徵我們假設其特徵列的符號值爲v,其特徵存在多種取值,標籤label設爲y,特徵v如果有很多特徵值對應標籤y是相同的,那麼這些v之間是沒有意義的,我們稱之

原创 【論文筆記】Relation Classification via Multi-Level Attention CNNs

一、概要   該paper發於ACL2016上,主要提出了一個基於多Attention機制CNN網絡的實體關係抽取方法,其中Attention機制主要是:Input Attention Mechanism和Con

原创 【Natural Language Processing】語言模型(Language Modeling)

一、語言模型簡介   語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度爲m的詞彙序列{w1,w2,...,wn }的聯合概率被表示爲p(w1,w2,...,wn )。那麼根據鏈式規則可以得到: P(S)=p(w1

原创 【Natural Language Processing】詞彙相似度(Word similarity)計算

        以下詞彙相似度計算方法的實現是基於WordSimilarity-353進行,即根據相關方法計算得到給定詞彙的相似度後,再使用斯皮爾曼等級相關判定來計算所得的詞彙相似度與已人工標註好的相似度之間的相關性。 一、基於語義詞典的

原创 【Natural Language Processing】社區問答系統中的comment分類

一、任務要求和環境         本次實驗是SemEval-2015 Task 3英語部分的子任務A中,根據社區問答系統中的每一組問題,其中包含的數據有如發佈日期,作者的Id,至少一個評論等內容;我們需要根據問題和參與該系統的評論相關性

原创 【Python學習】Python的re模塊和正則表達式

一、正則表達式         我們在處理文本等工作時經常會用到正則表達式(regular expression),正則表達式不是一個程序,而是用於處理字符串的一種模式,當我們想用它來匹配字符串,就必須使用支持正則表達式的工具,比如 L

原创 【Deep Learning】tensorflow實現卷積神經網絡(AlexNet)

一、實驗要求         1.使用卷積神經網絡實現圖片分類,數據集爲OxFlowers17; 二、實驗環境         Anaconda2-4.3.1(Python2.7),tensorflow-cpu。 三、實驗原理 3.1