原创 自然語言處理模型之GRU和LSTM網絡模型總結

前文中小修爲大家介紹了自然語言模型中LSTM (Long Short-Term Memory)網絡的性質,相對於遞歸神經網絡,LSTM網絡能夠避因爲梯度彌散而帶來的長時間的信息丟失的問題。這裏小修爲大家介紹一種在LSTM基

原创 用深度學習構造聊天機器人簡介

聊天機器人(也可以稱爲語音助手、聊天助手、對話機器人等)是目前非常熱的一個人工智能研發與產品方向。很多大的互聯網公司重金投入研發相關技術,並陸續推出了相關產品,比如蘋果Siri、微軟Cortana與小冰、Google Now、百度的“度

原创 自然語言處理之維特比(Viterbi)算法

維特比算法 (Viterbi algorithm) 是機器學習中應用非常廣泛的動態規劃算法,在求解隱馬爾科夫、條件隨機場的預測以及seq2seq模型概率計算等問題中均用到了該算法。實際上,維特比算法不僅是很多自然語言處理的解碼算法,也是現

原创 自然語言處理技術之準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介

下面簡單列舉幾種常用的推薦系統評測指標: 1、準確率與召回率(Precision & Recall) 準確率和召回率是廣泛用於信息檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文檔數與檢索出的文檔總數的

原创 爬蟲學習:scrapy相關的知識

Scrapy 是開源的爬蟲框架,快速強大,只需要寫少量的代碼即可完成爬取任務,容易擴展,添加新的功能模塊 1. scrapy 在Mac上的安裝 可以使用pip安裝Scrapy 運行命令 sudo pip ins

原创 自然語言處理之中文分詞器詳解

中文分詞是中文文本處理的一個基礎步驟,也是中文人機自然語言交互的基礎模塊,不同於英文的是,中文句子中沒有詞的界限,因此在進行中文自然語言處理時,通常需要先進行分詞,分詞效果將直接影響詞性,句法樹等模塊的效果,當然分詞只是一個工具,場景不同

原创 自然語言處理之文本標註問題

文本標註 (tagging) 是一個監督學習問題,可以認爲標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測 (structure prediction) 問題的簡單形式,標註問題的輸入是一個觀測序列,輸出是一個標記序列護着狀態序

原创 word2vec模型中基於 Hierarchical Softmax 的CBOW和Skip-gram模型

word2vec 是 Google 於 2013 年開源推出的一個用於獲取 word vector 的工具包,它簡單、高效,因此引起了很多人的關注。由於 word2vec 的作者 Tomas Mikolov 在兩篇相關的論文 [3,4]

原创 Hadoop shell 常用命令集

FS Shell 調用文件系統(FS)Shell命令應使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路徑作爲參數。URI格式是scheme://authority/path。對HDFS

原创 Python PyCharm常用的基本快捷鍵和配置簡介

忙了好一陣終於忙完了,最近在重構代碼,有許多地方要註釋什麼的,在多行註釋時總是很麻煩,就想着pycharm有沒有快捷鍵,轉了一點別人的(地址:http://www.jb51.net/article/74371.htm),在這總結一下,有

原创 大數據hadoop相關屬性

Linux常用命令 cd -回家(/home/用戶名)可以用~代替 cd <目錄名> -轉到指定目錄 pwd 查看當前目錄 hadoop沒有這個命令 ls -a 或者使用 ll 查看所有文件 cp <源路徑> <目標

原创 解決Pycharm中import時無法識別自己寫的程序

我們用pycharm打開自己寫的代碼,當多個文件之間有相互依賴的關係的時候,import無法識別自己寫的文件,但是我們寫的文件又確實在同一個文件夾中,這種問題可以用下面的方法解決:    1)打開File--》Setting—》打開 C

原创 自然語言處理之seq2seq模型

對於一些自然語言處理任務,比如聊天機器人,機器翻譯,自動文摘等,傳統的方法都是從候選集中選出答案,這對素材的完善程度要求很高,隨着最近幾年深度學習的興起,國外學者將深度學習技術應用與自然語言的生成和自然語言的理解的方面的研究,並取

原创 Hadoop MapReduce程序分析飛機航班信息源代碼

1: 數據來源: 基於美國民航航班1987年數據,開發MapReduce應用程序計算其中某一年各個航班的飛行數據。 數據式樣 Year,Month,DayofMonth,DayOfWeek,DepTime,C

原创 自然語言處理算法之集成算法基礎以及boosting與bagging簡介

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/gzmfxy/article/details/79092126 在機器學習和統計學習中,集成學習(Ensembl