原创 NLP第1課:中文自然語言處理的完整機器處理流程

2016年全球矚目的圍棋大戰中,人類以失敗告終,更是激起了各種“機器超越、控制人類”的討論,然而機器真的懂人類嗎?機器能感受到人類的情緒嗎?機器能理解人類的語言嗎?如果能,那它又是如何做到呢?帶着這樣好奇心,本文將帶領大家熟悉和回顧一個完

原创 win安裝pyspider遇到的一個問題記錄

問題描述: pip無錯誤安裝完成pyspider之後,驗證時在cmd中輸入pyspider all出現如下圖錯誤:   百度了好久才知道:這是WsgiDAV發佈了版本 pre-release 3.x導致的,版本太高不兼容,所以把版本降

原创 史上最強NLP知識集合:知識結構、發展歷程、導師名單

轉載自 數據簡化DataSimp  作者 秦隴紀  郭一璞 編輯  量子位 報道 | 公衆號 QbitAI 本篇推送包含三篇文章, 《自然語言處理技術發展史十大里程碑》 《語言處理NLP知識結構》 《自然語言處理NLP國內研究方向機構導

原创 關鍵詞提取算法:TF-IDF、TextRank、LSA/LSI/LDA

首先推薦一下在NLP方面比較好的一個博客,本文也是參考這位博主寫的。鏈接點這裏。本文主要對TF-IDF代碼重新改寫了一下,幾個函數順序調用比原文較好理解一點,對於剛入NLP的我們來說用來學習是挺好的,如果掌握的就可以嘗試用面向對象的思想來

原创 jieba入門2

import jieba ''' 添加自定義詞典 1、載入詞典: a、開發者可以指定自己自定義的詞典,以便包含 jieba 詞庫裏沒有的詞。雖然 jieba 有新詞識別能力,但是自行添加新詞可以保證更高的正確率 b、

原创 NLP深度學習:近期趨勢的總體概述

作者:Elvis Saravia 編譯:Bot 編者按:Elvis Saravia是“國立清華大學”(臺灣)的博士生,主要研究NLP和情感計算。今年8月,Tom Youn等人更新了去年發表在IEEE雜誌上的重磅文章《Recent Tren

原创 從基礎到實戰的 NLP 學習清單

先mark起來   作爲一名自然語言初學者,在 NLP 裏摸爬滾打了許久,一些心得,請壯士收下。 談一下自己探索過的摸爬滾打過的方法,大致可以分爲二種。 第一種,在實踐中學習,找一個特定的任務,譬如文本分類、情感分析等。然後以做好任務爲導

原创 TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞

        這個問題涉及到數據挖掘、文本處理、信息檢索等很多計算機前沿領域,但是出乎意料的是,有一個非常簡單的經典算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的TF-I

原创 推薦算法概述(基於用戶的協同過濾算法、基於物品的協同過濾算法、基於內容的推薦算法)

        目前推薦系統研宄的主要趨勢是從單一的、獨立的推薦系統算法逐漸向組合多種推薦算法形成混合式的綜合推薦算法方向發展,越來越多的結合用戶標籤數據、社交網絡數據、上下文信息、地理位置信息。羣體推薦也成爲一個目前非常熱門的主題。並且

原创 TF-IDF與餘弦相似性的應用(二):找出相似文章

        今天,我們再來研究另一個相關的問題。有些時候,除了找到關鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。 爲了找出相似的文章,需要用到"餘弦相似性"(cosine

原创 TF-IDF與餘弦相似性的應用(三):自動摘要

有時候,很簡單的數學方法,就可以完成很複雜的任務。 這個系列的前兩部分就是很好的例子。僅僅依靠統計詞頻,就能找出關鍵詞和相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。今天,依然繼續這個主題。討論如何通過詞頻,對文章進行

原创 python的nltk中文使用和學習資料彙總幫你入門提高

nltk是一個python工具包, 用來處理和自然語言處理相關的東西. 包括分詞(tokenize), 詞性標註(POS), 文本分類, 等等現成的工具. 1. nltk的安裝 資料1.1: 黃聰:Python+NLTK自然語言處理學習(

原创 使用nltk分析文本情感

        情感分析是NLP最受歡迎的應用之一。情感分析是指確定一段給定的文本是積極還是消極的過程。下面的代碼是借用其他博主的, 但是我對代碼的輸入數據格式以及類型做了一個簡單解析供大家參考。另外我發在nltk在處理中文時的切分統計不