原创 2020-06-06 nlp03之詞向量簡述

接上篇one-hot one-hot與詞向量的分佈式表示的不同     舉個例子: 我們每天都在進步的one-hot表示: 我們(1, 0, 0, 0, 0)      每天( 0, 1, 0, 0, 0)     都( 0, 0, 1,

原创 倒排表的應用--搜索引擎

來源於搜索引擎,海量爬取數據之後,用的是倒排表 海量數據的遍歷時間複雜度是O(n) 如何解決: 解決思想:層次過濾, 過濾條件從簡單到複雜, 層次間的時間複雜度爲遞增 先過濾部分,再過濾部分,遍歷剩餘部分   要知道某個單詞存在在哪些文檔

原创 控制 matplotlib 子圖大小

效果圖:   代碼: import numpy as np import matplotlib.pyplot as plt '''調整 matplotlib 子圖的大小''' x1 = np.linspace(0.0, 5.0)

原创 python深度學習---人工智能雜記

人工智能的簡潔定義如下:努力將通常由人類完成的智力任務自動化。   早期的國際象棋程序僅包含程序員精心編寫的硬編碼規則,並不屬於機器學習。在相當長的時間內,許多專家相信,只要程序員精 心編寫足夠多的明確規則來處理知識,就可以實現與人類

原创 2020-06-03 nlp_02之文本向量化的幾種方式:one-hot, 文本相似度(歐氏距離、餘弦相似度), tf-idf

NLP的核心是瞭解文本的語義 one-hot (以下幾種方式都屬於one-hot的範疇) 通過構建詞典的順序,找出對應單詞的位置, 詞典:中文有20萬-30萬個常用詞, rnn和lstm中,也有使用字符集的,常用字符大概5000個 例子:

原创 python 獲取文件夾下所有的文件名 自動創建文件夾 判斷文件是否存在

import os # 獲取文件下的所有txt文件的路徑 def file_name(self, user_dir): file_list = list() for root,

原创 2020-05-29 nlp_01之停用詞過濾、stemming

停用詞 把停用詞、出現頻率很低的詞彙過濾掉。 原因:經常出現的或者頻率很低的詞,並沒有實際意義的詞,可以認爲是噪聲,會影響模型的判斷,給模型帶來一定的影響 目的:篩選出價值比較高的特徵,可以把停用詞理解成價值比較小的特徵,可以忽略不計 例

原创 python pandas之每個人都有自己的哈姆雷特

四段代碼實現的都是一個功能,篩選出有效的數據: 第一段 for index, row in df_zhi_shu.iterrows(): # print(row['經營狀態']) # 之前保存的時候,部分格式錯誤,所以採

原创 python3 leecode之最大子序之和

給定一個整數數組 nums ,找到一個具有最大和的連續子數組(子數組最少包含一個元素),返回其最大和。 示例: 輸入: [-2,1,-3,4,-1,2,1,-5,4], 輸出: 6 解釋: 連續子數組 [4,-1,2,1] 的和最大,爲 

原创 python leecode之反轉字符串

編寫一個函數,其作用是將輸入的字符串反轉過來。輸入字符串以字符數組 char[] 的形式給出。 不要給另外的數組分配額外的空間,你必須原地修改輸入數組、使用 O(1) 的額外空間解決這一問題。 你可以假設數組中的所有字符都是 ASCII

原创 python3 leecode之快樂數

題目: 編寫一個算法來判斷一個數 n 是不是快樂數。 「快樂數」定義爲:對於一個正整數,每一次將該數替換爲它每個位置上的數字的平方和,然後重複這個過程直到這個數變爲 1,也可能是 無限循環 但始終變不到 1。如果 可以變爲  1,那麼這個

原创 深度學習之學習路徑

今天是寶寶的生日,我答應寶寶,每天都會進步一點點,現在已經從事NLP相關的工作,但是很多東西都沒有系統化的總結,所以藉此機會,每天總結一個或多個知識點,敬請大家監督!~ 先把學習路徑的圖,貼出來,然後定時對裏面的內容進行補充(202002

原创 非語言模型之SkipGram與CBOW

1、條件概率: P(A|B) = P(AB)/P(B); P(A|B)——在 B 條件下 A 的概率。即事件A 在另外一個事件 B 已經發生條件下的發生概率; P(AB)——事件A、 B同時發生的概率,即聯合概率.聯合概率表示兩個事件共同

原创 深度學習中的embedding

  轉一篇鏈接,寫的不錯,通俗易懂 https://blog.csdn.net/weixin_42078618/article/details/82999906 點贊 收藏 分享 文章舉報

原创 聚類算法之LDA

        因工作需要,對2000多篇文件進行聚類,由於文本長度較短,所以聚類效果不好,隨着主題數量的增加,困惑度一直增加,並未出現困惑度減少的現象,讓我一直懷疑自己的做法是否正確。後來通過對通過標題+文本的拼接,纔出現較好的收斂;