台部落日出2133

接上篇one-hot one-hot與詞向量的分佈式表示的不同舉個例子：我們每天都在進步的one-hot表示：我們(1, 0, 0, 0, 0) 每天( 0, 1, 0, 0, 0) 都( 0, 0, 1,

2020-06-19 18:23:15

來源於搜索引擎，海量爬取數據之後，用的是倒排表海量數據的遍歷時間複雜度是O(n) 如何解決：解決思想：層次過濾，過濾條件從簡單到複雜，層次間的時間複雜度爲遞增先過濾部分，再過濾部分，遍歷剩餘部分要知道某個單詞存在在哪些文檔

2020-06-19 16:39:39

效果圖：代碼： import numpy as np import matplotlib.pyplot as plt '''調整 matplotlib 子圖的大小''' x1 = np.linspace(0.0, 5.0)

2020-06-19 16:39:38

人工智能的簡潔定義如下：努力將通常由人類完成的智力任務自動化。早期的國際象棋程序僅包含程序員精心編寫的硬編碼規則，並不屬於機器學習。在相當長的時間內，許多專家相信，只要程序員精心編寫足夠多的明確規則來處理知識，就可以實現與人類

2020-06-06 12:36:26

NLP的核心是瞭解文本的語義 one-hot (以下幾種方式都屬於one-hot的範疇) 通過構建詞典的順序，找出對應單詞的位置，詞典：中文有20萬-30萬個常用詞， rnn和lstm中，也有使用字符集的，常用字符大概5000個例子：

2020-06-06 12:36:26

import os # 獲取文件下的所有txt文件的路徑 def file_name(self, user_dir): file_list = list() for root,

2020-06-06 12:36:26

停用詞把停用詞、出現頻率很低的詞彙過濾掉。原因：經常出現的或者頻率很低的詞，並沒有實際意義的詞，可以認爲是噪聲，會影響模型的判斷，給模型帶來一定的影響目的：篩選出價值比較高的特徵，可以把停用詞理解成價值比較小的特徵，可以忽略不計例

2020-06-06 12:36:26

四段代碼實現的都是一個功能，篩選出有效的數據: 第一段 for index, row in df_zhi_shu.iterrows(): # print(row['經營狀態']) # 之前保存的時候，部分格式錯誤，所以採

2020-05-18 08:23:31

給定一個整數數組 nums ，找到一個具有最大和的連續子數組（子數組最少包含一個元素），返回其最大和。示例: 輸入: [-2,1,-3,4,-1,2,1,-5,4], 輸出: 6 解釋: 連續子數組 [4,-1,2,1] 的和最大，爲

2020-05-14 21:24:18

編寫一個函數，其作用是將輸入的字符串反轉過來。輸入字符串以字符數組 char[] 的形式給出。不要給另外的數組分配額外的空間，你必須原地修改輸入數組、使用 O(1) 的額外空間解決這一問題。你可以假設數組中的所有字符都是 ASCII

2020-05-02 07:41:51

題目：編寫一個算法來判斷一個數 n 是不是快樂數。「快樂數」定義爲：對於一個正整數，每一次將該數替換爲它每個位置上的數字的平方和，然後重複這個過程直到這個數變爲 1，也可能是無限循環但始終變不到 1。如果可以變爲 1，那麼這個

2020-05-02 07:41:51

今天是寶寶的生日，我答應寶寶，每天都會進步一點點，現在已經從事NLP相關的工作，但是很多東西都沒有系統化的總結，所以藉此機會，每天總結一個或多個知識點，敬請大家監督！~ 先把學習路徑的圖，貼出來，然後定時對裏面的內容進行補充（202002

2020-02-24 19:37:45

1、條件概率： P(A|B) = P(AB)/P(B)； P(A|B)——在 B 條件下 A 的概率。即事件A 在另外一個事件 B 已經發生條件下的發生概率； P(AB)——事件A、 B同時發生的概率,即聯合概率.聯合概率表示兩個事件共同

2020-02-24 19:37:45

轉一篇鏈接，寫的不錯，通俗易懂 https://blog.csdn.net/weixin_42078618/article/details/82999906 點贊收藏分享文章舉報

2020-02-21 03:53:51

因工作需要，對2000多篇文件進行聚類，由於文本長度較短，所以聚類效果不好，隨着主題數量的增加，困惑度一直增加，並未出現困惑度減少的現象，讓我一直懷疑自己的做法是否正確。後來通過對通過標題+文本的拼接，纔出現較好的收斂；

2020-02-21 03:53:51