原创 正態分佈的讀後感
隨機變量的誤差------------服從正態分佈 注:隨意的一個概率分佈中生成的隨機序列變量,在序列求和(等價於均值),都服從正態分佈。更一般的情
原创 Java版的最長公共子序列
最長公共子序列(LCS)定義: 一個數列 S,如果分別是兩個或多個已知數列的子序列,且是所有符合此條件序列中最長的,則 S 稱爲已知序列的最長公共子序列。比如數列A = “abcdef”, B = “adefcb”. 那麼兩個數列的公
原创 None和空串的區別
python中None 和 ”的區別 None是一個特殊的對象,即空對象 >>>type(None) <class 'NoneType'> ” 是一個字符串類型的值 >>>type('') <class ''str'>
原创 人工智能和NLP的關鍵技術和應用領域
人工智能的概述 AI 指代「人工智能」,是讓機器能夠像人類一樣完成智能任務的技術。AI 使用智能完成自動化任務。 人工智能包含兩個關鍵點: 1. 自動化 2.智能 人工智能的目標 推理
原创 java修飾詞的詳細的說明
Java的訪問權限的詳細說明 java 的訪問權限有四個:public、protected、default、private(成員前面不加任何權限修飾符) 11個java修飾詞的介紹 1.public 使用對象:類、接口
原创 ROC曲線的理解
ROC曲線的理解和python繪製ROC曲線 ROC曲線的理解 考慮一個二分問題,即將實例分成正類(positive)或負類(negative)。對一個二分問題來說,會出現四種情況。如果一個實例是正類並且也被 預測成正類,即爲真正
原创 python正則匹配的知識總結
一、基本的正則表達式的處理流程 Python 正則表達式是處理字符串的常用工具,雖然沒有字符串自帶的處理效率高,但是其強大的普適應功能,是其被廣泛應用的基礎。具體的流程如下圖所示:
原创 基於神經網絡語言模型的中文新聞文本聚類算法
一、新聞文本集 其中 通過TF-IDF排序 中的詞(由大到小),選擇其中的 t 個詞作爲關鍵字,,是對應關鍵字的TF-IDF值。 二、神經網絡語言模型 輸入:該詞的上下文中相鄰的幾個詞向量(詞袋模型) 輸出:p
原创 深度學習涉及的數學知識
向量 在線性代數中,標量(Scalar)是一個實數,而向量(Vector)是指n 個實數組成的有序數組,稱爲n 維向量。如果沒有特別說明,一個n 維向量一般表示列向量,即大小爲n *1 的矩陣。
原创 A Text Clustering Algorithm Using an Online Clustering Scheme for Initialization(基於在線聚類策略的文本聚類算法)
一、研究內容 文本聚類廣泛的應用於文本的檢索,信息的抽取和人名消歧等方面。本文提出了一種基於在線聚類策略的文本聚類算法,即FGSDMM+. 該算法假設語料庫中至多有 個潛在的類別,並在算法開始時,認爲語料庫中真的有 個
原创 HIVE的使用
hive筆記 數據庫的創建和刪除 CREATE DATABASE|SCHEMA IF NOT EXISTS <database name>; DROP DATABASE IF EXISTS <database name>; #-----
原创 numpy的用法part1
基本的numpy用法 shape函數:numpy.core.fromnumeric中的函數,它的功能是查看矩陣或者數組的維數。 >>> e = eye(3) # 3*3的單位矩陣 >>> e array([[ 1., 0.,
原创 服務器上配置jupyter
centos配置jupyter 第一步安裝anaconda:首先在anaconda的官網 下載anaconda安裝: 輸入:bash Anaconda2-5.0.1-Linux-x86_64.sh 輸入:ENTER 輸入:3個 ye
原创 beanstalkd 的安裝和使用
Beanstalkd工作隊列 Beanstalkd 是什麼 Beanstalkd是目前一個絕對可靠,易於安裝的消息傳遞服務,主要用例是管理不同部分和工人之間的工作流應用程序的部署通過工作隊列和消息堆棧,類似於其他受歡迎的解決方案,比如R
原创 seed隨機數---startswith和endswith函數的使用
starstwith 和 endswith startswith() 函數判斷文本是否以某個或幾個字符字符開始,endswith() 函數判斷文本是否以某個或幾個字符字符結束。 text = "wid ee de de de ed e