原创 隨機網絡-無標度網絡(帶連接偏好的增長網絡模型)-(3)

無標度網絡(帶連接偏好的增長網絡模型)

原创 Spark MLlib源碼分析—TFIDF源碼詳解

以下代碼是我依據SparkMLlib(版本1.6) 1、HashingTF 是使用哈希表來存儲分詞,並計算分詞頻數(TF),生成HashMap表。在Map中,K爲分詞對應索引號,V爲分詞的頻數。在聲明HashingTF 時,需要

原创 隨機網絡-概述與E-R模型-(1)

隨機網絡概述與E-R模型筆記 注:下一行的公式是無用的東西,在編輯時不小心加上的,因爲是截圖,就懶得改了,閱讀時忽略掉就可以了。“一種反應多種隨機因素~”

原创 隨機網絡-小世界網絡(小世界網絡的協同動力學)概述-(2)

參考:http://blog.csdn.net/database_zbye/article/details/8246889 點贊 收藏 分享 文章舉報 六月麥

原创 粗糙集,鄰域粗糙集與實域粗糙集概述

粗糙集與鄰域、實域粗糙集概述 點贊 6 收藏 分享 文章舉報 六月麥茬 發佈了25 篇

原创 Spark MLlib源碼分析—Word2Vec源碼詳解

以下代碼是我依據SparkMLlib(版本1.6)中Word2Vec源碼改寫而來,基本算是照搬。此版Word2Vec是基於Hierarchical Softmax的Skip-gram模型的實現。 在決定讀懂源碼前,博主建議讀者先

原创 線性迴歸與梯度下降算法(1)

參考:http://blog.csdn.net/xiazdong/article/details/7950084 點贊 1 收藏 分享 文章舉報

原创 Seq2Seq in Tensorflow

Tensor flow中自帶的seq2seq,這麼經典的encoder-decoder模型,網上都沒有相關的詳細介紹。花了一個星期的時間,整理了該模型的詳細架構。感興趣的可以看一下。後面抽時間再把代碼註釋一下,本博主從來不玩虛的,

原创 Hadoop常用命令彙總

啓動Hadoop 進入HADOOP_HOME目錄。 執行sh bin/start-all.sh 關閉Hadoop 進入HADOOP_HOME目錄。 執行sh bin/stop-all.sh 1、查看指定目錄下內容 hadoop

原创 RNN初學入門筆記(1)

本篇博客翻譯自http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/ 系列的第一篇,並參考了網絡上

原创 BP神經網絡算法推導

1、前饋神經網絡、反饋神經網絡、BP網絡等,他們之間的關係 前饋型神經網絡: 取連續或離散變量,一般不考慮輸出與輸入在時間上的滯後效應,只表達輸出與輸入的映射關係;在此種神經網絡中,各神經元從輸入層開始,接收前一級輸入,並輸入

原创 動手寫代碼——基於Spark的TextRank實現

TextRank是在Google的PageRank算法啓發下,針對文本里的句子設計的權重算法,目標是自動摘要。它利用投票的原理,讓每一個單詞給它的鄰居(術語稱窗口)投贊成票,票的權重取決於自己的票數。這是一個“先有雞還是先有蛋”的

原创 概率主題模型與LDA模型公式推導(1)

概率主題模型(PTM——Probabilistic Topic Model) 注:關於爲何用Dirichlet分佈來假設公式中的兩個獨立分佈,可以參考如下鏈接博文,博主感覺講的很到位。 鏈接:http://ma

原创 Word2Vec概述與基於Hierarchical Softmax的CBOW和Skip-gram模型公式推導

該文檔是我在《Word2Vec_中的數學原理詳解》基礎上做的總結和一些新的描述,增加了代碼與公式的對照和公式總彙(公式太多,彙總下看起來更方便),可以更加方便的加深對代碼和公式理解。既然是總結,則一些很基礎的知識我沒有寫到,如果裏

原创 從PGM到HMM再到CRF(self_note)

問: 有一點不太明白 想請教:MRF和CRF看起來好像就是p(x,y)和p(y|x)的差別,爲什麼他們兩個模型的應用差距那麼的大呢?MRF廣泛運用在各種領域,CRF大部分都用的linear 答: 忽略掉生成模型