原创 HMM學習筆記—001--前向算法(forward algorithm)

整理自博客:從一個實例中學習HMM前向算法 HMM在實際應用中主要用來解決3類問題: 評估問題 給定觀測序列o=o1o2o3⋅⋅⋅ot 和模型參數λ=(A,B,π) ,怎麼樣有效計算這一個觀測的概率。(Forward Algori

原创 讀書筆記--python數據可視化--006_從數據庫導入數據

通常情況下,數據分析和數據可視化工作處於數據管道的消費端。我們更經常使用已經生成的數據,而不是自己生成數據。 #-*- coding: UTF-8 -*- ''' ####################################

原创 Entities and Entities's Relation Extraction of ACE 2005

Entity Detection and Recognition The ACE Entity Detection and Recognition task(EDR) requires that certain specified

原创 統計及其學習概念解析001

統計機器學習之所以區別於傳統機器學習的本質,就在於統計機器學習能夠精確的給出學習的效果,能夠解答需要的樣本數等等一系列問題。與統計機器學習的精密思維相比,傳統的機器學習基本上屬於摸着石頭過河,用傳統的機器學習方法構造分類系統完全成爲了一種

原创 讀書筆記 -- 012_數據挖掘_頻繁模式_關聯性_相關性_2

FP-增長(Frequent Pattern Growth, FP-growth)算法:發現頻繁模式而不產生候選 正如在Apriori算法中看到的,Apriori算法的候選產生-檢查方法顯著壓縮了候選項集的規模,併產生了很好的性能。然而

原创 讀書筆記--python數據可視化--003_讀取定寬數據文件

如果文件中的格式是以定寬的格式存儲的,那麼可以通過格式來匹配並提取數據。一種方法是逐行讀取數據,然後利用字符串的操作來提取數據。這種方法比較直接,如果在性能不做要求的話是首選操作。另外一種是利用python的struct模塊來提升性能,並

原创 讀書筆記--python數據可視化--001_matplotlib學習

#-*- coding: UTF-8 -*- ''' ################################################# # Author : 餘歡 # Date : Jan 1, 2016

原创 讀書筆記--python數據可視化--007_清理異常值

#-*- coding: UTF-8 -*- ''' ################################################# # Author : 餘歡 # Date : Dec 28, 2015

原创 讀書筆記--python數據可視化--005_從數據庫導入數據

#-*- coding: UTF-8 -*- ''' ################################################# # Author : 餘歡 # Date : Dec 28, 2015

原创 HMM學習筆記—002--維特比算法(viterbi algorithm)

參考博客:特比算法(Viterbi Algorithm) HMM模型如下圖: 由HMM可知,Day2的天氣僅取決於Day1;Day3的天氣又只取決於Day2的天氣。 Day1由於是初始狀態,我們分別求: P(Day1-Sun

原创 NumPy學習 -- 002_常用函數

數據文件:data.csv AAPL,28-01-2011, ,344.17,344.4,333.53,336.1,21144800 AAPL,31-01-2011, ,335.8,340.04,334.3,339.32,13

原创 讀書筆記--python數據可視化--004_讀取JSON數據

示例代碼 #-*- coding: UTF-8 -*- ''' ################################################# # Author : 餘歡 # Date : Dec 26, 2

原创 讀書筆記--python數據可視化--001_讀取CSV文件數據

#-*- coding: UTF-8 -*- ''' ################################################# # Author : 餘歡 # Date : Dec 26, 2015

原创 讀書筆記--python數據可視化--005_導出數據到JSON、CSV和EXcel

在做數據可視化時,我們通常只是使用其他人的數據,所以導入和讀取數據是隻要的工作。然而,不管是我們還是他人的需要,不管是現在還是將來的需要,我們缺失需要把產生或者處理過的數據導出或寫到某個地方。 對於Excel寫的部分,需要安裝xlwt模塊

原创 讀書筆記 --《數學之美》_ 中文分詞

《數學之美⋅ 第二版》第四章 現在中文分詞是一個已經解決的問題,提升的空間微乎其微。不值得再去花很大的精力去做研究 1、中文分詞方法的演變 (a.)北航的樑南元教授提出的查字典類似的方法,但是對於稍微複雜的句子就無能爲力;額; (