原创 時間序列形態相似性分析(一)——時間序列形態相似性的度量

<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 序   時間序列是一類最常見的數據,目前時間序列分析重點研究的多是時間序列的預測。但

原创 模型調整若干手段的框架性思路

辛辛苦苦建立起來的數據挖掘模型,往往有效性不能令我們滿意,這時就涉及到模型調整的問題。那麼調整模型有哪些思路呢?這些思路對模型結果又有多大影響呢?以下是我的一些經驗,僅供參考。影響程度數值只是爲了大家理解方便和比較,給出了數量級,不具有任

原创 數據挖掘案例——藥物選擇決策支持

  【案例名稱】藥物選擇決策支持<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 【案例類型】數據

原创 時間序列形態相似性分析(二)——相似性度量的一個應用實例

(二)時間序列相似性度量的一個實例 我們取2008年8月25日——2008年9月5日共10個交易日的所有中小板塊股票的收盤價格構成數據集如下圖。   在這10個交易日中,每天都有交易的中小板股票共有229支,再加上中小板指數(sz399

原创 二分變量

二分變量作爲離散變量的一種類型,在數據挖掘中發揮着重要的作用。我試着從多個方面來說說二分變量的好處。   1、簡單。嗯……這個就不用說了吧,二分變量就兩個取值,1和0,或者T和F,夠簡單吧,計算機技術的基礎也是二進制,可謂異曲同工,簡單就

原创 論數據挖掘模型的有用性

“沒有哪個模型是對的,但是有些模型是可用的”。   這句話可以說是對數據挖掘模型最精闢的概括。   任何模型都是對現實世界的理論抽象,這種抽樣會忽略很多影響因素,正如牛頓發現亞里士多德的理論錯誤,愛因斯坦發現牛頓理論體系的缺陷,而霍金又發

原创 數據挖掘軟件的兩點感悟

1、對於好的劍客,一支普通的樹枝也可制敵制勝,對於好的分析師,即使是普通的EXCEL、SQL語句也可最大程度的發現數據中有用的信息; 2、主流的幾種數據挖掘軟件無所謂絕對的好壞,只有適用不適用和使用習慣不習慣的不同。

原创 二分變量之二——二分變量預測結果的三種表達

對於二分變量,假設其取值爲T和F。對之建立預測模型,那麼預測結果可以有以下三種表達方式: (1)預測結果爲T(或預測結果爲F); (2)預測結果爲T,把握程度爲p(或預測結果爲F,把握程度爲1-p);其中p爲0到1之間的實數。 (3)預測

原创 一本C語言的好書——《C語言的科學與藝術》

我經常會強調我的一個觀點: 思想(或思考的方法)高於具體的方法,具體的方法又高於特定的軟件使用。   我總是認爲在學習知識時,尤其是針對已經不在學校裏,不再有大把的時間可以讓你字典式、無具體目標的學習知識的工作人士,注重以上的優先順序無疑

原创 商用數據挖掘的兩個關鍵環節

我一直認爲數據挖掘是分爲兩類的,一類是學術用的數據挖掘,一類是商用的數據挖掘。   學術的數據挖掘注重算法,往往是對算法效率或者效果的不斷改進,然後從理論上證明算法有多優秀,如果理論證明很難,則退而求其次,使用一些經典的數據集去驗證算法確