目錄
想到很多標題,如:
建構數據(2):讓決策科學化
建構數據(2):思維規律的外顯
建構數據(2):統計規律可信度的測量方法
建構數據(2):id3算法讓你火眼金睛
……
今天主要展示一個有趣的現象,如題。
1、吧啦吧啦
數據結構樹、圖的新型應用。
數據建構方法只是一種中介性工具,行業、領域、業務知識是內核。
方法的應用對你是有要求的:你要懂得數據的內在規律、客觀規律。
正向應用場景:
如果你是師傅,在傳授一個工藝流程時,可能將幾十年縮短爲幾年;
如果你是老師,一段代碼輸出的結果,可將原理、算法中的必要過程清晰表達,避免知識背景、情感心態、個人認知帶來的信息丟失;
如果你是研究者,建構數據的靈活運用讓你如虎添翼;
如果你是管理者,當你定義一個崗位職責時,可以通過建構數據建立崗位模型,精確定義崗位邏輯,精確統一思路。
……
反思:
在上述場景中的大多是實幹型角色,對一些偏藝術、偏智慧角色來說更多的是需要來自心性上的打磨,建議適當瞭解,不必過多依賴。
2、一張決策設計圖
如果從現實場景出發任意定義一種邏輯流程,這是一件比較考驗我想象力和創造力的事,那麼,就直接以模型的形式給出好了。
決策模型結構:
這個決策模型能不能成爲模型,取決於實際生活中有沒有這樣的思維或邏輯流程。當然,我這裏只是一種設計圖,可能有意義,可能沒有實際意義,不過這麼沒關係,因爲這只是“漁”。
圓角矩形是決策節點,A、B、C、D、E代表具有某種內在關聯的決策依據。圓是葉子節點,代表決策結果:Y表示決策成立,或某種概念成立,或某種類別成立,N表示不成立。
這個模型整體含義是:一個決策(或者說是判定)取決於依據A、B、C、D、E(或者說是狀態、特徵、屬性等,它們對於決策成立的影響有範圍、比重的區別),它們不同的值的組合(一條因果鏈、判斷鏈上的路徑)共同決定決策結果。
3、建構數據
從決策模型得出,各特徵取值如下:
決策路徑的符號描述:
Decision=(Reasons,Actions)
Reasons=(A,B,C,D,E)
Actions=(‘yes’,’no’)
A=(0,1,2)
B=(5,6,7,8)
C=(9,10,11)
D=(12,13)
E=(3,4)
具體決策路徑:
d1=(A=0,E=3,B=6,’no’)
d2=(A=0,E=3,B=7,’yes’)
d3=(A=0,E=4,’yes’)
d4=(A=1,C=10,B=5,’no’)
d5=(A=1,C=10,B=8,’yes’)
d6=(A=1,C=9,’yes’)
d7=(A=1,C=11,’no’)
d8=(A=2,D=13,B=6,’yes’)
d9=(A=2,D=13,B=8,’no’)
d10=(A=2,D=12,’yes’)
數據生成原則:每個樣本只能符合一條決策路徑,該路徑外的冗餘特徵將在內部隨機取值。每個樣本是唯一的。
數據生成方法有很多,可以先組合生成,再隨機選取;也可以先隨機選擇路徑,再取捨回溯。
這次只生成十個樣本集(當然可以更多),每個樣本集表現爲三個文件:數據,決策樹,決策代碼。
4、統計觀測自畫像
第一組數據來自datapro0,我們不妨來詳細分析一下:
首先看各個樣本(注意,樣本是一個從外部觀察的概念)所屬的決策路徑:
d1=(A=0,E=3,B=6,’no’)
d2=(A=0,E=3,B=7,’yes’)
d3=(A=0,E=4,’yes’)
d4=(A=1,C=10,B=5,’no’)
d5=(A=1,C=10,B=8,’yes’)
d6=(A=1,C=9,’yes’)
d7=(A=1,C=11,’no’)
d8=(A=2,D=13,B=6,’yes’)
d9=(A=2,D=13,B=8,’no’)
d10=(A=2,D=12,’yes’)
(很爲你着想吧)
datapro0樣本集決策樹:
是不是和最初設計的決策樹很不一樣?這是爲什麼呢?
原因很簡單:
id3一種統計觀測型算法,是一種通過外在觀察得出的分類模式;
id3處理的方式是以“列”爲單位,即只通過每個特徵取值的分佈情況來建立一種分類模式,從而忽略特徵與特徵之間的內在邏輯與關聯;
那也許你就要問,這裏才24個樣本,要完整得到當初設計的決策樹,必須要完整樣本集:也就是所有路徑的所有可能都要有。
想法很好,今晚就不去實驗了,下次再整。不過,從id3的算法過程來看,特徵B的取值是最多的,相當大的概率不會同意第一個判斷對象是A。
將決策樹生成決策代碼,更能從邏輯上分析樣本的內在規律與外在表現之間的區別,甚至有的’yes’與’no’根本無法從原始決策樹的決策路徑去理解。但是外在表現的數據樣本硬是能得出一種全新的規律。
彷彿就是在說,內在規律和外在表現規律,你說你的,我說我的,但咱倆是等價的。
這實際上是一個極老套的問題:
內涵=外延
只不過,一陣觀測統計之後,外延能夠被邏輯化。
其他(第二次改版啦,修正了一些小瑕疵,但不影響觀點):
第二組
第三組
第四組
請欣賞(對於csdn能直接複製圖片過來就可上傳的功能點贊):
5、實際規律自畫像
這個小標題其實也可以叫做:千變萬化不離其宗,看我本來面目。
6、如何檢測你用的方法是否準確
直接通過數學方法來處理當然是好,可是,你也不妨先針對方法內建規律,再生成數據,最後用統計方法檢測,判斷。
如果效果較好,那麼應用在實際場景中,效果也較好。