統計觀測自畫像VS實際規律自畫像:數據建構(2)

目錄

1、吧啦吧啦

2、一張決策設計圖

3、建構數據

4、統計觀測自畫像

5、實際規律自畫像

6、如何檢測你用的方法是否準確


想到很多標題,如:

                    建構數據(2):讓決策科學化

                    建構數據(2):思維規律的外顯

                    建構數據(2):統計規律可信度的測量方法

                    建構數據(2):id3算法讓你火眼金睛

                    ……

今天主要展示一個有趣的現象,如題。

1、吧啦吧啦

數據結構樹、圖的新型應用。

數據建構方法只是一種中介性工具,行業、領域、業務知識是內核。

方法的應用對你是有要求的:你要懂得數據的內在規律、客觀規律。

正向應用場景:

如果你是師傅,在傳授一個工藝流程時,可能將幾十年縮短爲幾年;

如果你是老師,一段代碼輸出的結果,可將原理、算法中的必要過程清晰表達,避免知識背景、情感心態、個人認知帶來的信息丟失;

如果你是研究者,建構數據的靈活運用讓你如虎添翼;

如果你是管理者,當你定義一個崗位職責時,可以通過建構數據建立崗位模型,精確定義崗位邏輯,精確統一思路。

……

反思:

在上述場景中的大多是實幹型角色,對一些偏藝術、偏智慧角色來說更多的是需要來自心性上的打磨,建議適當瞭解,不必過多依賴。

2、一張決策設計圖

如果從現實場景出發任意定義一種邏輯流程,這是一件比較考驗我想象力和創造力的事,那麼,就直接以模型的形式給出好了。

決策模型結構:

這個決策模型能不能成爲模型,取決於實際生活中有沒有這樣的思維或邏輯流程。當然,我這裏只是一種設計圖,可能有意義,可能沒有實際意義,不過這麼沒關係,因爲這只是“漁”。

圓角矩形是決策節點,A、B、C、D、E代表具有某種內在關聯的決策依據。圓是葉子節點,代表決策結果:Y表示決策成立,或某種概念成立,或某種類別成立,N表示不成立。

這個模型整體含義是:一個決策(或者說是判定)取決於依據A、B、C、D、E(或者說是狀態、特徵、屬性等,它們對於決策成立的影響有範圍、比重的區別),它們不同的值的組合(一條因果鏈、判斷鏈上的路徑)共同決定決策結果。

3、建構數據

從決策模型得出,各特徵取值如下:

決策路徑的符號描述:

Decision=(Reasons,Actions)

Reasons=(A,B,C,D,E)

Actions=(‘yes’,’no’)

A=(0,1,2)

B=(5,6,7,8)

C=(9,10,11)

D=(12,13)

E=(3,4)

具體決策路徑:

d1=(A=0,E=3,B=6,’no’)

d2=(A=0,E=3,B=7,’yes’)

d3=(A=0,E=4,’yes’)

d4=(A=1,C=10,B=5,’no’)

d5=(A=1,C=10,B=8,’yes’)

d6=(A=1,C=9,’yes’)

d7=(A=1,C=11,’no’)

d8=(A=2,D=13,B=6,’yes’)

d9=(A=2,D=13,B=8,’no’)

d10=(A=2,D=12,’yes’)

數據生成原則:每個樣本只能符合一條決策路徑,該路徑外的冗餘特徵將在內部隨機取值。每個樣本是唯一的。

數據生成方法有很多,可以先組合生成,再隨機選取;也可以先隨機選擇路徑,再取捨回溯。

這次只生成十個樣本集(當然可以更多),每個樣本集表現爲三個文件:數據,決策樹,決策代碼。

4、統計觀測自畫像

第一組數據來自datapro0,我們不妨來詳細分析一下:

首先看各個樣本(注意,樣本是一個從外部觀察的概念)所屬的決策路徑:

d1=(A=0,E=3,B=6,’no’)

d2=(A=0,E=3,B=7,’yes’)

d3=(A=0,E=4,’yes’)

d4=(A=1,C=10,B=5,’no’)

d5=(A=1,C=10,B=8,’yes’)

d6=(A=1,C=9,’yes’)

d7=(A=1,C=11,’no’)

d8=(A=2,D=13,B=6,’yes’)

d9=(A=2,D=13,B=8,’no’)

d10=(A=2,D=12,’yes’)

(很爲你着想吧)

datapro0樣本集決策樹:

是不是和最初設計的決策樹很不一樣?這是爲什麼呢?

原因很簡單:

id3一種統計觀測型算法,是一種通過外在觀察得出的分類模式;

id3處理的方式是以“列”爲單位,即只通過每個特徵取值的分佈情況來建立一種分類模式,從而忽略特徵與特徵之間的內在邏輯與關聯;

那也許你就要問,這裏才24個樣本,要完整得到當初設計的決策樹,必須要完整樣本集:也就是所有路徑的所有可能都要有。

想法很好,今晚就不去實驗了,下次再整。不過,從id3的算法過程來看,特徵B的取值是最多的,相當大的概率不會同意第一個判斷對象是A。

將決策樹生成決策代碼,更能從邏輯上分析樣本的內在規律與外在表現之間的區別,甚至有的’yes’與’no’根本無法從原始決策樹的決策路徑去理解。但是外在表現的數據樣本硬是能得出一種全新的規律。

彷彿就是在說,內在規律和外在表現規律,你說你的,我說我的,但咱倆是等價的。

這實際上是一個極老套的問題:

內涵=外延

只不過,一陣觀測統計之後,外延能夠被邏輯化。

其他(第二次改版啦,修正了一些小瑕疵,但不影響觀點):

第二組

第三組

第四組

請欣賞(對於csdn能直接複製圖片過來就可上傳的功能點贊):

5、實際規律自畫像

這個小標題其實也可以叫做:千變萬化不離其宗,看我本來面目。

6、如何檢測你用的方法是否準確

直接通過數學方法來處理當然是好,可是,你也不妨先針對方法內建規律,再生成數據,最後用統計方法檢測,判斷。

如果效果較好,那麼應用在實際場景中,效果也較好。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章