統計觀測自畫像VS實際規律自畫像：數據建構（2）

原創

lingyu_me

2020-05-03 13:56

想到很多標題，如：

建構數據(2)：讓決策科學化

建構數據(2)：思維規律的外顯

建構數據(2)：統計規律可信度的測量方法

建構數據(2)：id3算法讓你火眼金睛

……

今天主要展示一個有趣的現象，如題。

1、吧啦吧啦

數據結構樹、圖的新型應用。

數據建構方法只是一種中介性工具，行業、領域、業務知識是內核。

方法的應用對你是有要求的：你要懂得數據的內在規律、客觀規律。

正向應用場景：

如果你是師傅，在傳授一個工藝流程時，可能將幾十年縮短爲幾年；

如果你是老師，一段代碼輸出的結果，可將原理、算法中的必要過程清晰表達，避免知識背景、情感心態、個人認知帶來的信息丟失；

如果你是研究者，建構數據的靈活運用讓你如虎添翼；

如果你是管理者，當你定義一個崗位職責時，可以通過建構數據建立崗位模型，精確定義崗位邏輯，精確統一思路。

……

反思：

在上述場景中的大多是實幹型角色，對一些偏藝術、偏智慧角色來說更多的是需要來自心性上的打磨，建議適當瞭解，不必過多依賴。

2、一張決策設計圖

如果從現實場景出發任意定義一種邏輯流程，這是一件比較考驗我想象力和創造力的事，那麼，就直接以模型的形式給出好了。

決策模型結構：

這個決策模型能不能成爲模型，取決於實際生活中有沒有這樣的思維或邏輯流程。當然，我這裏只是一種設計圖，可能有意義，可能沒有實際意義，不過這麼沒關係，因爲這只是“漁”。

圓角矩形是決策節點，A、B、C、D、E代表具有某種內在關聯的決策依據。圓是葉子節點，代表決策結果：Y表示決策成立，或某種概念成立，或某種類別成立，N表示不成立。

這個模型整體含義是：一個決策（或者說是判定）取決於依據A、B、C、D、E（或者說是狀態、特徵、屬性等，它們對於決策成立的影響有範圍、比重的區別），它們不同的值的組合（一條因果鏈、判斷鏈上的路徑）共同決定決策結果。

3、建構數據

從決策模型得出，各特徵取值如下：

決策路徑的符號描述：

Decision=(Reasons,Actions)

Reasons=(A,B,C,D,E)

Actions=(‘yes’,’no’)

A=(0,1,2)

B=(5,6,7,8)

C=(9,10,11)

D=(12,13)

E=(3,4)

具體決策路徑：

d1=(A=0,E=3,B=6,’no’)

d2=(A=0,E=3,B=7,’yes’)

d3=(A=0,E=4,’yes’)

d4=(A=1,C=10,B=5,’no’)

d5=(A=1,C=10,B=8,’yes’)

d6=(A=1,C=9,’yes’)

d7=(A=1,C=11,’no’)

d8=(A=2,D=13,B=6,’yes’)

d9=(A=2,D=13,B=8,’no’)

d10=(A=2,D=12,’yes’)

數據生成原則：每個樣本只能符合一條決策路徑，該路徑外的冗餘特徵將在內部隨機取值。每個樣本是唯一的。

數據生成方法有很多，可以先組合生成，再隨機選取；也可以先隨機選擇路徑，再取捨回溯。

這次只生成十個樣本集（當然可以更多），每個樣本集表現爲三個文件：數據，決策樹，決策代碼。

4、統計觀測自畫像

第一組數據來自datapro0，我們不妨來詳細分析一下：

首先看各個樣本（注意，樣本是一個從外部觀察的概念）所屬的決策路徑：

d1=(A=0,E=3,B=6,’no’)

d2=(A=0,E=3,B=7,’yes’)

d3=(A=0,E=4,’yes’)

d4=(A=1,C=10,B=5,’no’)

d5=(A=1,C=10,B=8,’yes’)

d6=(A=1,C=9,’yes’)

d7=(A=1,C=11,’no’)

d8=(A=2,D=13,B=6,’yes’)

d9=(A=2,D=13,B=8,’no’)

d10=(A=2,D=12,’yes’)

（很爲你着想吧）

datapro0樣本集決策樹：

是不是和最初設計的決策樹很不一樣？這是爲什麼呢？

原因很簡單：

id3一種統計觀測型算法，是一種通過外在觀察得出的分類模式；

id3處理的方式是以“列”爲單位，即只通過每個特徵取值的分佈情況來建立一種分類模式，從而忽略特徵與特徵之間的內在邏輯與關聯；

那也許你就要問，這裏才24個樣本，要完整得到當初設計的決策樹，必須要完整樣本集：也就是所有路徑的所有可能都要有。

想法很好，今晚就不去實驗了，下次再整。不過，從id3的算法過程來看，特徵B的取值是最多的，相當大的概率不會同意第一個判斷對象是A。

將決策樹生成決策代碼，更能從邏輯上分析樣本的內在規律與外在表現之間的區別，甚至有的’yes’與’no’根本無法從原始決策樹的決策路徑去理解。但是外在表現的數據樣本硬是能得出一種全新的規律。

彷彿就是在說，內在規律和外在表現規律，你說你的，我說我的，但咱倆是等價的。

這實際上是一個極老套的問題：

內涵=外延

只不過，一陣觀測統計之後，外延能夠被邏輯化。

其他（第二次改版啦，修正了一些小瑕疵，但不影響觀點）：

第二組

第三組

第四組

請欣賞（對於csdn能直接複製圖片過來就可上傳的功能點贊）：

5、實際規律自畫像

這個小標題其實也可以叫做：千變萬化不離其宗，看我本來面目。

6、如何檢測你用的方法是否準確

直接通過數學方法來處理當然是好，可是，你也不妨先針對方法內建規律，再生成數據，最後用統計方法檢測，判斷。

如果效果較好，那麼應用在實際場景中，效果也較好。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

統計觀測自畫像VS實際規律自畫像：數據建構（2）

1、吧啦吧啦

2、一張決策設計圖

3、建構數據

4、統計觀測自畫像

5、實際規律自畫像

6、如何檢測你用的方法是否準確

高效率使用windows

【高級教程】ctypes：從python菜鳥到c大神

逆向工程對抗之代碼隱藏

17個高效技巧：一行python，十行C++

系統管理員感謝日：你有什麼願望？

超級平臺隨想：應用無極限

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結