工業數據分析技術與實戰之數據分析的誤區——崑崙數據田春華培訓聽課記錄

崑崙數據田春華老師在微信公衆號的專欄培訓:工業數據分析與實戰。培訓給出了一些實際的數據分析例子,包括“設備管理”、“運作優化”和“營銷服務”三類;然後講了數據分析的基本框架、方法和技術;最後給出了大數據時代,數據分析的認識誤區和挑戰。田老師發音不標準啊,好多詞聽好幾遍,再關聯上下文,連猜帶蒙的才勉強能明白,不過有的也不一定對。記錄以反覆學習。
[視頻鏈接]

本課講大數據爲數據分析帶來的變化。
首先在計算架構上帶來的變化。原來的數據分析都是基於單機的,服務器的,當數據量大了以後,計算受硬件限制,解決這個問題就引入了分佈式架構,這就需要對原有算法進行重構,以適用於將數據拆分以後,怎麼保證收斂性,怎麼保證大致聚合,也就是數據分開的情況下,計算怎麼跟着數據走,一些邊界條件還能整合到一起,最終結果像一個單機計算一樣,當然中間會損失一些東西。還產生了一些新的算法,比如深度學習算法也有了很大發展。
再就是當大數據來了以後,很多原來的需求變得更加緊迫,比如在線學習,半監督學習,特徵工程等等。有了大量數據以後,原來的特徵工程由專家來做,現在有沒有自動化手段,比如AUTOML,機器學習算法能不能自動調參,自動提取等能做一些工作。
第三塊兒就是大數據來了以後,結構化數據變得越來越重要,原來我們講大數據,都是講在互聯網上的文本數據,圖片、視頻數據,多媒體數據,這是我們在過去移動互聯網以及web式的網絡帶來的數據。但是我們看現在隨着大數據發展,物聯網以及工業互聯網這一塊兒,很多都是由傳感器收集的結構化數據,包括我們的移動互聯網,時空的,位置、時間等的社交媒體社交數據,這些都是結構化數據。雖然我們講非結構化,半結構化,但是我們現在發現結構化數據還是我們數據分析很重要的一部分,這就是大數據給我們帶來的新的變化。
然後我們講一下大數據分析的幾個誤區。有些人認爲大數據就是全樣本分析,如果是不嚴格的講,也可以,但是嚴格的將,全樣本這個詞,樣本全不全是個相對的概念。特別是在工業行業講樣本,相對於物理世界,我們的任何採樣都是部分樣本,全樣本只存在於邏輯世界,現實世界的數據不可能是全樣本。再就是,說是大數據大數據,但是對於數據分析師來說,數據從來就沒大過。爲什麼這麼說呢。比如說有一千行數據,就想要做統計,如果有一萬條數據,就可能想要做關聯,如果有了10萬條數據,就可能想做深度挖掘。也就是說,數據越多,探索的慾望、興趣就越多。相對於人的探索興趣來說,數據量從來沒大過。所以作爲數據分析師來說,我們有時候不太願意提大數據分析,因爲我們覺着數據從來沒有大過。另外有些人說,當數據大了以後,不用太關心數據的業務意義了,這句話是完全錯的。特別是在工業行業,數據的產生機制,是用什麼傳感器採集來的,傳感器布在什麼位置,都非常重要,如果傳感器布的位置有問題的話,它採的數據肯定反應不了一些現象。當時在講票房預測的時候也給大家講到,來自社交媒體的數據,它們的意義還是要關心的,比如什麼年齡段的人羣等等。當然在工程化方法中間,我們可以先把業務意義放到一邊,先做做看,效果好了或效果不好,我們回頭再來看業務,這是可以的。但是不可能說完全拋棄業務意義純用數據來做,無論是做商業數據分析還是做工業數據分析都是一樣的。
第三是說數據質量不再重要,這個說法也是有前提的。如果是少量數據有質量問題可能影響不大,因爲數據分析是走的統計路線,是看大樣本,看絕大多數,那少量的樣本可能就被算法忽略了,甚至強噪聲我們也有算法消除掉。但是,如果數據本身是垃圾,也就是Garbage in ,Garbage out。這個問題在大數據時代越來越重要,數據越來越多之後,如果不及時處理,如果一年、兩年數據都不處理,再想處理的時候,大家就都不知道該怎麼處理了。所以大數據時代,數據質量更加重要。一些數據入湖,入湖之前進行檢測質量問題,有問題把它及時的消除掉,這些我們在過去的工程測量網上發現好多問題,比如在實際工況中間好多數據丟了,或者早期的接入協議,可能寫錯等等。過了三年,這些數據再回去去找,或者再想糾正的時候非常困難。因爲大家都回憶不起來到底是什麼原因了。另外還有一個錯誤觀念就是數據量大比維度組合更重要,這個其實恰恰相反,維度比數據量更重要。比如在用戶畫像裏面,我能夠拿到用戶所有的行爲記錄,反而比拿到一個兩個行爲的很多數據更重要,我要的是一個全維度的畫像,比如他的社交行爲,他在物理世界的行走行爲,他的出差行爲,他的消費行爲等等各種行爲,這樣的維度全比單獨的量大更重要。在工業上更是這樣,如果看一個現象,它有10個維度,即使有少量數據,如果維度全面的話,遠遠比只才一個維度的大量數據更重要。所以好多時候,不同領域的數據怎麼打通,比如在互聯網上各種平臺比如銀行、電信他們之間進行數據交換變現,做一個數據安全問題等等。
另外一個誤區就是說大數據能秒殺傳統的統計與數據挖掘手段,有了“大”數據,“小”數據就沒事幹了,其實這個說法有兩個問題,一個是說什麼是小數據,ERP數據、交易數據、訂單數據、設計數據,這些都是小數據,反而說這些小書架都是高業務價值的數據,都比大數據的價值密度高。大數據分析的目的,其實就是挖掘出價值密度高的“小”數據,從這些大數據中間找出不變量,或者一些恆定的量,找出一些規律等。這個得根據具體問題,有些問題就比較簡單,用小數據就能解決,一些場合,比如說醫學裏的問卷調查,臨牀實驗仍然是非常重要的手段,這時候在成本範圍內還是非常有效的。但是在有些情況下,比如說在線醫療設備的接入,協助這些嚴密的手段,這些也很好。所以說還是得看具體的業務場景。
最後一個說,也是宣傳比較多的,有了深度學習/認知計算等,整個數據分析只要爲給我數據,這個問題就能自動解決了,就不需要建模了。這個其實是我們一直以來的理想,實際上從來沒達到過。包括我們醫學發展幾千年,到現在醫生同樣很重要。智能算法只是在部分問題上做了一些智能化,一些高難度的問題還是需要人的參與。包括醫學也一樣,有了智能設備以後,一些低價值的,重複性的工作就被取代了。但是那些高價值的工作還是得醫生參與,這就是我們常說的,世上沒有萬能藥。
剛纔我們講的是大數據帶來了什麼以及對大數據認識的一些誤區。在實際做一個分析項目時應該注意哪些問題呢,大概有四個方面:
一是業務驅動。我們的數據分析結果,最終還是被業務利用的,我們可以假設我們的模型非常理想,可以做100%的精度。那大家可以先問一下,在100%的精度下,業務怎麼用它。是一天用一次還是一個月用一次,誰來用。再回到現實,我們80%的精度,有沒有用?60%的精度有沒有用?我們一定要找到一個最低的有用的精度是多高。因爲在現實中間,精度越高對數據的要求,對技術的要求非常高,包括對前置條件的要求也很苛刻,那我們肯定要找到一個最松的條件,如果我們做一個60%精度的模型還可以有一些用處的話,那就挺好了,我們不一定非要做到90%甚至99%。所以說我們還是講究業務驅動,我們的數據分析模型怎麼融入到業務體系裏面。
第二個是看數據。其實數據分析一方面是看完備度,這個完備度不是說數據的缺失什麼的,而是說從業務意義上講,從物理意義上講,這些數據有沒有反應這個現象,或者說在多大程度上反應了這個現象,或者說是與我們要預測的東西有多大的相關性。也就是從業務上把握一下。第二看數據質量,一方面包括數據本身的質量,另一方面是從業務角度上來看這些數據的質量怎樣,有沒有反應業務上的常見場景。
第三算法,算法這一塊兒反而是簡單的。一方面儘量簡潔一些,這跟我們做學術研究不一樣,工程上我們儘量用簡潔的算法,越簡單越好。能用簡單方程做的,就不要用方程組,能用方程組做的就不要用動態方程,能用常微分方程的就不要用偏微分方程,不要把問題複雜化。有時候損失一點兒精度損失一點兒性能,來換取一個簡潔的模型,是非常非常值得的。因爲這樣這個模型的健壯性、靈活性,實用性都有保證。因爲在數據分析上有個現象就是過度關注算法,其實在工程上,特徵變量比算法更重要。並不是說你用SVM或deeplearning就比我用決策樹高明,雖然你的精度可能比我高一點。更重要的是特徵,一些行業應用以及競賽上來看,特徵更重要。特徵從哪裏來呢?兩塊兒,一個是行業常識,包括先驗知識,已經知道的就融入到模型中去,不要再讓機器去猜。第二是專家經驗,針對某個故障,某些質量,專家有些先驗經驗,這時候就要與業務專家經驗結合,特別是在我們數據挖掘結果不好的時候,通常拿出來一些反例,在我們模型中表現很差的,給業務專家看,一起討論,很多時候是因爲數據不全或意外情形造成的。
最後一個是結果的可解釋性,業務意義是什麼。無論在工業還是商業,不管是用什麼方法,還是要知道模型背後的基本邏輯是什麼樣子的,這個模型的精度高爲什麼高,在什麼情況下高,你的結果比我好爲什麼比我好,是你考慮的維度更多?還是你考慮了非線性關係?一定是得符合常識的。如果做一個模型,意料之外情理之中,就做的比較好,或者乍一看不合理,但是仔細一想也符合常理,是我們過去忽略了一些因素,某個因素在某些情況下變成重要因素了,這時候我們模型做的非常好,這是有可能的。數據挖掘做項目,和做學術的不一樣,學術一定是說通用性,領先性各方面,項目的話是解決當前問題,有應用價值,真正的好用,它們的關注點不一樣。
除了關注點不一樣,數據本身可能也會造成一些假象,就講兩個比較有名的例子,一個叫倖存者偏差,一個叫精神病悖論。
倖存者偏差是由這個場景出來的:二戰的時候,要確定在轟炸機的哪個部位裝上更厚的裝甲,可以提高本方飛機的防禦能力,減少損失。由於裝甲很厚,會極大的增加飛機的重量,不可能將飛機從頭到尾全都用裝甲包起來,因此研究人員需要做出選擇,在飛機最易受到攻擊的地方加上裝甲。當時的英國軍方研究了那些從歐洲大陸空戰中飛回來的轟炸機。如上圖所示,飛機上被打到的彈孔主要集中在機身中央,兩側的機翼和尾翼部分。因此研究人員提議,在彈孔最密集的部分加上裝甲,以提高飛機的防禦能力。這一建議被美國軍隊統計研究部的統計學家Abraham Wald否決。Wald連續寫了8篇研究報告,指出這些百孔千瘡的轟炸機是從戰場上成功飛回來的“倖存者”,因此它們機身上的彈孔對於飛機來說算不上致命。要想救那些轟炸機飛行員的性命,更正確的方法應該是去研究那些被打中並墜毀的轟炸機。只有研究那些沒有成功返航的“倒黴蛋”,纔能有的放矢,找到這些飛機最脆弱的地方並用裝甲加強。Wald的建議後來被英國軍方採納,挽救了成千上萬的飛行員性命。
也就是說,我們能拿到的數據,其實是不重要的,真正出問題的數據,是拿不來的。
精神病悖論: “你被送入病院,暴跳如雷,不承認,是精神病指證之一。你被送入,很冷靜,不鬧,和常人不一樣。是精神病。你吃藥,喫成精神病。你不喫,違抗醫囑,電擊。單獨關押,時間一長,神功必定練成!你不信?咱試試?”實際上還不止如此,只要被強制收治入院,精神病的帽子恐怕就不好摘了——即使你跑出來到另外的醫院診斷並非精神病,人家也可以說:“這人本來有精神病的,病的還不輕呢,這是經過我們精心治療,給治好了!”如果你跑出來後不幸又被收進去了,人家肯定也有說辭:“這人精神病又犯了,收回重治!
用這個概念來看開車風險和速度的關係。但從速度和事故率來看,發現速度和事故率居然成反比。這是因爲我們忽略了駕駛員的經驗。有經驗的老駕駛員,速度快但是事故率也低,而新手開的慢但是事故率還高。這反應了我們在做數據分析時所用的數據,可能沒有將有關鍵影響的因素納入,所以導致挖掘的規律與實際情況相反。在這工業上也經常遇到。比如說調查顯示,某學校女教師平均工資低於男教師,得出結論該學校存在性別歧視。其實該分析推論遺漏的因素可能是,現有女教師的教育水平、經驗、資料可能較低。
另外有一個特別功利的問題:是不是所有數據挖掘得出來的結論都是有用的,或者說都是有趣的。這個不一定。首先說怎麼才叫有趣,可能踏實易於被人理解的,在某種程度上在新的或測試數據上是有效的,潛在有用的,新穎的。其實挖掘的結論並不一定是有趣的,只是說數據裏包含了這個規律,能夠被挖掘出來,有沒有用就不好說了。數據挖掘有的時候是證僞,證明這個規律不存在。這對數據分析來說也是一種確定性結論,我們證明了這個東西不存在。以前我們做過一些質量分析的課題,合作方也比較務實,他們說你能快速的證明我們這個猜想是錯的,或者不存在,也是有價值的,那我就不在這上面試了,我取試更好的方向。有的時候我們的應用部門有好多的考覈指標,大家都期望數據分析能挖掘出有用的,甚至把幾種指標寫到合同交付裏面。這個東西,成功不成功,其實是不符合自然規律的,數據分析就是說在數據是可信的、客觀的情況下,我們儘量的反應一個客觀事實,而不是說爲了交付什麼指標,來刻意的捏造事實,用有偏的數據,故意做出一個好的結果。這在好多劣質的論文上會出現,他們給的實驗結果非常好,但是在實際重現的時候完全不是那麼回事兒。因爲他們刻意挑了一些數據集,這個數據集對結果比較有利。在過去的小數據的時候,有很多這種做法,到大數據這裏我們就發現,原來看起來在小數據上或特意挑選的數據上表現很好的模型,一到大數據平臺自動跑就發現很多問題。這也就說其實我們過去做的模型其實並沒有那麼好,而是因爲巧合,或我們每太注意,挑了一個對模型有益的數據。
我們一定要注意,我們通過統計分析得出來的模型,與數據是關聯關係,關聯關係不等於因果關係。因果還是得通過業務來解決。當然現在有些講時序,有一個東西總在另外一個之前發生,或是說一個現象總伴隨着另一個發生,我們可以近似的認爲是因果關係,但是在哲學上講這也不是真的因果關係。
然後再說一下數據挖掘項目與解決方案的幾點思考。第一就是業務優先,技術其次。數據挖掘項目是需要業務專家出面參與,一般項目剛開始的時候,儘量的請業務專家把已有的經驗先講一講。比如說大家都知道的行業裏面的常識,隔行如隔山,對於一個數據分析師來說可能就是完全陌生的新東西。可能有一些行業常識,數據分析很容易就挖掘出來,但是這個沒有什麼意義,你挖掘出來的東西行業內都知道,就你不知道,那這個就沒有任何價值。前期先請行業專家把常識講講,在做數據分析的時候把這些知識融入到分析過程中,要不把它們作爲特徵加進去進行預測,如果實在用不了可以根據專家經驗對挖掘結果進行篩選,這些大家都知道的就不再彙報了。在一個就是在挖掘過程中,我們要把挖掘的好的地方,一些特例給業務專家看,通常可能會發現我們的數據不全,或者實際的業務數據有新的業務場景。
第二是數據挖掘平民化。企業要有自己的數據分析師,然後專業的數據分析師儘量少耍小花招,要讓結果易懂,易解釋,儘量有好的展現方式。另外一定要思考與業務流程怎樣緊密的融合。
第三是業務上對實時預測和評分的需求是什麼,到底關注的評分要求是什麼。
最後總結,數據分析的幾大原則:

  • Garbage in,Barbage out
  • No free Lunch
  • Occam’s razor
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章