讓數據挖掘工作起來

讓數據挖掘工作起來-DM大討論[轉自Ken North]
幾年前的一場討論,現在看來對實際DM應用仍然有很好的參考價值,推薦給朋友們!
一、引子
1999 年 Data Miner 專欄首次出現在 DB2 雜誌上。4 年以後,數據挖掘仍然是個熱點話題。最近,一個 Gartner 報告中(2002 年 12 月"技術採用和價值:調查結果")將數據挖掘排在了所有行業裏對組織有戰略性影響的 37 項新興技術中的第三位。數據挖掘已經被人們接受、應用並且普遍存在。
最近,我與我在 IBM Thomas J. Watson 研究室的同事們共同探討了關於數據挖掘未來的發展趨勢。其中包括數據分析主管 Chid Apte ,他的團隊在數據挖掘和相關領域實施了純理論的研究及應用研究。此外,Apte 所在團隊的成員 Naoki Abe、Rick Lawrence 和 Ed Pednault 也加入了這次討論。他們從科學家和商業顧問的雙重角度(他們經常花許多時間和 IBM 客戶在一起,幫助客戶們找出某些特定商業問題的解決方案)發表自己的觀點。
二、討論
Hermiz:在我們討論未來之前,先讓我們先簡單談談過去。你認爲數據挖掘最大的成功之處是什麼?這項技術在哪些地方還沒有達到其預期目標呢?
Apte:數據挖掘的最大成功之處在於它使以一種更自動化的方式對具有大量數據的商業活動進行分析和探索成爲可能,這在過去需要由行業專家和統計專家來提取有價值的信息。雖然這可能不符合傳統意義上的成功概念,但它確實正在開啓一扇門,這就是我認爲數據挖掘的最大成就。至於它的不足之處,我認爲挑戰主要在於其可操作性上,到目前爲止我們依然沒有解決這個難題。
Pednault:我想已經有相當數量的公司都做了數據挖掘,並且完全依賴於預測模型來從事他們的商業活動並從中獲利。從那些公司的情況看來,數據挖掘增強了他們的能力。對我來說,這就是成功的定義。舉例來說,一些公司已經使用數據挖掘來進行信貸風險評估很長一段時間了,他們依賴數據挖掘來支持他們的風險管理。
Lawrence:繼續延伸一下 Apte 的話題,問問你自己在數據挖掘領域最成功的應用是什麼呢?我的看法是信用卡欺詐行爲檢測,在這個應用裏,數據量非常大,一旦你犯了錯誤將會造成重大損失,並且處理工作必須非常快速地在線進行。當然我能肯定還有更多的成功案例。另一方面,如果我們批判地來看數據挖掘,我們能夠得出這樣的結論:當被作爲解決任何特定問題的萬能藥時,數據挖掘通常會失敗。在這些情況下,它的失敗是因爲人們對它的期望值太高了。沒有實踐過數據挖掘的人們覺得它幾乎是不可思議的,他們以爲拿來一個根本就不合適的問題,難以置信地填入一些髒數據到數據挖掘工具裏,然後莫名其妙就能產生一個有用的解決方案。這是不可能的。[數據質量是關鍵,所謂的Garbage in,garbage out,這就要求儘量規範的業務歷史數據]
Abe:談到數據挖掘的成就不可能不談談 Web 的成就。我想補充的一點是,對數據挖掘的預期目標在某種程度上是失敗的,這是因爲基於 Web 的應用模型同樣沒有實現它的預定目標。有這麼一種觀點:在 Web 上,數據應該能夠自動出現,並且操作也應該自動發生。事實證明並沒有這麼簡單,商業活動還涉及到人、數據的物理存儲以及操作問題等因素。
Hermiz:如果讓你來考慮基於信息解決方案的要素--人、過程和技術--你認爲挑戰和機遇分別在哪裏?
Apte:這幾個要素緊密聯繫。對一個因素的挑戰對另外一個因素來說就是機遇。我們可以將技術應用於流水線型的業務處理過程,通過減少人們的工作量使他們能夠去做他們最擅長的事情。
Pednault:我認爲技術是最重要的,它創造了機會,但同時還存在非常多的變化需要過程來處理,當然最終運用技術的還是人。那麼哪些變化是必需的呢?就拿客戶關係管理(CRM)系統來說,通常你會安排不同的經理來負責不同的商業活動,而商業活動過程的經理又有可能是其他人,這樣客戶所看到的不再是獨立的一個商業活動,而是一系列的活動,於是在這樣的業務過程中您可能失去客戶關係。在 CRM 中業務過程需要按照自己的方式來啓動。即使技術的存在有助於管理個別的客戶關係,但是這樣做需要業務過程的巨大轉變。業務人員必須意識到這些變化對業務的發展是必需的,然後他們將處理所有與人有關的問題(誰管理什麼,誰擁有什麼,以及如何衡量每個人)。而在一些組織團體中可能會存在非常大的慣性阻力,導致不能充分地利用技術的優勢。
Lawrence:我認爲技術的進步不可能導致一些相應的技能,如數據分析、統計學等變得過時。但是這對收集數據的那部分IT從業人員來說要求更強的業務理解能力,他們需要採取一種可以被商業智能工具實際使用的方式來收集數據。
Apte:如果能夠提高具有必備這種技能工作人羣的數量,你當然可以更多地利用我們今天已經擁有的技術。但是這種投資是我們應該做的嗎?--它使得過程更加依賴於勞動力--而不是提高技術水平來降低對熟練勞動力的依賴。
Abe:我同意那些技能永遠不會過時,但是我也相信存在着這樣的推動力,它促使數據挖掘過程的更多部分變得自動化。在未來的3到5年,我認爲自動化將會對技巧技能依賴的減少產生巨大的推動作用。
Hermiz:當我們談及數據挖掘的時候,總是要圍繞數據而言。對於目前商業數據的狀況--包括數據的收集、淨化和存儲,你有什麼看法呢?業務數據質量的缺乏是一個重大的制約因素嗎?
Lawrence:我認爲,對於數據挖掘社區而言,在這方面我們的進展幾乎陷入了一個非常困窘的局面。即使倒退10年來看現在面臨的數據收集方面的各種失敗,我想我們都會感到震驚。如果談到客戶數據庫,從考察到訂單實施,整個數據收集過程中各個方面之間聯接的脫節是如此的頻繁,以至於讓我們都感到驚訝。構建能夠顯示出一個具體營銷活動和採購決策最終效果的數據是非常困難的。因此,使用那些數據來開發一個數據挖掘模型用於改進過程也是非常困難的。
Apte:雖然數據倉庫以及相關聯的數據淨化工具已經大量存在,但是它們沒有像我們希望的那樣被廣泛和大量地使用。而且,我不認爲那些使用工具的人就已經解決了一些問題,包括收集數據並且按照數據挖掘可以使用的格式組織這些數據。我們這個研究團體花費在探索、並利用技術來解決這個問題的時間遠遠少於它本應該花費的時間。
Lawrence:實際上,我想說的是數據收集過程是如此之差,以至於數據挖掘研究人員總是被要求重新構建系統,以回退和糾正數據收集系統中存在的缺陷。現在我們正在使用一項技術,我們計劃將其用於淨化數據,以糾正數據收集系統中不斷出現的錯誤。一個很小卻又很令人煩惱的例子是:允許以任意格式輸入一個特定採購決策的CRM系統。與其將系統設計成爲給用戶提供三、四種不同的結果來選擇--買或不買等等,我們還不如將文本分析應用於自由格式的響應,以推導出結果。
Abe:我認爲5年以後,數據淨化、預處理和文本挖掘的自動化將會成爲一個非常大的技術挑戰,這是由數據準確度問題所導致的。
Pednault:如果從數據的角度來看,這些從事商業活動的客戶明白他們所收集的每個數據元素的價值。因此他們能夠適當地安排業務處理過程來確保數據的質量,並且確定營銷決策與最終效果之間的聯繫,從而建立預測模型來改進他們的過程。爲了把這些過程安排到合適位置,首先你需要理解數據價值的管理層人士,並且維持與合適的分析人員之間的聯繫,這些分析人員能夠幫助設計數據庫,以確保數據可以被正確地表述。他們付出很大的努力來收集和淨化客戶屬性數據,同時也確保數據達到足夠的數量。
Hermiz:或許是出於對本地安全的考慮,人們似乎對文本挖掘和分析又有了興趣。你認爲將來數據和文本挖掘會融合嗎?
Apte:數據挖掘和文本挖掘可能會融合到某種程度,即文本知識庫能被當作重要特徵和屬性的來源,來完成我們今天所做的某種數據挖掘。文本挖掘有其獨特的貢獻,這些貢獻集中在對文檔和知識庫的信息提取、趨勢預測以及智能評估,這使它們成爲數據挖掘的補充,但不是必須與數據挖掘相融合。
Abe:我看還是有些融合的。在自然語言學術界(會議)上,數據挖掘和機器學習技術方面的論文數量急劇增長,現在它們已經佔到論文中的大部分。當然,正如Chid Apte 所說的,文本挖掘研究的部分由將數據挖掘技術應用於提取文本特徵所組成。但是在文本挖掘研究中一個非常重要的部分包括具體的自然語言問題(例如自動獲取對分析有用的句法知識和語義知識)。
Lawrence:我已經和一些客戶談到了這些問題,他們希望同時分析結構化的數據以及來自新聞之類的非結構化數據。
Hermiz:你認爲從今往後 3 到 5 年中,數據挖掘應用的最大機會在哪裏?什麼樣的改進將使它的應用成爲可能?
Apte:我覺得,站在供應鏈的角度,大量的數據都是可獲得的,但是今天的系統和解決方案都還沒有發展到可以利用像數據挖掘這樣複雜方法的程度。它們似乎仍然停留在傳統的統計學的預測技術上。
Pednault:到了那時,將有一個很好的機會把數據挖掘、預測模型和最優化結合起來,通過把數據挖掘提升到一個更大的範圍就一定能實現這種結合。許多用在供應鏈管理上的預測方法相對於用在信用卡積分和 CRM 上的技術來說是很原始的,因此還存在許多的機會來進入這個領域。在供應鏈中,數據的重要性已經得到了認可--可以得到一個從生產商、供應商、分銷渠道,直至客戶的橫向視角。而且系統將被適當地部署,用來收集、管理和維護所有數據。然而,許多目前存在的利用數據進行決策的過程還非常落後,管理整個供應鏈已變得越來越重要。要使這一切變爲現實,需要商業處理過程的轉變和供應鏈中不同角色的合作。
Abe:人們對金融領域有着極大的興趣,它關係着可操作的恢復能力和風險管理。未來數據分析將在這些方面發揮重要的作用。
Lawrence:本地安全當然是一個人們逐漸感興趣的領域。它圍繞着非結構化數據的處理,但也需要結構化數據來從可接受或者正常的行爲中尋找異常行爲。
Apte:許多分析學正在進入生命科學-雖然這些應用從本質上說更具有科學研究的性質。有這樣一個關於隱私保護數據挖掘的話題--在隱藏了個人記錄的匿名數據上進行數據挖掘的功能。可能有一天,我們可以合法地來做這項工作了。
Hermiz:對於各個公司和組織,你建議他們採取什麼樣的步驟來爲充分利用數據挖掘的未來技術發展做更好的準備呢?
Lawrence:他們應該明確地提出一個非常清晰、技術上可行的想要達到的目標,然後修正他們的數據收集過程,以使那個目標在技術上可行
Apte:這些工作都與採用一種統一的風格適當地保護和獲得數據有關。可以通過多種形式,其中之一就是慎重考慮哪一種處理流程是我們正在尋找的能用於開發商業智能解決方案的,並且確保數據能被正確地收集,以支持這些方案。
Pednault:從數據的角度看,在你需要做出決策時及時獲取的信息,和你所做出的決定以及這個決定所導致的後果三者之間必然存在聯繫。你必須能夠在某一時刻及時地產生出對數據的正確表述,這是一個方面;另一方面就是通過適當地安排過程爲業務做準備,以利用這些結果。
三、後記
不僅僅是技術在幾個小時的討論中,沒有一個參與者提到數據挖掘技術會抑制其成功應用的問題。人們總是有很多機會發明更好、更快、更巧妙的算法,或者發現更多最佳途徑來部署這些數據挖掘程序到各種各樣的硬件和軟件基礎架構中。然而,在應用數據挖掘到現實世界商業問題時,這些團體的經驗告訴我們:要成功地運用數據挖掘挑戰在於基本功。那些能夠收集適合於待解決問題數據,並且能適當地淨化與結構化這些數據的人們,將有最好的機會通過使用數據挖掘來洞察信息;那些專注於運用數據挖掘結果的機構證明:通過他們的積極努力有效地優化了他們的過程、組織、管理以及報酬體系,他們最正確地操作這些結果並且實現了用於他們分析投資的回報。
關於數據挖掘的故事還有內容可寫。續寫這些故事的人不應該是研究機器學習和計算機科學的科學家和工程師,而應該是那些像你們這樣從事數據挖掘的實踐者們。每個公司都存在難以解決的問題和機會,但是解決這些問題可能獲得很大利益。您願意承擔(和投資)收集有用數據,並且優化調整商業處理過程這項艱鉅的工作嗎?如果您願意,技術已經成熟並且可以隨時對您提供支持。如果您不願意,那麼最好你期望你的競爭對手也會這麼認爲
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章