數據挖掘與其商務智能上的應用的實驗報告

數據挖掘與其商務智能上的應用

內容摘要:數據挖掘是商務智能技術的重要組成部分,是一個新的重要的研究領域。本文介紹了商務智能技術應用現狀和組成,數據挖掘的發展及現狀分析,數據挖掘在現代商務智能上的應用,以及數據挖掘的過程。
關鍵詞:商務智能 數據挖掘 數據分析

 

1.數據挖掘的定義

數據挖掘(Data Mining),就是從大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。數據挖掘的廣義觀點:數據挖掘就是從存放在數據庫,數據倉庫或其他信息庫中的大量的數據中挖掘有趣知識的過程。數據挖掘,又稱爲數據庫中知識發現(Knowledge Discovery in Database, KDD) 也有人把數據挖掘視爲數據庫中知識發現過程的一個基本步驟。

數據挖掘一般由以下幾個步驟組成:(1)數據清理,(2)數據集成,(3)數據選擇,(4)數據變換,(5)數據挖掘,(6)模式評估,(7)知識表示。

 

2.數據挖掘的發展

數據挖掘的發展是隨着現代信息的大爆炸而產生的,衆所周知的,現代社會是一個信息急劇產生的時代,每一天都有大量的數據產生,要從這些大量的數據之中找出我們想要的知識,那就需要用到數據挖掘的技術。

數據挖掘的發展速度是很快的,數據挖掘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2) 人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數據挖掘也接納了很多來自其他領域的思想。並且這些思想爲數據挖掘奠定了堅實的基礎。起到了很好的支撐作用。這些都爲數據挖掘的發展奠定了很堅實的基礎。

 

3.數據挖掘的現狀分析

數據挖掘從誕生到現在不過十多年的時間,在這短短的十幾年裏,它吸引了各個行業的研究人員、工業界人士的興趣。目前,它已成爲最近幾年對人類生活影響最大的幾項IT技術之一。在產業界,涌現出許多新興的數據挖掘相關產品供應商,數據挖掘的應用已取得初步的成功。隨着人們對信息的重視程度不斷加深,數據挖掘的前途必將是光明的。

數據挖掘在我國的應用大多還處在初級階段,也就是數據分析的時代。而在國外已經發展到了高級的數據挖掘的時代。傳統的報表在廣泛的使用,但是隨着數據量的增加,報表越來越不能滿足企業對於數據的分析需求。它面臨這幾個問題,(1.數據太多,而信息太少。(2.難以交互分析,瞭解各種組合。(3. 難以挖掘出潛在的規則。(4. 難以追溯歷史,數據形成孤島。值得注意的是,數據分析和數據挖掘系統的目的是帶給我們更多的決策支持價值,並不是取代數據報表。報表系統依然有其不可取代的優勢,並且將會長期與數據分析、挖掘系統一起並存下去。

 

4.商務智能現狀簡介

        我國加入了WTO,在許多領域,如金融、保險、物流等領域將逐步對外開放,這就意味着許多的企業將面臨來自國際大型跨國物流公司的巨大競爭壓力。國外發達國家各種企業採用商務智能的水平已經遠遠超過了我國。美國Palo Alto 管理集團公司1999年對歐洲、北美和日本375家大中型企業的商務智能技術的採用情況進行了調查。結果顯示,在金融領域,商務智能技術的應用水平已經達到或接近70%,在營銷領域也達到50%,並且在其他應用領域對該技術的採納水平都提高約50%。現在,幾乎所有的企業都把數據看成寶貴的財富,紛紛利用商務智能發現其中隱藏的信息,以爲公司的發展提供重要的數據支持,和理論應道。
    IDC對歐洲和北美62家採用了商務智能技術的企業的調查分析發現,這些企業的3年平均投資回報率爲401%,其中25%的企業的投資回報率超過600%。調查結果還顯示,一個企業要想在複雜的環境中獲得成功,高層管理者必須能夠控制極其複雜的商業結構,若沒有詳實的事實和數據支持,是很難辦到的。因此,隨着數據挖掘技術的不斷改進和日益成熟,它必將被更多的企業所採用,使更多的企業管理者得到更多的商務智能,更加充分的應用公司現有的寶貴的數據財富,爲公司創造出更多的財富。

   

5.將數據挖掘應用到商務智能

     數據挖掘應用在商務智能上的企業一般都應該具備下列幾個特點:

1)大量的顧客;這樣才能產生足夠多的可供分析的數據。

2)非常激烈的競爭並有差異化的需要;這些行業一般提供的都是差異化很小的產品,同時行業內的競爭又非常激烈,從而使差異化的服務成爲企業必然選擇。

3)能容易地收集到大量的電子數據。這些行業一般都有較完善的電子交易記錄系統,可以很方便的收集到大量的電子交易數據。

      廣義上說,任何從數據庫中挖掘信息的過程都叫做數據挖掘。從這點看來,數據挖掘就是BI。但從技術術語上說,數據挖掘(Data Mining)特指的是:源數據經過清洗和轉換等成爲適合於挖掘的數據集。數據挖掘在這種具有固定形式的數據集上完成知識的提煉,最後以合適的知識模式用於進一步分析決策工作。從這種狹義的觀點上,我們可以定義:數據挖掘是從特定形式的數據集中提煉知識的過程。數據挖掘往往針對特定的數據、特定的問題,選擇一種或者多種挖掘算法,找到數據下面隱藏的規律,這些規律往往被用來預測、支持決策。

         數據挖掘橫向上可以分爲在直銷、爭取客戶、保留客戶、交叉銷售和趨勢分析、欺詐甄別等。在縱向上可以分爲以下幾個領域的應用:

數據挖掘在金融分析裏面得到了很廣泛的應用,由於金融投資的風險很大,在進行投資決策時,更需要通過對各種投資方向的有關數據進行分析,以選擇最佳的投資方向。目前國內有很多進行股票分析的軟件,並且定期有專家進行股票交易預測,這些人工的預測一般是根據自己的經驗再通過對已有的股票數據的分析而得到的,由於是人工處理,很難對更大量的股市數據進行分析。無論是投資評估還是股票市場預測,都是對事物發展的一種預測,而且是建立在對數據的分析基礎之上的。數據挖掘可以通過對已有數據的處理,找到數據對象之間的關係,然後利用學習得到的模式進行合理的預測。這方面的系統有Fidelity Stock Sele ctor,LBS Capital Management。前者的任務是使用神經網絡模型選擇投資,後者則使用了專家系統、神經網絡和基因算法技術來輔助管理多達6億美元的有價證券。

 

6.數據挖掘的流程 

1)問題定義:瞭解相關領域的有關情況,熟悉背景知識,弄清用戶要求。定義要挖掘的目標。

2)數據提取:根據要求從數據庫中提取相關的數據。

3)數據預處理:主要對前一階段產生的數據進行再加工,檢查數據的完整性及數據的一致性,對其中的噪音數據進行處理,對丟失的數據進行填補.

4 知識提取:運用選定的數據挖掘的算法,從數據中提取用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式。

5 評估:將發現的知識以用戶能理解的方式呈現,如某種規則,再根據實際執行情況對知識發現過程中的具體處理階段進行優化,直到滿足用戶要求.

 

7.結論分析

實踐表明,由於人工智能發展的侷限性,計算機在未來相當長的一段時期內是不可能像人類這樣會進行復雜的思考,它只會按照人的指令工作。但是,計算機擁有海量的數據存儲能力和超強的計算能力,所以,只要我們建立合適的業務模型,設計完善的執行程序,選擇正確的分析算法,它一定可以更好的爲我們服務。

數據挖掘技術是一個年輕且充滿希望的研究領域,利益的強大驅動力將會不停地促進它的發展。每年都有新的數據挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。儘管如此,數據挖掘技術仍然面臨着許多問題和挑戰:如數據挖掘方法的效率亟待提高,尤其是超大規模數據集中數據挖掘的效率;開發適應多數據類型的挖掘方法,以解決異質數據集的數據挖掘問題;動態數據和知識的數據挖掘;網絡與分佈式環境下的數據挖掘等。

 

參考資料:

http://blog.csdn.net/lee_eric/archive/2006/10/03/1319389.aspx

http://tech.it168.com/a2009/0218/265/000000265763_2.shtml

http://tech.it168.com/a2009/0218/265/000000265763_2.shtml

http://www.topoint.com.cn/html/article/2007/08/196326.html

http://www.amteam.org/k/BI/2002-7/448300.html

http://baike.baidu.com/view/7893.htm

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章