【資源分享】玩轉大數據:深入淺出大數據挖掘技術(Apriori算法、Tanagra工具、決策樹)

【資源分享】玩轉大數據:深入淺出大數據挖掘技術(Apriori算法、Tanagra工具、決策樹)
課程講師:艾倫
課程分類:.Net
適合人羣:中級
課時數量:10課時
更新程度:完畢
服務類型:C類(普通服務類課程)
用到技術:C#、SQLServer
涉及項目:數據挖掘軟件開發

對這門課程感興趣的可以聯繫 Q2748165793

 

一、本課程是怎麼樣的一門課程(全面介紹)

 

 
1.1、課程的背景
 
        “大數據”作爲時下最火熱的IT行業的詞彙,隨之而來的數據倉庫、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成爲行業人士爭相追捧的利潤焦點。 “大數據” 其實離我們的生活並不遙遠,大到微博的海量用戶信息,小到一個小區超市的月銷售清單,都蘊含着大量潛在的商業價值。
正是由於數據量的快速增長,並且已經遠遠超過了人們的數據分析能力。因此,科學、商用等領域都迫切需要智能化、自動化的數據分析工具。在這樣的背景下,數據挖掘技術應用而生,使得海量數據的分析變得易如反掌。
 
 
 1.2、課程內容簡介
 
        本課程名爲深入淺出數據挖掘技術。所謂“深入”,指得是從數據挖掘的原理與經典算法入手。其一是要了解算法,知道什麼場景應當應用什麼樣的方法;其二是學習算法的經典思想,可以將它應用到其他的實際項目之中;其三是理解算法,讓數據挖掘的算法能夠應用到您的項目開發之中去。所謂“淺出”,指得是將數據挖掘算法的應用落實到實際的應用中。課程會通過三個不同的方面來講解算法的應用:一是微軟公司的SQL Server與Excel等工具實現的數據挖掘;二是著名開源算法的數據挖掘,如Weka、KNIMA、Tanagra等開源工具;三是利用C#語言做演示來完成數據挖掘算法的實現。
        根據實際的引用場景,數據挖掘技術通常分爲分類器、關聯分析、聚類算法等三大類別。本課程主要介紹這三大算法的經典思想以及部分著名的實現形式,並結合一些商業分析工具、開源工具或編程等方式來講解具體的應用方法。
 
 
1.3、課程大綱
 
        1)     數據挖掘概述與數據
            本章講解了數據挖掘技術的起源、應用場景以及基本的處理方法,並對於數據集、數據等基本的概念做了闡釋。
 
        2)    可視化與多維數據分析(實踐課)
            本章講解了數據可視化的基本方法,並分別演示了Excel數據透視表與SQL Server Analysis Service對於多維數據的可視化處理。(OLAP)
 
        3)    分類器與決策樹
            本章講解了分類器的基本概念與應用方法,並具體分析了分類器經典算法之一決策樹的實現方法。
 
        4)    其他分類器(上)
            本章講解了另外兩種經典的分類器算法:基於規則的分類器與基於距離的分類器。
 
        5)    其他分類器(下)
            本章講解了其他一些常見的分類器算法,如基於距離的分類器的改良算法、貝葉斯分類器、人工神經網絡、支持向量機與組合方法等。
 
        6)    決策樹的應用(實踐課)
            本章演示了利用Weka Explorer、KNIME、Tanagra等開源工具進行的數據挖掘處理。演示中對比了幾類數據挖掘算法,如Cart決策樹、C4.5決策樹、KNIME決策樹、簡單貝葉斯分類、組合方法(裝袋)、人工神經網絡、基於規則的分類等。
 
        7)    關聯分析
            本章講解了關聯分析的常見算法,即Apriori算法與FP增長算法。
 
        8)    購物車數據分析(實踐課)
            本章主要演示了利用微軟的解決方案來進行購物車數據的關聯分析,包括SQL Service Analysis Service的關聯分析與Excel結合SSAS外接程序等方法。最後還利用Weka KnowledgeFlow工具來進行關聯分析,以便對比第六章的實踐。
 
        9)    聚類算法
            本章講解了聚類算法的基本原理與常見算法,包含K均值算法、層次聚類、基於密度的聚類算法。
 
        10)     聚類算法C#源代碼實現(實踐課)
            本章演示如何通過C#源代碼實現聚類算法。
 
 
 
1.5、講師介紹
        艾倫:世界500強頂級企業2年雲計算工作經驗,擁有多年的開發經歷,擅長SQL Server數據庫並對數據處理有一定的研究,同時也有許多C/C++、C#、Jquery等網頁與桌面應用開發經驗。
 
 
 
 
二、爲什麼需要這麼套課程?   
 
 
2.1、企業需要什麼?
 
        數據挖掘是一門比較新的技術,而數據挖掘的需求並沒有完全的挖掘出來。在這樣的情形下,我們依然看到很多企業對這樣的新技術有着強烈的需求。
(說明:以下企業需求職位均來自於51job.)
 
        職位1、數據庫工程師
 
 
        職位2、軟件開發工程師
 
 
        職位3、市場分析員
 
更多企業招聘信息請參考:www.51job.com
 
 
2.2、課程學習目標(我們提供什麼?)
 
        目標一. 可以讓學員瞭解與理解主要的數據挖掘技術。
 
        目標二. 可以讓學員迅速掌握各類數據挖掘技術的應用場景。
 
        目標三. 可以讓學員迅速掌握常見的數據挖掘工具的使用方法。
 
        目標四. 可以讓有一定基礎的學員對數據挖掘的代碼實現入門。
 
 
2.3、課程特色
 
        特點一、講師講求深入淺出,從理論、原理出現但是會迴歸到實際的應用。既照顧到希望提高理解與認識的學員,也照顧到關注實踐應用的學員。
 
        特點二、實踐應用各有側重,會從幾種不同風格的軟件或工具入手來演示。如主流軟件公司的數據挖掘產品(微軟公司的SQL Service Analysis Service)、開源軟件與工具(Weka、KNIME、Tanagra)以及挖掘算法通過C#代碼的實現。充分照顧到學員對於應用軟件的偏好。
 
        特點三、學習的過程中理論和實踐相結合,案例數據具備一定的代表性。並且課程提供所有的案例數據供學員自行修改和調試,以鞏固加深學習效果
 
 
2.4、課程亮點
 
        亮點一、數據挖掘本身就是前沿的技術,中文的教材、課程數量非常少,如此的課程在國內也不常見。
 
        亮點二、理論與實戰相結合,深入淺出。即照顧到基礎學員,又照顧到有一定經驗的學員,即講解細緻,又一針見血,對技術絕不含糊。
 
        亮點三、代碼的實現是一行一行手工敲入,手把手一步步帶領學員從入門到精通。
 
        亮點四、實踐演示涉及到的軟件、工具數目衆多,照顧不同使用習慣的學員。
 
        亮點五、整個課程雖短,但“麻雀雖小,五臟倶全”。講解過程節奏緊湊且內容充實。
 
 
3.課程真心不錯,我可以學嗎?
 
        本課程會涉及到不少數據挖掘的算法。爲了更好地理解算法,建議學員可以有一定的基本算法的基礎。除了SQL Service Analysis Service的應用實踐,大部分的演示都避免了使用數據庫來導入數據,因此對於數據庫的知識沒有特別要求。若學員希望理解最後一章的代碼實現,需要具備C#的基本知識。
 
        1、    學習基本算法在Java的實現,推薦您學習
            http://www.***/goods.php?id=329
 
        2、    學習基本算法在C#的實現,推薦您學習
            http://www.***/goods.php?id=69
 
        3、    學習C#的基本知識,推薦您學習
            http://www.***/goods.php?id=7
 
 
4.我該怎麼學,如何才能學好這門課程,給些建議。
 
        4.1、時間上的安排建議
            本課程共10講,由於內容比較緊湊,建議每天一講,深入理解課程內容。
 
        4.2、學習要求
            建議按照課程進度仔細觀看學習,並利用課程的測試數據在相應的軟件或工具中自己實踐一遍。(由於版權原因,Excel、SQL Server與Visual Studio未提供下載地址,但其他開源軟件均提供了下載地址)
            如果您有基礎,建議學習算法後可以嘗試利用代碼實現算法,並學會舉一反三
 
        4.3、講師建議(講師給學員的建議)
 
建議:
        1.最好看完視頻之後,拋開視頻,仔細想想每個算法的原理與思想;若記憶不深刻,可以回過頭看再看下視頻,如此反覆,達到真正理解和熟練掌握的目的。
 
        2.對於項目實戰部分,一定要自己親自動手做一遍,不要聽完就結束。
 
        3.很多知識在開源社區中都有不同的見解,要學會使用搜索引擎,多逛逛相關社區。
 
        4.最後祝您學有所成。
 
 
5.學完這門課程後能做什麼?
 
學會該課程後,嘗試着問自己幾個問題:
 
        1.    在您的生活中、工作中是否有尚未開發的數據?
 
        2.    那些尚未開發的數據與數據挖掘哪一個模型能夠匹配?
 
        3.    能否嘗試使用數據挖掘的方法來發現一些潛在的規律?
 
        本課程是針對數據、數據分析與挖掘方向,可以幫助您學會數據挖掘的思想,並不限定於某個特定的專業技術。掌握該技術後,一定能使您對於自己的業務數據的分析方法與能力更上一層樓。
 
6.  學員常見問題:
 
        常見問題一:學習該教程會使用哪些軟件?軟件有沒有隨教程提供,沒有提供的話,軟件的的下載地址,及他們所使用的版本如何?
        講師回答:本課程的軟件分爲兩個部分:
 
                           第一個部分是微軟公司的Office Excel、SQL Server Analysis Service(SSAS)、Visual Studio。Visual Studio主要用於演示層次聚類算法的C#實現,並不限制於特定的版本。Excel與SQL Server結合所需的版本如下:
               Excel 2007與SQL Server 2005
               Excel 2007與SQL Server 2008
               Excel 2010與SQL Server 2012
 
                          第二部分是一些開源軟件與工具,課程中會提供工具下載的鏈接。
 
        常見問題二:學這個課程需要什麼基礎?
        講師回答:適合對數據分析有興趣的學員。建議對基本算法、數據庫等知識有一定了解。開源軟件與工具界面爲英文,主要以單詞爲主,對英文沒有特別要求。
 
        常見問題三:這種技術一般可用在什麼場合?
        講師回答:本數據是數據分析領域的一個技術點,不是一個特定的工具。首先,數據分析與挖掘的思想可以借鑑到生活中或者工作中的任意數據分析場景;其次,分析與挖掘的方法可以廣泛用於市場定位、客戶關係分析、項目開發等領域。掌握它後可以讓你對數據的把控能力更得心應手,前(錢)途無限。
 
        常見問題四:學完這項技術可以從事的工作崗位有哪些?
        講師回答:越來越多的企業開始進入了大數據的潮流。主要的職位是數據分析專員與數據挖掘工程師,但是很多工作崗位都將數據挖掘作爲選拔人才的加分項。相信未來數據挖掘的重要性會隨着互聯網、雲計算的發展進一步地增加。
 
可以從事的崗位非常多:如:
數據庫工程師、軟件開發工程師、市場分析專員

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章