Orange數據挖掘工具介紹

Orange3 使用
一、Orange3數據挖掘工具的介紹
       官方網址:https://orange.biolab.si/
       正如首頁介紹的那樣:它是一個面向新手和專家的開源的機器學習和數據可視化工具,帶有很多用於數據挖掘或機器學習模型的交互式數據分析工作流程;另外,它綁定了Python語言進行腳本開發。包含一系列數據挖掘流程的組件,比如數據預處理,建模,模型評估以及可視化。
       數據預處理主要包括:數據合併(將兩個不同數據集的指定特徵合併爲同一數據集);數據採樣,數據異常點去除以及相關性檢驗(協方差),rank以及置亂等
       模型主要包括:CN2規則歸納,k近鄰,決策樹,隨機森林,支持向量機,線性迴歸,邏輯迴歸,樸素貝葉斯,adaboost,神經網絡,隨機梯度下降等
        無監督模型有:距離矩陣,t-SNE,層次聚類,K-means,louvain聚類,PCA,MDS等
        另外,還支持文本分析,詞雲可視化等
        模型評估主要有:交叉檢驗,混淆矩陣,ROC曲線,lift曲線等
二、Orange get started
    1.官網下載最新版本Orange並安裝(沒有其他複雜操作,直接下一步即可,若想修改安裝位置可自定義修改)
       說明:Orange自帶最新或最近版本的Python環境,對於複雜的數據集,若Orange自帶組件處理不便時,通常先將文件數據連接至<Python Script>,通過Python處理後再轉換成Orange.Tabel()形式進行後續操作,具體的使用Python進行處理的方法及代碼可參考官方文檔:
http://docs.orange.biolab.si/3/data-mining-library/tutorial/data.html
       另外,該文檔還包括一系列使用Python(Orange)進行數據挖掘的一系列編程教程。想要深入瞭解並掌握Orange Python進行數據挖掘需要花時間仔細閱讀並聯系,這裏不再贅述。【當然,如果你已經安裝了Python3以上版本,你也可以直接pip install Orange3使用Python shell進行編程(前提是你已經對Orange的數據結構及相關函數比較熟悉),官方文檔:http://docs.orange.biolab.si/3/data-mining-library/#tutorial
    2.Orange軟件的使用
    準備工作:
    (1)添加附加組件:你需要在Options中找到Add-ons


    
  

點擊後會彈出下圖所示窗口,

其中Filter欄是Orange自帶的部分組件(打對勾的爲已下載,可根據需要自行下載);如果想安裝其他組件,可如下圖所示點擊Add more,輸入要下載的包名【類似Python pycharm添加Python包的步驟】

    (2)對於Orange的簡單操作,官方文檔:https://orange.biolab.si/getting-started/,給出了許多數據挖掘分析的一些例子,具體的可以在打開Orange3軟件後,彈出如下圖所示面板,點擊Examples,

    3.細節描述


   
    如上圖所示,SQL Table爲連接數據庫的組件,但對於首次安裝Orange的用戶,點擊後,右側欄中該圖標會出現紅色三角符號,點擊會提示錯誤,please install a backend to use this widget,即缺少SQL的編譯器【Orange只支持PostgreSQL和SQL Server兩種數據庫】
    這裏重點說明一下Orange連接PostgreSQL數據庫的操作:
    (1)首先,需要下載PostgreSQL的配置文件psycopg2
        這裏給出解決辦法,https://blog.biolab.si/2018/02/16/how-to-enable-sql-widget-in-orange/
        這裏爲Python3.6版本,也可去https://pypi.org/搜索psycopg2找到對應版本下載
        MacOS下載
        https://pypi.python.org/packages/8c/a5/0e61d6f4a140a6e06a9ba40266c4b49123d834f1f97fe9a5ae0b6e45112b/psycopg2-2.7.4-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl#md5=1f2b2137c65dc50c16b341774cd822eb
        Windows下載:https://pypi.python.org/packages/f9/77/e29b792740ddec37a2d49431efa6c707cf3869c0cc7f28c7411bb6e96d91/psycopg2-2.7.4-cp36-cp36m-win_amd64.whl#md5=119eb3ab86ea8486ab10ef4ea3f67f15
        Linux下載:https://pypi.python.org/packages/92/15/92b5c363243376ce9cb879bbec561bba196694eb663a6937b4cb967e230e/psycopg2-2.7.4-cp36-cp36m-manylinux1_x86_64.whl#md5=8288ce1eedf0b70e5f1d8c982fad5a41
    (2)下載完成後,打開上述Add-ons,將該.whl文件拖拉至組件欄中,會看到Psycopg已經安裝,此時SQL widget依然不能使用,因爲還未安裝PostGreSQL數據庫,
    下載地址爲:https://www.postgresql.org/,下載對應系統的版本並安裝,安裝的過程與MySQL類似,需要編輯用戶名和密碼(務必記住),另外,對於PostgreSQL的界面化管理工具可選用最近版本的Navicate Premium,另外,PostgreSQL是一款強大的開源數據庫,想要詳細瞭解可查閱:http://www.postgresqltutorial.com/,或搜索相關博客。
    反之,你只想簡單的用作連接Orange的插件,則在Navicate Premium中可直接將MySQL數據庫中的表直接拖拽複製到PostgreSQL數據庫中,
【注:直接將不屬於PostgreSQL的數據庫文件導入PostgreSQL會報錯(比如:ERROR: unrecognized configuration parameter "foreign_key_checks" , Time: 0.0,因爲不同數據庫存儲數據的格式,結構不同)】
如下圖所示,

 然後,選擇Copy Here(Structure and Data),彈出下圖(右)所示界面,點擊next。。。


當然,也可使用同樣的方法將PostgreSQL中的表複製到MySQL中。
到此,準備工作基本完成。
對於每個組件的使用,可參考官方文檔http://docs.biolab.si/3/visual-programming/index.html。也
可點擊工具後,點擊‘?’號,如下圖所示


下面是Python Script在整個項目中的大致位置。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章