IBM SPSS Modeler 18.1最新版本正式發佈 | 附下載

IBM 數據挖掘分析平臺IBM SPSS Modeler在市場上一直佔據領導者地位,其專業性及易用性一直受到廣大用戶的喜愛,該平臺也不負衆望,我們的研發團隊一直致力於不斷的技術更新及功能的提升,最新版本IBM SPSS Modeler 18.1於2017-6-20正式發佈,該版本又給我們帶來了哪些新的功能及技術要點,我們將在本文做介紹,需要更進一步瞭解的,可以隨時與我們聯繫。

首先,該版本從3個大的方面做了增強,分別是:

spss

接下來一一爲大家做介紹:

一、進一步增強和擴展與開源技術的集成

從IBM SPSS Modeler 16.0版本開始,就已經開始與開源平臺R與Python的集成,在最新版本中,集成力度增強。

1.新增Python編寫的功能節點

 

在該版本,最受關注的一個功能就是在IBM SPSS Modeler下方的面板中,新增了Python面板,並新增加了4個Python編寫的節點功能,包括【SMOTE】、【XGBoost Liner】、【XGBoost樹】以及【一類SVM】,如下圖:

spss

接下來我們簡單介紹下這幾個節點的功能:

  • SMOTE

spss

在數據分析過程中,經常會遇到數據集不平衡的問題,不平衡數據集指的是數據集內各類樣本點數目相差較大的數據集,比如做設備故障預測的時候,出現故障的設備可能只有1%,而99%的設備是正常的,這時候,數據的不平衡,如果不加以處理,會造成模型無法生成或者模型效果很差,SMOTE就是解決數據不平衡問題的高級技術,SMOTE全稱是 SyntheticMinority Over-sampling Technique, 在IBM SPSS Modeler中,有【平衡】節點可以處理數據不平衡的問題,但只是簡單的對數據集進行復制或刪減,有時候效果並不好,而SMOTE對不平衡數據集進行預處理,通過利用已有樣本以及其近鄰,合成新樣本數據對少數類進行“過採樣”,效果要更好一些,並且該節點還提供SMOTE算法的提升算法,包括Borderline1-SMOTE和Borderline2-SMOTE,可最大限度解決數據不平衡的問題。

spss
  • XGBoost樹和XGBoost Linear

spss

XGBoost是使用梯度提升框架實現的高效、靈活、可移植的機器學習庫,全稱是eXtreme Gradient Boosting,在很多數據分析競賽中(比如Kaggle),該算法都被實踐證明是表現很好的算法,因此在實際應用中,推薦大家嘗試使用。

在IBM SPSS Modeler 18.1版本中,集成了XGBoost Tree和XGBoost Linear兩個算法,XGBoost Tree是將樹模型用作基本模型的梯度提升算法的高級實現。提升算法以迭代方式學習弱分類器,然後將它們添加到最終的強分類器中。XGBoost Tree 具有很高的靈活性,並提供了很多參數調整。

XGBoost Linear是將線性模型用作基本模型的梯度提升算法的高級實現。提升算法以迭代方式學習弱分類器,然後將它們添加到最終的強分類器中。

  • 一類SVM

spss

一類 SVM 節點使用無監督學習算法,此節點可用於新內容檢測,它將檢測指定樣本集的軟邊界,以便按是否屬於該集合對新點進行分類。

這幾個算法都是由Python語言編寫,因此在該版本中,IBM SPSS Modeler已經集成了Python 2.7環境,用戶不需要再去安裝Python環境以及IBM SPSS Modeler與Python 的集成插件,即可直接運行Python算法。

2.新增直接運行R或Python的功能節點

在該新版本中,可直接使用R或Python for Spark構建【擴展導入】、【擴展轉換】、【擴展輸出】和【擴展導出】的功能節點,如下圖:

spss

比如在源節點中的【擴展導入】,用戶可以自由選擇使用R或Python for Spark語法實現,如果使用R,可以是任何版本的R(官方建議使用R 3.3.3),而不像之前的18.0版本一樣,要求必須是3.2.2,而如果是Python語法,因爲已經集成了Python 2.7版本,所以用戶直接用就可以了,需要注意的是Python 2與Python 3某些語法的差別。

spss

3.IBM SPSS Modeler 18.1已集成了Spark 2.0

當前版本已經集成了Spark 2.0,可直接利用其技術優勢加速計算運行效率。

二、與其它服務的集成

1.與優化引擎ILOG CPLEX的集成

  • CPLEX優化

spss

在該版本中,新增了【CPLEX優化】節點,可以通過優化編程語言(OPL)模型文件來使用基於優化的複雜計算,來實現優化分析場景。

2.輕鬆導入天氣數據

  • TWC導入

spss

天氣情況的變化越來越大程度影響着人們的行爲習慣,因此天氣數據的重要性也越來越爲人們所重視,在最新版本中,新增了TWC導入(The Weather Company)節點,這也是在IBM收購了該公司之後,將其數據資產應用於IBM SPSS Modeler分析平臺中來的一次全新嘗試。

在該節點中,您可以自由輸入需要的地理位置信息(經緯度)以及時間信息(開始日期與結束日期),即可獲取該時空的天氣數據,包括有:latitude(緯度)、longitude(經度)、time(時間)、day_ind(指示夜間或白天)、temp(溫度)、dewpt(露點)、rh(相對溼度)、heat_index(熱指數)、wc(風向)、wx_phrase(多雲、少雲等)、pressure(氣壓)、clds(雲)、vis(能見度)、wspd(風速)、gust(陣風/雨)、wdir(風寒指數)、uv_index(紫外線指數)等。

spss

當然,天氣數據作爲數據資產,不是免費使用,是需要購買許可證密鑰的。

3.支持更多的數據源/Hadoop分佈式文件系統

新版本新增更多的數據源連接,包括如下:

·Apache Hive 1.2.1 including SQLoptimization

·Cloudera Impala

·Hortonworks HDP 2.5 datathrough BigSQL

·IBM Biginsights for ApacheHadoop

·MapR

·Huawei Fusion Insight on RedHat 7

·Non-wire driver for Oracle andOracle ODBC drivers are now supported

·PostgreSQL

·HP Vertica now supports SQLoptimization

三、激發分析潛能

1.文本分析功能的增強

IBM SPSS Modeler提供的文本分析可以連接不同數據源,如下圖,主要包括文件、網頁、文本等。

spss

提供的文本分析功能支持多種語言,包括英語、荷蘭語、法語、德語、意大利語、葡萄牙語、西班牙語等,除了提供基本語言包之外,還提供針對不同語言,多種應用場景的詞庫包,可滿足不同應用場景的文本分析,比如客戶關係管理、滿意度分析、品牌管理、客戶關懷、欺詐分析等,客戶只需要在原來的詞庫基礎上,做些簡單的調整修改即可直接使用。

spss
  • 語言

spss

新版本中,增加了【語言】節點,可針對文本中存在多種語言的語言識別及分析。

spss

2.增強 Hadoop分佈式系統上運行的算法性能

主要包括幾個方面的性能提升:

1.優化了AS Spark Cache的管理:在一個Job中儘可能的重用了緩存的數據,並且在不再需要時繼續清除cache;

2.支持使用Spark的資源動態分配機制:允許AS在需要時申請更多的資源,使用完畢後及時釋放;

3.優化了AS的內部執行流程,儘量的降低磁盤和網絡傳輸的IO操作;

4.在Hive寬表或者Hive Metastore非常龐大的情況下,改善了在AS管理頁面上創建HCatalog類型的數據源時的性能。

3.自動保存功能

爲了防止由於突然宕機造成的文件未保存的情況,默認情況下,系統自動5分鐘保存一次,可以工具-->選項-->系統選項中更改。

spss

4.靈活的功能節點模式設置

爲了更好地區分哪些功能節點運行於Hadoop分佈式文件系統上,哪些運行於傳統關係型數據庫或文本文件上,用戶可以在工具-->選項-->用戶選項的【方式】面板中,選擇【傳統模式】或者是【Analytic Server方式】,如果是前者,則所有功能節點都顯示出來,如果選擇的是後者,則只顯示能夠在Hadoop平臺上運行的功能節點,這樣可以避免在使用Hadoop數據源時候,搞不清楚哪些節點能夠運行,哪些節點不能夠運行的情況出現。

spss

5.增強某些節點的功能

比如:

【轉置】節點增加了轉置方法選項,可以更靈活地處理數據。

spss

【時間序列】節點增加了算法選項

spss

以上就是IBM SPSS Modeler 18.1最新版本的功能介紹,感興趣的朋友,可點擊下方的鏈接在我們的官網上下載最新試用版。

最新試用版下載:https://www.evget.com/product/3729/download

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章