IBM SPSS Modeler 18.1最新版本正式發佈

IBM 數據挖掘分析平臺IBM SPSS Modeler在市場上一直佔據領導者地位，其專業性及易用性一直受到廣大用戶的喜愛，該平臺也不負衆望，我們的研發團隊一直致力於不斷的技術更新及功能的提升，最新版本IBM SPSS Modeler 18.1於2017-6-20正式發佈，該版本又給我們帶來了哪些新的功能及技術要點，我們將在本文做介紹，需要更進一步瞭解的，可以隨時與我們聯繫。

首先，該版本從3個大的方面做了增強，分別是：

接下來一一爲大家做介紹：

一、進一步增強和擴展與開源技術的集成

從IBM SPSS Modeler 16.0版本開始，就已經開始與開源平臺R與Python的集成，在最新版本中，集成力度增強。

1.新增Python編寫的功能節點

在該版本，最受關注的一個功能就是在IBM SPSS Modeler下方的面板中，新增了Python面板，並新增加了4個Python編寫的節點功能，包括【SMOTE】、【XGBoost Liner】、【XGBoost樹】以及【一類SVM】，如下圖：

接下來我們簡單介紹下這幾個節點的功能：

SMOTE

在數據分析過程中，經常會遇到數據集不平衡的問題，不平衡數據集指的是數據集內各類樣本點數目相差較大的數據集，比如做設備故障預測的時候，出現故障的設備可能只有1%，而99%的設備是正常的，這時候，數據的不平衡，如果不加以處理，會造成模型無法生成或者模型效果很差，SMOTE就是解決數據不平衡問題的高級技術，SMOTE全稱是 SyntheticMinority Over-sampling Technique，在IBM SPSS Modeler中，有【平衡】節點可以處理數據不平衡的問題，但只是簡單的對數據集進行復制或刪減，有時候效果並不好，而SMOTE對不平衡數據集進行預處理，通過利用已有樣本以及其近鄰，合成新樣本數據對少數類進行“過採樣”，效果要更好一些，並且該節點還提供SMOTE算法的提升算法，包括Borderline1-SMOTE和Borderline2-SMOTE，可最大限度解決數據不平衡的問題。

XGBoost樹和XGBoost Linear

XGBoost是使用梯度提升框架實現的高效、靈活、可移植的機器學習庫，全稱是eXtreme Gradient Boosting，在很多數據分析競賽中（比如Kaggle），該算法都被實踐證明是表現很好的算法，因此在實際應用中，推薦大家嘗試使用。

在IBM SPSS Modeler 18.1版本中，集成了XGBoost Tree和XGBoost Linear兩個算法，XGBoost Tree是將樹模型用作基本模型的梯度提升算法的高級實現。提升算法以迭代方式學習弱分類器，然後將它們添加到最終的強分類器中。XGBoost Tree 具有很高的靈活性，並提供了很多參數調整。

XGBoost Linear是將線性模型用作基本模型的梯度提升算法的高級實現。提升算法以迭代方式學習弱分類器，然後將它們添加到最終的強分類器中。

一類SVM

一類 SVM 節點使用無監督學習算法，此節點可用於新內容檢測，它將檢測指定樣本集的軟邊界，以便按是否屬於該集合對新點進行分類。

這幾個算法都是由Python語言編寫，因此在該版本中，IBM SPSS Modeler已經集成了Python 2.7環境，用戶不需要再去安裝Python環境以及IBM SPSS Modeler與Python 的集成插件，即可直接運行Python算法。

2.新增直接運行R或Python的功能節點

在該新版本中，可直接使用R或Python for Spark構建【擴展導入】、【擴展轉換】、【擴展輸出】和【擴展導出】的功能節點，如下圖：

比如在源節點中的【擴展導入】，用戶可以自由選擇使用R或Python for Spark語法實現，如果使用R，可以是任何版本的R（官方建議使用R 3.3.3）,而不像之前的18.0版本一樣，要求必須是3.2.2，而如果是Python語法，因爲已經集成了Python 2.7版本，所以用戶直接用就可以了，需要注意的是Python 2與Python 3某些語法的差別。

3.IBM SPSS Modeler 18.1已集成了Spark 2.0

當前版本已經集成了Spark 2.0,可直接利用其技術優勢加速計算運行效率。

二、與其它服務的集成

1.與優化引擎ILOG CPLEX的集成

CPLEX優化

在該版本中，新增了【CPLEX優化】節點，可以通過優化編程語言（OPL）模型文件來使用基於優化的複雜計算，來實現優化分析場景。

2.輕鬆導入天氣數據

TWC導入

天氣情況的變化越來越大程度影響着人們的行爲習慣，因此天氣數據的重要性也越來越爲人們所重視，在最新版本中，新增了TWC導入（The Weather Company）節點，這也是在IBM收購了該公司之後，將其數據資產應用於IBM SPSS Modeler分析平臺中來的一次全新嘗試。

在該節點中，您可以自由輸入需要的地理位置信息（經緯度）以及時間信息（開始日期與結束日期），即可獲取該時空的天氣數據，包括有：latitude（緯度）、longitude（經度）、time（時間）、day_ind（指示夜間或白天）、temp（溫度）、dewpt（露點）、rh（相對溼度）、heat_index（熱指數）、wc（風向）、wx_phrase（多雲、少雲等）、pressure（氣壓）、clds（雲）、vis（能見度）、wspd（風速）、gust（陣風/雨）、wdir（風寒指數）、uv_index（紫外線指數）等。

當然，天氣數據作爲數據資產，不是免費使用，是需要購買許可證密鑰的。

3.支持更多的數據源/Hadoop分佈式文件系統

新版本新增更多的數據源連接，包括如下：

·Apache Hive 1.2.1 including SQLoptimization

·Cloudera Impala

·Hortonworks HDP 2.5 datathrough BigSQL

·IBM Biginsights for ApacheHadoop

·MapR

·Huawei Fusion Insight on RedHat 7

·Non-wire driver for Oracle andOracle ODBC drivers are now supported

·PostgreSQL

·HP Vertica now supports SQLoptimization

三、激發分析潛能

1.文本分析功能的增強

IBM SPSS Modeler提供的文本分析可以連接不同數據源，如下圖，主要包括文件、網頁、文本等。

提供的文本分析功能支持多種語言,包括英語、荷蘭語、法語、德語、意大利語、葡萄牙語、西班牙語等，除了提供基本語言包之外，還提供針對不同語言，多種應用場景的詞庫包，可滿足不同應用場景的文本分析，比如客戶關係管理、滿意度分析、品牌管理、客戶關懷、欺詐分析等，客戶只需要在原來的詞庫基礎上，做些簡單的調整修改即可直接使用。

語言

新版本中，增加了【語言】節點，可針對文本中存在多種語言的語言識別及分析。

2.增強 Hadoop分佈式系統上運行的算法性能

主要包括幾個方面的性能提升：

1.優化了AS Spark Cache的管理：在一個Job中儘可能的重用了緩存的數據，並且在不再需要時繼續清除cache；

2.支持使用Spark的資源動態分配機制：允許AS在需要時申請更多的資源，使用完畢後及時釋放；

3.優化了AS的內部執行流程，儘量的降低磁盤和網絡傳輸的IO操作；

4.在Hive寬表或者Hive Metastore非常龐大的情況下，改善了在AS管理頁面上創建HCatalog類型的數據源時的性能。

3.自動保存功能

爲了防止由於突然宕機造成的文件未保存的情況，默認情況下，系統自動5分鐘保存一次，可以工具-->選項-->系統選項中更改。

4.靈活的功能節點模式設置

爲了更好地區分哪些功能節點運行於Hadoop分佈式文件系統上，哪些運行於傳統關係型數據庫或文本文件上，用戶可以在工具-->選項-->用戶選項的【方式】面板中，選擇【傳統模式】或者是【Analytic Server方式】，如果是前者，則所有功能節點都顯示出來，如果選擇的是後者，則只顯示能夠在Hadoop平臺上運行的功能節點，這樣可以避免在使用Hadoop數據源時候，搞不清楚哪些節點能夠運行，哪些節點不能夠運行的情況出現。

5.增強某些節點的功能

比如：

【轉置】節點增加了轉置方法選項，可以更靈活地處理數據。

【時間序列】節點增加了算法選項

以上就是IBM SPSS Modeler 18.1最新版本的功能介紹，感興趣的朋友，可點擊下方的鏈接在我們的官網上下載最新試用版。

最新試用版下載：https://www.evget.com/product/3729/download

IBM SPSS Modeler 18.1最新版本正式發佈 | 附下載

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

vue3編譯優化之“靜態提升”

又是一個月-20240513

IBM SPSS Statistics Subscription新版本發佈

精心整理 | 大數據體系知識術語

紐約時報 | 一個機器人導致六名工人失業，工資下降四分之三

深入分析 BI 數據可視化市場 SaaS 模式

從自動駕駛到機器學習：解讀2017科技發展的15大趨勢

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結