大數據挖掘與分析平臺
整體解決方案
建設背景
2017年1月
工業和信息化部正式發佈了《大數據產業發展規劃(2016-2020年)》,明確了“十三五”時期大數據產業的發展思路、原則和目標,將引導大數據產業持續健康發展,有力支撐製造強國和網絡強國建設。
2018年9月
工信部公示“2018年大數據產業發展試點示範項目名單”,公佈了包括大數據存儲管理、大數據分析挖掘、大數據安全保障、產業創新大數據應用、跨行業大數據融合應用、民生服務大數據應用、大數據測試評估、大數據重點標準研製及應用、政務數據共享開放平臺及公共數據共享開放平臺等10個方向200個項目。
2019年11月
爲進一步落實《國務院關於印發促進大數據發展行動綱要的通知》和《大數據產業發展規劃(2016~2020年)》,推進實施國家大數據戰略,務實推動大數據技術、產業創新發展,我國工業和信息化部將組織開展2020年大數據產業發展試點示範項目申報工作。
據IDC分析報道,中國互聯網企業,到電信、金融、政府這樣的傳統行業,都開始採用各種大數據和分析技術,開始了自己的大數據實踐之旅;應用場景也在逐漸拓展,從結構化數據的分析,發展到半結構化、非結構化數據的分析,尤其是社交媒體信息分析受到用戶的更多關注。用戶們開始評估以Hadoop、數據庫一體機以及內存計算技術爲代表的大數據相關新型技術。
當今大數據一詞的重點其實已經不僅在於數據規模的定義,它更代表着信息技術發展進入了一個新的時代,代表着大數據處理所需的新的技術和方法,也代表着大數據分析和應用所帶來的新發明、新服務和新的發展機遇。面向數據分析市場的新產品、新技術、新服務、新業態正在不斷湧現,從個人、學院、企業到國家層面,都把數據作爲一種重要的戰略資產,逐漸認識到了數據的價值,不同程度地滲透到每個行業領域和部門,隨着大數據行業應用需求日益增長,未來越來越多的研究和應用領域將需要使用大數據技術,大數據技術將滲透到每個涉及到大規模數據和複雜計算的應用領域。
將大數據運用於教學與科研是一種趨勢,目前各高校都在尋找符合自身特點的大數據應用開發模式,各學校的平臺根據自身學科發展的方向基於大數據平臺面向政府、企業、高校、社會提供服務。通過對遍佈教、學、研多層面的數據進行整合,並結合對大數據技術的有效利用,可以從根本上給教育、科研帶來全方位的提升。通過大數據平臺技術的應用,可以幫助學生改善學習效率,提供符合職業規劃的個性化學習服務;同時也有助於教育和科研機構加快提升科研成果和提高教育質量,培養更多更優秀的創新性人才。
數據挖掘和大數據分析是多學科交叉產物,其涉及統計學、計算機網絡、數據庫、機器學習、人工智能以及模式識別等多種學科領域。目前,在我國高校的專業設置上與數據挖掘與大數據分析相關的學科專業包括:計算機科學與技術、信息管理與信息系統、統計學、經濟、金融、貿易、生物信息、旅遊以及公共衛生等。這些專業在使用大數據挖掘與分析平臺時的側重點各不相同,使用人員層次水平也不相同,對算法的使用也不相同,因此,需要建設一個便利、操作簡易、算法全面、可視化的綜合平臺是非常有必要的。大數據挖掘與分析平臺能夠滿足學校長期穩定、飽滿的實踐教學或科研等任務,適應學科專業建設和實訓、科研及社會服務的需要。
建設目標
大數據挖掘與分析平臺建設項目,可輔助教師與學生在科研項目方面的研究工作,從數據分析、數據挖掘和場景應用的可視化等多方面多環節,降低數據挖掘學習門檻,提升師生數據挖掘能力。
大數據分析目前是各大企業、政府、事業單位進行的一項工作內容,同時這種應用隨着時間的推移將更加廣泛。平臺的建立就是爲培養這樣的人才所做的必要準備,將會對提高學生的社會調查研究實踐能力、數據分析能力具有顯著幫助,同時提高學生自身在就業中的競爭優勢和就業後對社會的服務水平。
大數據挖掘與分析平臺建設項目,依託具有品牌專業的學科專業而建設,隨着統計理論的發展,統計方法已經成爲各個領域不可缺少的方法論。它的建設不僅對相關專業的未來發展有着重大的意義,同時也將大大促進學科特色優勢學科的深化發展。提升學校知名度、美譽度和科研能力。
大數據挖掘與分析平臺
大數據挖掘與分析平臺是一款集數據接入、數據處理、數據挖掘、數據可視化、數據應用於一體的軟件產品。它秉持“智能、互動、增值”的設計理念,面向高校用戶提供自助式數據探索與分析能力,幫助用戶快速發現數據意義與價值。
平臺包括可視化探索、深度分析兩大模塊。
可視化探索模塊:提供拖拽式的操作,讓用戶能夠隨時更改觀察數據的維度、指標,將數據以豐富的圖表方式,進行迅速、直觀的表達,同時藉助聯動、鑽取、鏈接等交互操作,發現數據內部的細節規律,讓用戶能夠在操作交互過程中與數據進行直接、實時的對話,探索潛藏的數據規律,深度詮釋“過去發生了什麼,爲什麼會發生”。
深度分析模塊:深度分析讓用戶能夠基於平臺內置的數據處理、算法節點,以拖拽式迅速完成機器學習、深度學習、自然語言處理等算法模型構建,實現數據的關聯分析、未來趨勢預測等多種分析,幫助用戶發現深刻的數據洞察,精準預測“未來將發生什麼”。
平臺部署服務器包括系統數據庫服務器、分析應用服務器和大數據基礎環境等,平臺參考物理部署架構如下圖:
數據庫服務器:支持MySQL或Oracle數據庫,用於創建平臺系統庫,存放平臺配置信息等。
應用服務器:平臺主程序,涵蓋一體化的分析過程、方法和成果管理與應用,支持集羣部署。
大數據集羣:根據用戶處理數據量靈活選擇和部署,平臺可與大數據平臺集成,利用其集羣資源開展大數據分析,也可獨立運行。目前支持與行業主流大數據平臺集成。
谷歌46及以上版本、Firefox 50及以上版本、IE10等;
支持安卓4.0以上、IOS 8以上移動操作系統。
平臺的管理配置側重於大數據平臺軟件環境的運維及監控。
平臺通過監控服務對模型的狀態進行監控,包括分佈式應用系統的狀態等,管理員在WEB可視化界面上進行日常的監控和維護。
平臺集成監控告警模塊,通過指標檢測以執行報警功能,根據設定的警報級別和相應閾值發送故障告警信息,以郵件或短信的方式將告警通知到管理員。
管理配置
對平臺的模型管理和模型發佈等進行管理配置。
服務管理
提供統一的服務管理平臺,支持統一管理和調度任務,支持多種服務調度方式,支持同步和異步訪問模式。同時可對服務進行狀態跟蹤和查看。管理用戶發佈在平臺中的各個業務系統的模型應用,提供模型發佈申請,審批等功能,管理模型應用的生命週期。
日誌管理
將運行日誌、系統使用日誌等進行統一的歸類、整理和展現,及時掌握數據分析和模型應用的運行使用情況。
通過對數據分析專題報告和模型使用次數的統計,還能夠實現整體大數據平臺當中的成果管控。
監控告警
根據預先定製的監控指標進行實時監測和圖表展現,整體、直觀的展現大數據平臺運行環境的健康狀況。對關鍵指標的閾值,告警策略,告警方式進行配置,可對系統的關鍵指標的險情進行告警。
應用場景
系統針對數據挖掘成果形成應用場景,建立個性化數據門戶,突出“界面美觀、操作簡單、易於使用”的特點。門戶中的內容可由用戶自行定義,採用圖表結合的方式展示。
報表設計功能:系統提供可視化的在線報表設計工具,用於製作展現的報表。報表設計應採用WEB方式,可直接在瀏覽器中完成報表設計工作。
綜合展示
提供包含常規查詢、自定義查詢、常規報表、KPI指標、例外監測、數據鑽取/關聯/鏈接等各種不同的數據組合展現模式。
可視化圖形展示
提供多種圖形方式展示數據,圖形必須美觀易懂。
圖形種類
系統需支持各種主流的圖形方式,如柱狀圖、折線圖、餅圖、點圖、條形圖、面積圖、雷達圖、氣泡圖、單指標儀表盤圖、連續趨勢圖、中國地圖、世界地圖等。
圖形的使用方式
圖形可以作爲報表的輔助展現也可單獨使用。在固定報表、即席報表及綜合查詢中圖形作爲報表的輔助進行展現,圖形可以在報表定義時預先設計,也可根據報表結果隨時增加和修改。
輕量級的自助式數據準備
平臺內置輕量級的自助數據準備功能,允許用戶根據需要對數據進行處理,且這樣的數據處理操作對業務系統中的原始數據不會產生任何影響。用戶可根據需要,快速的瀏覽數據的概念,瞭解數據分佈情況,也可使用處理功能,對數據進行關聯、追加、合併,增加數據的屬性列、調整列的類型,也可對數據的內容進行分組、分段、過濾、替換值、去除空格等操作。自助式數據準備並不能代替所有的數據處理操作,它將原始數據進行變化調整以幫助用戶更好的開展下一步的數據分析工作。
平臺的可視化探索模塊堅持“所見即所得”的設計初衷,通過完善的圖形界面與簡單的拖拽操作,即可完成複雜的數據計算、可視化圖形的快速生成與配置、交互式的數據探索以及分析報告的佈局與設計。在易用性方面進行了大量的探索,旨在降低工具操作的複雜度,提供人人都是數據分析師的工具基礎,讓沒有數據分析專業背景的業務人員在拖曳點擊之間,即可快速發現數據中蘊藏的價值,充分釋放企業的數據分析活力。
平臺內置近30種基本圖形組件,主體分爲常規圖形、高維圖形、行業定製化圖形、自定義圖形組件,滿足大多數業務場景的圖形表達;
同時,所有的圖形組件內置豐富的配置參數與多種主題風格,滿足各種自定義效果展現。
平臺支持業務用戶通過拖拽維度、度量,即可自動進行快速的多維分析與計算。平臺內置支持求和、平均值、最大/小、計數/唯一計數、標準差、方差等多種度量指標計算方式,支持自定義構建計算指標,支持複雜的數據切片,同時內置了同比、環比、累計、佔比、同期對比等多種模式的二次計算模式,無需編制複雜的計算公式。以及趨勢擬合、條件預警、參考線等分析方法,通過這些高級算法的嵌入集成,讓用戶即使在不理解算法原理的情況下,也可快速完成算法的應用,進行深度的數據分析。
平臺提供了豐富的視覺交互探索的功能,讓圖表不再是靜態的、一成不變的圖形,通過提供鑽取、聯動、縮放、篩選、鏈接等交互操作,讓圖形活躍起來,實現用戶與數據的直接對話,幫助用戶洞悉數據的細節中的規律。
極簡的建模過程
平臺的深度分析模塊,通過爲用戶提供一個機器學習算法平臺,支持用戶在平臺中構建複雜的分析流程,滿足用戶從大量數據(包括文本)中挖掘出隱含的、先前未知的、對決策者有潛在價值的關係、模式和趨勢的項目訴求,從而幫助用戶實現科學決策。整個分析流程設計基於拖拽式節點操作、連線式流程串接指導式參數配置,用戶可以通過簡單拖拽、配置的方式快速完成挖掘分析流程構建。平臺內置豐富的數據處理、算法及自動學習功能,讓用戶能夠靈活的運用多種處理手段對數據進行預處理、同時算法的多樣式也爲用戶建模提供了更多的選擇,結合自動學習功能幫助用戶自動推薦最優的算法和參數配置,以滿足建模需求,挖掘數據隱藏價值。
深度分析模塊集成了大量的機器學習算法,支持聚類、分類、迴歸、關聯規則、時間序列、綜合評價、協同過濾等多種類型算法,滿足絕大多數的項目分析場景;支持分佈式算法,可對海量數據進行快速挖掘分析;同時內置了紅亞科技獨創十餘種算法,如視覺聚類、L1/2稀疏迭代迴歸/分類等;支持自然語言處理算法,實現對海量文本數據的處理與分析;支持深度學習算法及框架,爲用戶分析高維海量數據提供更加強大的算法引擎;支持多種集成學習方式,幫助用戶提升單個算法的模型準確度。
平臺內置自動擇參、自動分類、自動迴歸、自動聚類、自動時間序列等多種自學習功能,幫助用戶自動選擇最優算法和參數,一方面降低了用戶對算法和參數選擇的經驗成本,另一方面極大的節省用戶的建模時間成本。
爲了幫助用戶更好的觀察分析流程運行中間過程,平臺內置了全面的洞察功能,幫助用戶全方位觀察建模過程及模型結果,從面輔助用戶開展建模的改進優化,提升模型有效性和精準度。
挖掘後生成的模型,不是僅僅止步於模型,平臺全面支撐模型的部署與利用,用戶在完成挖掘流程發佈後,可生成數據服務,供第三方系統應用。平臺提供兩種方式接入生產環境:調度任務和接口服務兩種方式。調度任務:用戶可以將流程嵌入到一個定時任務中,按照指定頻率定期執行流程,完成實時模型構建或數據預測;接口服務:用戶將流程發佈爲RESTful服務接口,供第三方系統實時調用完成模型訓練或數據預測。
平臺支持關係型數據庫、大數據庫、接口數據、文本文件等豐富的數據源類型的接入,實現各類數據統一接入與管理。支持數據分析、數據權限配置,確保數據安全。
平臺提供面向數據分析過程的、從數據、組織協作、分析成果三位一體的權限控制體系,全方位的保障系統安全、數據安全、分析成果的安全可控。數據方面支持數據的源級、表級、行級、列級的安全控制,從源頭確保數據的安全可控。內置完善的用戶、角色,與工程授權機制,能夠實現分析過程的精細化控制。分析成果方面,平臺提供完整的管理機制,支持用戶進行詳細的成果授權控制,用戶可在授權範圍內進行成果的訪問。
平臺支持多終端成果訪問,支持PC、大屏、移動端進行成果的訪問與查看。
平臺內置JavaScript腳本節點,允許用戶自定義腳本進行圖表擴展;平臺內置自定義算法節點,允許用戶編制R、Python、Java、Scala腳本實現個性化的算法腳本。基於平臺靈活的擴展機制,增強平臺的業務適應能力,充分滿足用戶的個性化需求。
數據管理是“數據管理員”用於維護系統分析所用的數據源、構建數據模型、新建視圖,並進行數據權限分配與管理。支持數據源添加、數據接口配置、數據分類管理、數據權限設置等功能,實現高校分析數據的統一接入與按需分發。
門戶是產品應用的核心載體與管理方式,通常一個工程由多個分析主題構成,主題可分爲可視化設計和機器學習,主題是工程的基礎組成單元。
平臺採用這種自上而下的組織方式,實現數據分析過程的組織與統一管理。同時爲滿足門戶管理過程的便捷、高效,系統提供複製、導入、導出等功能。爲滿足多人協作的業務場景,系統對於同在一個工程的用戶(或小組),提供了工程權限分配功能,實現工程、故事、場景/流程級顆粒度的權限管理。
數據準備,快速完成數據的添加,並支持對於數據表的數據分析與洞察。根據分析需求,系統提供數據關聯、數據彙總、數值合併、逆透視、重命名、列隱藏、列合併、計算列、地理分析、權限設置、數據過濾、刷新及保存數據等數據預處理基本操作,滿足基礎的數據清洗、轉化、集成需求。同時支持數據訪問權限設計功能,滿足同一分析場景,多角色視圖的數據安全管理的業務需求。
平臺支持用戶通過拖拽的方式更改觀察數據的維度、指標,並將數據以豐富的圖表方式,進行迅速、直觀的表達。整體分析過程無需編碼,爲用戶提供極簡易用的操作體驗。
平臺提供圖形的智能匹配與圖形切換功能,支持用戶隨時更改圖形的類型,尋找更貼切的圖形表達方式來詮釋業務含義。
平臺支持多數據表的分析模式,用戶在分析時,可選擇多個表的字段直接製圖,無需提前建立數據集(寬表),系統會自動檢索表關係,在後臺自動生成數據關係,用戶也可手工指定多表之間的多種關聯關係,關聯關係支持常見的雪花、星型等模式。關聯關係一旦設定後,可被其他圖形複用,極大的增強了數據模型的靈活度,滿足了更爲複雜的項目分析場景。
分析計算
平臺支持對多種分析計算模式,提供開箱即用的分析方法,讓用戶無需編寫任何複雜的公式即可對業務進行復雜的分析。目前支持的分析計算的方法主要包括:聚合運算、過濾、排序、排位、佔比、差異、嵌入式算法。
圖形修飾
平臺支持對圖形、組件的樣式、風格進行個性化定義,提供了極爲豐富的配置項,用戶可根據需要對圖形進行修飾、美化。根據使用頻率和作用範圍的不同,平臺將組件修飾分爲快捷修飾和更多修飾兩部分,滿足不同類型需求。
視覺交互
平臺提供了豐富的視覺交互探索的功能,讓圖表不再是靜態的、一成不變的圖形,通過提供鑽取、聯動、縮放、篩選、鏈接等交互操作,讓圖形活躍起來,實現用戶與數據的直接對話,幫助用戶洞悉數據的細節中的規律。
場景是承載多個圖形的容器,可由用戶針對同一分析主題,將多個分析圖表進行自由組合,佈局,以直觀、全局的查看數據規律。場景是一塊可進行交互操作的畫布。爲了讓場景的設計更加簡便、清晰,平臺提供場景配置、元素佈局、場景操作、定時刷新等功能。對於已完成的場景,用戶可以圍繞分析主題調整場景順序形成一個故事。
分析完成後,用戶可以快速將自己的分析成果進行發佈與內部共享。在分享過程中,可以根據需求,定義分享範圍,進行權限設置。支持採用外部鏈接、數據展示門戶及外部調用接口等多種分享方式。
分析報告更新後,還可以一鍵更新同步展現端。
數據挖掘分析能夠從大量數據(包括文本)中挖掘出隱含的、先前未知的、對決策者有潛在價值的關係、模式和趨勢,有助於發現業務趨勢、揭示已知事實,預測未知的結果。
數據挖掘分析通過構建挖掘模型、評估模型結果、部署及利用模型來提取數據信息實現數據價值。
平臺支持對海量數據進行模型構建、模型評估、模型利用及模型成果管理及應用,包括流程發佈及結合業務調用流程。
整個分析流程設計基於拖拽式節點操作、連線式流程串接指導式參數配置,用戶可以通過簡單拖拽、配置的方式快速完成挖掘分析流程構建。平臺內置豐富的數據處理、算法及自動學習功能,讓用戶能夠靈活的運用多種處理手段對數據進行預處理、同時算法的多樣式也爲用戶建模提供了更多的選擇,結合自動學習功能幫助用戶自動推薦最優的算法和參數配置,以滿足建模需求,挖掘數據隱藏價值。
平臺算法主要基於業界主流的Spark分佈式內存計算框架開發,並採用Scala語言進行算法實現,能夠支持海量數據的高效挖掘分析。
數據管理
平臺提供數據管理功能包括數據輸入、數據輸出,支持文件輸入、關係數據庫輸入、同步輸入、樣例輸入、API輸入、Kafka輸入等多種輸入節點,作爲挖掘分析的數據源。支持關係數據庫輸出、文件輸出、同步輸出、Kafka等多種數據輸出,可將結果數據輸出到指定位置。
數據處理
支持多種數據預處理方法,包括對行、列、高級的20餘種數據預處理節點,實現數據清理,集成,變換,歸約等數據預處理,爲挖掘分析做好準備。
數據融合
支持數據連接、數據追加、數據拆分、數據差集、數據分解等數據融合節點,實現對數據表與表之間做數據融合處理。
特徵工程
平臺提供常用特徵工程功能,包括屬性生成、主成分分析、因子分析、奇異值分解、分箱、變量選擇、自動特徵、WOE編碼、數據分組等,支持用戶更快捷方便的找到關鍵特徵,從而構建更加簡潔高效的模型。
機器學習
平臺提供豐富的機器學習算法,包括迴歸、分類、聚類、時間序列、綜合評價、推薦等算法。除經典算法外,還包含紅亞數據獨創的多種自主算法,算法的性能與準確性要明顯優於傳統算法。
統計分析
平臺支持方差分析、相關係數、典型相關分析、偏相關分析、相似度、概率單位迴歸、描述數據特徵等多種統計分析方法,對數據進行初步的統計分析發現數據特徵及數據規律,爲挖掘分析打好基礎。
深度學習
平臺集成了多種深度學習算法,包括DNN迴歸、DNN分類、RNN分類、RNN迴歸、LSTM時序等節點式構建深度神經網絡模型,以及支持深度學習框架TensorFlow,提供用戶編碼式構建深度學習網絡,提升模型的精度。
集成學習
平臺集成了一系列的集成學習算法,包括Adaboost分類、Bagging分類與Bagging迴歸、Voting分類與Voting迴歸、Xgboost分類等,提升了模型構建智能化,使算法準確性得到明顯的提升。
自動學習
平臺集成了一系列的自動化算法,包括自動聚類、自動迴歸、自動時序、自動分類、自動擇參等,提升了模型構建的自動化和智能化,使算法性能得到明顯的提升。
擴展編程
平臺用戶編制SQL編輯\R編程\Python編程\Java編程\Scala編程腳本實現個性化的算法腳本。基於平臺靈活的擴展機制,增強平臺的業務適應能力。
文本分析
爲了滿足用戶對於中文文本數據的分析需求,平臺集成了分詞、信息抽取、文本過濾、向量空間、關鍵詞提取、主旨話題分析、命名實體識別、文本相似度、觀點情感分析、垃圾違禁信息檢測、文本摘要、詞頻統計、主題模型合併等中文文本挖掘算法,讓用戶能夠對中文文本數據進行挖掘分析,發現數據價值,從而實現業務價值。
模型管理
平臺支持對構建的挖掘模型進行評估及驗證,同時提供行業內標準的模型評價指標,給出最優模型,同時能夠在建模過程中,對模型進行輸出、讀取、利用、分類檢索、版本管理等。
圖表分析
平臺支持以圖表的形式進行數據的探索,更好的理解數據關係,爲數據挖掘建模提供支持和依據。圖表展示涵蓋了基本圖表、分組圖表、統計圖表等圖形化分析組件。
流程控制
流程控制功能爲用戶創建更靈活的自定義挖掘流程提供了操作接口,它分爲:子進程、多分支、循環行等操作元素。
自定義算法
平臺內置自定義算法功能,允許用戶通過R\Python\Java\Scala基於平臺規範封裝自主算法併發布形成平臺節點,方便用戶靈活擴展平臺算法節點功能,增強平臺的業務適應能力,充分滿足企業級用戶的個性化需求。
洞察的主要作用是全方位觀察建模過程及模型結果,通過洞察信息能夠爲有效改進建模提供依據,提升模型有效性和精準度。用戶對於挖掘流程中的任意節點,包括數據接入、數據處理、模型建立評估等,均可以在平臺的洞察中查看中間結果。豐富詳實的洞察內容,幫助用戶輕鬆獲取隱藏在業務數據中的規律和模式。[if !vml]
平臺的輸出成果主要包括:分析儀表板、挖掘模型。成果管理加強高校的分析洞察結果、業務模型的安全控制、渠道分享、統一展現,讓分析成果在高校內安全、可控、快捷的傳遞與交流,全面促進高校分析決策效率。
平臺提供多種成果分享形式,可將發佈後的成果嵌入第三方平臺,發送到移動端、數據門戶,或者以郵件進行分享。
平臺提供自帶的數據門戶功能,在數據門戶中,成果將按照分類結構進行組織展示,用戶可查看授權範圍的成果內容,並可進行交互操作與二次分析。門戶化的數據展示,讓數據分析結果的發佈、溝通交流更加直觀、靈動,且無需額外的建設成本。
系統管理提供基於高校實際管理的組織架構、人員、角色等定製維護,也可以和現有管理平臺組織級人員進行融合。平臺內置系統管理員、數據管理管理員、成果管理員、設計用戶、普通用戶等五種操作權限,可以根據不同人員崗位、角色進行系統權限分配。
同時可以對平臺整體的全局參數配置、圖形主題維護等功能。主要功能包括全局參數、主題、緩存等系統配置。
平臺內置了5種角色,系統管理員、數據管理員、成果管理員、設計用戶、普通用戶。
系統管理員:負責平臺核心參數的配置、人員、組織、角色的管理。
數據管理員:負責數據源的接入、主題域構建、元數據管理、模型構建、數據授權等管理工作。
成果管理員:負責平臺所有成果的歸集分類、成果的統一授權、分享、監控等管理工作。
設計用戶:允許使用平臺的可視化分析、挖掘分析功能開展相應的分析與應用開發工作。
普通用戶:允許使用平臺的門戶功能,用於瀏覽授權範圍的分析成果。
平臺內置的管理角色分配,從數據、工具、成果構建形成了三位一體的權限機制,有效的滿足各類高校複雜多變的管理需求。
數據挖掘分析算法
平臺提供統計分析、多維分析、挖掘算法庫、數據挖掘工具等功能,構建面向科研人員使用的數據分析功能組件,同時,增加對大數據分佈式計算的支持,滿足實時、離線應用的分析挖掘需求。
統計分析
描述性統計
針對各業務系統中的結構化數據,提供總數、平均數、中位數、百分位數、方差、標準差等基礎統計方法。
推斷性統計
推斷統計是在描述性統計的基礎上,進一步對其所反映的問題進行分析、解釋和做出推斷性結論的方法。包括方差分析、相關分析、判別分析、因素分析法、貝葉斯定理、趨勢分析法、參數估計、平衡分析法、主成分分析法等。
挖掘算法庫
通用數據挖掘算法庫
針對各業務系統中的結構化數據,提供通用的數據分析挖掘算法,包括描述性挖掘算法,如聚類分析、關聯分析等;預測性挖掘算法,如分類分析、演化分析、異類分析等。
數據挖掘算法主要包括:
專用分析算法庫
針對各業務系統中存在的大量文本、圖片、視頻等非結構化數據,提供專用數據分析挖掘算法,如文本分析、語音分析、圖像分析、視頻分析等算法。語音、圖像及視頻文件分析需第三方軟件處理後應用。
自定義算法插件
結合特定業務分析需求,提供自定義算法開發規範及接口,包括自定義算法的輸入數據格式、算法處理形式(單機或者分佈式)、算法結果表示等,如基於Map/Reduce框架,研發算法的java實現。平臺支持R/Python/JAVA/Scala等多種自定義算法編寫方式。
提供多種基本的統計分析算法支持。
算法描述
Max/Min/Average/STD對數據進行預處理時最基本的統計方法,分別用來計算數據的最大值、最小值、平均值以及方差。
Normallization歸一化方法是一種簡化計算的方式,通過將原始數據轉換到某個範圍內如(0,1),可以避免不同指標因取值範圍的不同,對結果造成的偏差。
Screening可以將缺損值或者異常值選出並剔除,能夠保證數據的有效性。
RangeSize統計等於任意值或屬於某個區間內的數據總量。
Boxplot箱線圖是一種描述數據分佈的統計圖,利用它可以從視覺的角度來觀察變量值的分佈情況。箱線圖主要表示變量值的中位數、四分之一位數、四分之三位數等統計量。
Percentile計算處於某個分位數上的值,如給定參數0.5,則返回中位數。
Histogram直方圖(Histogram)又稱質量分佈圖,是一種統計報告圖,由一系列高度不等的縱向條紋或線段表示數據分佈的情況。
Binning通過指定區間數,返回對數據進行均勻分佈後的每個區間的取值。
提供多種基本的機器學習算法支持。以下簡單舉例。
算法類別算法名稱
分類貝葉斯網絡分類、C45+決策樹分類、決策樹CART分類、梯度提升決策樹分類(GBDT)、決策樹ID3分類、KNN、1/2稀疏迭代分類、線性判別分類、邏輯迴歸分類、樸素貝葉斯、BP神經網絡分類、隨機森林分類、RBF神經網絡分類、支持向量機分類
聚類Canopy、EM聚類、模糊C均值、Hierarchy層次聚類、Kmeans、Kohonen神經網絡聚類、冪迭代、視覺聚類
迴歸曲線迴歸、決策樹迴歸、梯度提升樹迴歸、保序迴歸、L1/2稀疏迭代迴歸、線性迴歸、隨機森林迴歸、SVM迴歸、BP神經網絡迴歸
關聯FPGrowth、Apriori、序列
時間序列指數平滑、稀疏時間序列、移動平均、ARIMA、向量自迴歸、X11、X12
綜合評價層次分析法、熵值法、模糊綜合評價法、TOPSIS
文本挖掘分詞、特徵選擇、信息抽取、關鍵詞提取、觀點情感分析、垃圾違禁信息檢測、文本過濾、主旨話題分析、向量空間、結構化輸出
協同過濾協同過濾
深度學習DNN迴歸、DNN分類、RNN分類、RNN迴歸、LSTM、Tensorflow
集成學習Bagging迴歸、Bagging分類、Voting迴歸、Voting分類、Adaboost分類、Xgboost分類、
自動學習迴歸交叉驗證、分類交叉驗證、自動分類、自動擇參、循環行、自動迴歸、自動聚類、自動時間序列
擴展SQL編程、Scala編程、Java編程、R編程、Python編程
特徵工程屬性生成、主成分分析、因子分析、奇異值分解、自動特徵
模型模型利用、模型讀取、模型輸出
平臺除了包含業界通用的主流算法外,還內置了紅亞科技研發的獨創專利算法,算法準確性和響應速度等性能明顯優於同類經典算法,能更快速、更直觀的洞悉數據特徵,發現企業業務和流程中潛在、隱藏的規律和價值,爲企業解決數據分析問題提供更先進和高效的算法選擇。
視覺聚類算法
基於人類視覺原理模擬數據逐級聚類分析,過程包含了數據的一系列分羣,最終將視覺存活週期最大時的分羣作爲最佳聚類結果。視覺聚類算法的優點在於,它既不依賴任何初值,也不涉及整體優化問題,可克服傳統算法對初值敏感、難以找到最優聚類,難以確定聚類類數等缺陷。該算法被業界評價是目前最爲有效、認知意義最爲明確的聚類分析、判別分析與主因素分析的方法,該理論解決了困擾學術界多年的“聚類”如何劃分最爲有效的問題,是“原創性的研究”、“同類工作的終結”、是“非平凡的貢獻”。
L1/2稀疏迭代迴歸/L1/2稀疏迭代分類算法
L1/2稀疏迭代算法是基於極小化損失函數與關於解的1/2範數正則項的高效稀疏算法。L1/2稀疏性高,在求解迴歸問題和分類問題時,面對冗餘、高維變量,在減少原始數據信息的損失情況下能更快速地找到關鍵影響因素,大大提升整個分析計算的效率和性能。該算法基於L1/2的正則化理論,找到了平衡稀疏性與可解性之間的矛盾。該理論已經成爲在非歐氏框架下研究機器學習與非線性系統離散化近似的基本工具之一,被學界稱爲Xu-Roach定理;該方法被指定在印度召開的第26界世界數學家大會上進行了特邀彙報。
稀疏時間序列
稀疏時間序列將L1/2正則化理論引入到AR時間序列中,建立了基於L1/2約束的稀疏時間序列模型,較之自迴歸移動平均模型(ARMA),該算法將定階和求解過程統一,解決了傳統時間序列算法定階難問題,提高了定階和預測速度。
信息抽取
該算法通過設計特定的語法規範,構建規則模板引擎,提供給用戶靈活的信息抽取接口。相比其他算法,用戶在利用平臺的信息抽取算法時,只需要按照語法規範編寫規則,就可以完成指定信息的快速抽取與結構化內容的準確輸出。
平臺內置自動擇參、自動分類、自動迴歸、自動聚類、自動時間序列等多種自學習功能,幫助用戶自動選擇最優算法和參數,一方面降低了用戶對算法和參數選擇的經驗成本,另一方面極大的節省用戶的建模時間成本。
平臺一方面提供DNN、RNN、LSTM等深度學習算法節點,讓用戶可以和使用其他機器學習算法一樣,快速構建深度學習模型,另一方面平臺支持基於TensorFlow On Spark的深度學習集羣框架,方便用戶自由編寫深度學習代碼邏輯,實現更靈活的自主深度建模分析。
集成學習嚴格意義上來說,這不算是一種機器學習算法,而更像是一種優化手段或者策略,它通常是結合多個簡單的弱機器學習算法,去做更可靠的決策。集成學習是一種能在各種的機器學習任務上提高準確率的強有力技術,集成算法往往是很多數據競賽關鍵的一步,能夠很好地提升算法的性能。平臺提供Bagging、Voting等集成學習框架節點,同時支持Xgboost、GBDT、Adaboost隨機森林等集成學習算法。
目前,市場上的文本工具主要是以文本整體分析應用爲主來設計功能,未從技術角進行細緻的功能劃分,這樣導致用戶對於文本的分析過於主題化,用戶在分析過程中無法過多的加入自己的構建思想,同時無法真正將文本挖掘技術與傳統結構化數據挖掘技術融合在一起。本平臺中的文本挖掘算法模塊以“拖拽式操作、精細化節點設計、結構化自由文本爲目標”的設計理念爲指導,將文本挖掘的各技術功能點進行粗細劃分,使得節點的功能更集中更明確,一方面兼顧了NLP技術的獨立性,另一方面通過結構化輸出將各功能節點的輸出統一成結構化數據表方便與平臺已有的其他建模分析節點串聯複用。
平臺一方面內置Python、R、Scala、JAVA編程節點,方便用戶實現個性化數據分析邏輯,另一方面通過提供自定義算法功能,用戶可以將本企業所研究的成熟算法,通過該功能在平臺上發佈,形成固化的算法節點,供平臺所有用戶使用。
爲了能夠給用戶提供更簡單、可靠、全面、智能的分析服務,未來大數據挖掘與分析平臺將更多的在人工智能技術領域持續發力,提升平臺的技術先進性,爲用戶帶來更多更好的智能化分析體驗。
關鍵技術指標
平臺支持文本文件(Excel格式)、關係型數據源、大數據分析引擎等多類數據源的接入,主要包括:
關係型數據庫:如Oracle、Mysql、SqlServer、DB2、SybaseIQ、Postgresql等;
MPP數據庫:如Greenplum、Teradata;
大數據分析引擎:Hive、Impala、Presto、Sparksql;
多維數據集:支持Kylin Cube數據的接入;
文本數據:支持CSV、Excel等文本數據的接入;
接口數據:支持以WS方式傳輸的CSV、XML數據;
平臺內置豐富的可視化圖庫,除了支持常規的統計圖表外,還支持大量的高維圖形,同時支持行業圖庫的定製,主要包括:
常規圖形:包括餅、柱、線、組合、表格、交叉表、儀表盤、KPI圖形、散點圖;
高維圖形:包括地圖、氣泡圖、關係圖、雷達圖、桑基圖、矩陣圖、散點圖等;
行業圖形:如金融行業較爲常見的K線圖,可結合用戶行業特徵進行定製開發;
自定義圖形組件:平臺支持用戶進行自定義開發,主要支持3種方式:
方式具體說明
URL用戶可將自己獨立開發的圖形通過URL地址訪問的模式嵌入平臺;
R語言支持用戶自行編制R語言腳本進行數據的處理、建模、與圖形化表達;
JS開發內置JS節點,支持用戶使用Javascript腳本進行圖形定製開發;
同時,所有的圖形組件內置豐富的配置參數與多種主題風格,滿足各種自定義效果展現。
平臺圖庫具有較強的擴展能力,可根據用戶需求,或迅速整合第三方圖庫插件快速開發新的圖形。
平臺可與主流的大數據環境無縫融入,支持的大數據平臺主要包括:
Apache Hadoop 2.7.3
Transwarp Data Hub 4.7.1
H3C DataEngine
中興DAP
Hortonworks Data Platform
Cloudera Enterprise Data Hub
算法形式算法類別算法名稱
分佈式算法分類貝葉斯網絡分類、C45+決策樹分類、決策樹CART分類、梯度提升決策樹分類(GBDT)、決策樹ID3分類、KNN、1/2稀疏迭代分類、線性判別分類、邏輯迴歸分類、樸素貝葉斯、BP神經網絡分類、隨機森林分類、RBF神經網絡分類、支持向量機分類、Adaboost分類、Bagging分類算法、XGBoost分類
聚類Canopy、EM聚類、模糊C均值、Hierarchy層次聚類、Kmeans、Kohonen神經網絡聚類、冪迭代、視覺聚類
迴歸曲線迴歸、決策樹迴歸、梯度提升樹迴歸、保序迴歸、L1/2稀疏迭代迴歸、線性迴歸、隨機森林迴歸、SVM迴歸、bagging迴歸算法、BP神經網絡迴歸
關聯FPGrowth
綜合評價層次分析法、熵值法、模糊綜合評價法、TOPSIS
文本挖掘分詞、特徵選擇、信息抽取、關鍵詞提取、觀點情感分析、垃圾違禁信息檢測、文本過濾、主旨話題分析、向量空間、結構化輸出
推薦協同過濾
擴展Scala編程
模型模型利用、模型讀取、模型輸出
非分佈式算法關聯Apriori、序列
時間序列指數平滑、稀疏時間序列、移動平均、ARIMA、向量自迴歸、X11、X12
擴展R編程、Python編程、Java編程
應用服務器(1臺)
硬件 :
型號:浪潮 NF8480M4(廠商設備)
CPU:Intel Xeon E7-4830 v3 2.10GHz*2
內存:128G
硬盤:3TB
軟件 :
操作系統:CentOS 6.7
中間件:Tomcat 8.5.6
數據緩存:Redis 3.1.101
數據庫服務器(1臺)
硬件
型號:浪潮NF8480M4(廠商設備)
CPU:Intel Xeon E5-2650 v3 2.30GHz 20核
內存:128G
硬盤:3TB
軟件
操作系統:CentOS 6.7
數據庫:Mysql 5.1.73
分佈式大數據計算服務器(5臺)
硬件
型號:聯想System x3650 M5(廠商設備)
CPU:Intel Xeon E5-2620 v3 2.40GHz*2
內存:128G
硬盤:2TB
軟件
操作系統:CentOS 6.8
大數據平臺:Cloudera Enterprise Data Hub 5.7.1
(Hadoop 2.6.0、Hive 1.1.0、Hbase 1.2.0、Impala 2.5.0)
性能效率結果
經測試,以上環境軟硬件配置性能測試效率如下:
可視化分析——設計模式
基於10,000,000條數據的可視化成果訪問在設計模式下(未啓用Redis緩存),基於10,000,000條數據創建包含有柱形圖的可視化頁面,單用戶訪問該頁面,平均響應時間爲2.046秒
基於50,000,000條數據的可視化成果訪問在設計模式下(未啓用Redis緩存),基於50,000,000條數據創建包含有柱形圖的可視化頁面,單用戶訪問該頁面,平均響應時間爲2.600秒
基於100,000,000條數據的可視化成果訪問在設計模式下(未啓用Redis緩存),基於100,000,000條數據創建包含有柱形圖的可視化頁面,單用戶訪問該頁面,平均響應時間爲2.832秒
可視化分析——發佈模式
基於10,000,000條數據的可視化成果訪問在發佈模式下(啓用Redis緩存),基於10,000,000條數據創建包含有柱形圖、條形圖、線形圖、面積圖、餅形圖和環形圖的可視化頁面,模擬100用戶併發訪問該成果頁面,思考時間(Think time)設置爲1秒,平均響應時間爲0.150秒
應用服務器資源佔用:
平均CPU利用率爲11.03%;
平均內存佔用率爲8.43%;
平均磁盤塊寫入數爲49.81塊/秒
數據庫服務器資源佔用:
平均CPU利用率爲0.00%;
平均內存佔用率爲2.89%;
平均磁盤塊寫入數爲39.63塊/秒
基於50,000,000條數據的可視化成果訪問在發佈模式下(啓用Redis緩存),基於50,000,000條數據創建包含有柱形圖、條形圖、線形圖、面積圖、餅形圖和環形圖的可視化頁面,模擬100用戶併發訪問該成果頁面,思考時間(Think time)設置爲1秒,平均響應時間爲0.148秒
應用服務器資源佔用:
平均CPU利用率爲11.13%;
平均內存佔用率爲8.39%;
平均磁盤塊寫入數爲63.77塊/秒
數據庫服務器資源佔用:
平均CPU利用率爲0.00%;
平均內存佔用率爲2.89%;
平均磁盤塊寫入數爲39.23塊/秒
基於100,000,000條數據的可視化成果訪問在發佈模式下(啓用Redis緩存),基於100,000,000條數據創建包含有柱形圖、條形圖、線形圖、面積圖、餅形圖和環形圖的可視化頁面,模擬100用戶併發訪問該成果頁面,思考時間(Think time)設置爲1秒,平均響應時間爲0.150秒
應用服務器資源佔用:
平均CPU利用率爲11.21%;
平均內存佔用率爲8.47%;
平均磁盤塊寫入數爲55.38塊/秒
數據庫服務器資源佔用:
平均CPU利用率爲0.00%;
平均內存佔用率爲2.89%;
平均磁盤塊寫入數爲39.23塊/秒
挖掘分析
分類算法-決策樹CART分類對樣本數據執行決策樹CART分類算法,其中:
數據量爲10,000,000條時,平均執行耗時爲55.2秒;
數據量爲50,000,000條時,平均執行耗時爲80.27秒;
數據量爲100,000,000條時,平均執行耗時爲104.78秒
聚類算法-KMeans對樣本數據執行KMeans算法,其中:
數據量爲10,000,000條時,平均執行耗時爲64.54秒;
數據量爲50,000,000條時,平均執行耗時爲154.82秒;
數據量爲100,000,000條時,平均執行耗時爲188.06秒
文本挖掘-分詞算法對樣本數據執行分詞算法,其中:
數據量爲10,000,000條時,平均執行耗時爲33.00秒;
數據量爲50,000,000條時,平均執行耗時爲35.64秒;
數據量爲100,000,000條時,平均執行耗時爲37.76秒
電商購物平臺產品展示頁面的“評價”數據,是購買客戶對於產品使用的評價,在一定程度上能夠反映客戶對於商品的滿意度和認可度。通過對此數據的分析,可以瞭解產品在不同類型消費者心目中的評價以及大家關注的核心要素,便於電商爲不同類型用戶推薦更適合的產品。
原始的電商數據包括了用戶的相關信息(用戶名、年齡、區域等)還有產品、評論的文本內容。通過對原始數據的觀察,我們發現“產品”字段是由“品牌-型號”的模式構成,適合使用信息抽取算法分離品牌和型號,數據量總計3.6GB。
本項目採用的技術爲分詞、文本過濾、設置角色、主旨話題分析與模型輸出。
[if !vml]
[endif]
其中,主要核心技術爲:分詞、文本過濾、主旨話題分析。
分詞
針對於文本分析,分析對象需設置爲詞語格式,源數據爲評論文本型數據,所以爲了方便後期的分析,我們需要採用分詞技術做數據格式處理。
分詞節點涵蓋了中文分詞、詞性標註的基礎文本處理功能,主要實現對電商評論文本數據的中文字符串文本進行詞語切分並標註詞性,將原始字符串序列轉換爲帶標籤的詞序列,方便後續的文本過濾。
文本過濾
經過分詞後的數據含有非分析對象,我們需要將數據進行提取,設定標準屬性與標註詞性進行匹配,文本過濾技術會將非分析對象進行處理,保留標準屬性數據。
文本過濾是根據我們定義的設置標準或要求,從分詞後的評論文本數據中選取我們需要的信息或者剔除不需要信息的方法。在後續主旨話題分析可以做全數據分析處理。
主旨話題分析
爲了更好地進行評論文本分析,我們選用主旨話題分析技術。該技術實現了按照定義標籤進行詞語分類,將分類後的詞語做二次處理,根據設定閾值判斷出對象的褒貶性。
主旨話題分析節點完成對文本集的主題分佈的分析,得到主旨話題模型,我們可以在查看模型後設定話題詞。
基於文本分析得到的情感分析結果、信息抽取匹配的品牌、抽取的評論關鍵詞等信息做可視化分析,分析出不同地域、不同品牌、不同年齡段關注的手機的不同指標(外觀、拍照、性能)以及用戶體驗。情感傾向。[if !vml]
[endif]
[if !vml]
[endif]
基於開戶年限、年齡、近半年日均資產、半年內股基持倉比例、週轉率、股票佣金對客戶進行分羣,分爲三羣。不同的客戶羣之間特徵差異明顯,相同客戶羣內的客戶具有相同的特徵,因此針對不同羣所具備的共性特徵,制定針對性營銷策略。
基於用戶基本信息包括風險等級、開戶年限、年齡等,資產信息包括總資產、近一年最大資產、近半年日均資產等,產品交易信息包括股票交易次數、近兩年最後買公墓基金天數、近半年理財持有比例等,總數據量高達12GB。
本項目採用的技術爲屬性生成、設置角色、多分支、K-Means、模糊C均值、聚類評估、模型輸出。
[if !vml]
[endif]
其中核心技術爲K-Means、模糊C均值、聚類評估。
K-Means
由於K-Means聚類算法適用於對球形簇分佈的數據聚類分析,所以可應用於客戶細分、市場細分等分析場景。
本項目採用K-Means算法將按照時間需求去處理數據,不僅計算速度快,而且能夠按照指定標準將分析目標顯示出來,統計結果爲方便後期做聚類計算。
模糊C均值
模糊聚類分析作爲無監督機器學習的主要技術之一,是用模糊理論對重要數據分析和建模的方法。在衆多模糊聚類算法中,模糊C均值算法應用最廣泛且較爲成功。
模糊C均值聚類算法通過優化我們定義的目標函數得到每個樣本點對所有類中心的隸屬度,從而決定樣本點的類屬以達到自動對客戶信息數據進行分羣的目的。
聚類評估
該節點用來評價一個聚類任務中的模型表現,適用於所有的聚類類評估任務。
通過模型訓練學習和一些評價指標,該節點自動計算得到出較可靠的聚類模型。
構建用戶公募基金潛客預測模型,基於該模型,可以預測高概率購買公募基金的潛在客戶,爲券商提供精準營銷客戶羣,提升營銷效率,降低營銷成本。