收藏43個免費數據挖掘軟件

數據挖掘是在大型數據集中發現模式的計算過程,涉及到使用人工智能、機器學習、統計分析和數據庫系統的方法,目標是從數據集中提取信息,並將其轉化爲可理解的結構,以便進一步使用。
在當今的商業市場中,客戶與企業、服務甚至產品之間的接觸程度已經發生了變化。公司已經通過Facebook、Twitter和WhatsApp等社交平臺變得容易訪問,使其在線存在變得突出。這些平臺提供了寶貴的數據,這些數據是非結構化的。這就是爲什麼大多數公司需要數據挖掘工具的原因。
數據挖掘軟件允許不同的企業從不同的平臺收集信息,並將數據用於各種目的,如市場評估和分析。數據挖掘幫助用戶跟蹤所有的重要數據,並利用這些數據來改善業務。此外,在商業環境中,該軟件在做出明智的決策方面也變得非常重要。

數據挖掘軟件幫助探索未知的模式,這對企業的成功具有重要意義。實際的數據挖掘任務是對大量數據進行自動分析,以提取以前未知的、有趣的模式,如聚類分析、異常記錄(異常檢測)和依賴關係(關聯規則挖掘、順序模式挖掘)。

頂級免費數據挖掘軟件應具有的提點:
易於使用的界面:數據挖掘軟件具有易於使用的GUI,可快速分析數據。
預處理:數據預處理是數據挖掘中的重要步驟,因爲它涉及到將原始數據轉換爲可理解的格式的過程。它涉及數據清理,以解決缺失值和不一致的問題。數據集成和轉換也正在進入數據預處理。
可擴展的處理:數據挖掘軟件允許可擴展的處理。這是從單個用戶系統到大型組織處理。換句話說,該軟件可以根據用戶數量和要處理的數據大小進行擴展。
高性能:數據挖掘軟件通過高性能數據挖掘節點提高了性能,特別是在處理大量數據的公司中。挖掘工具開發了一個環境,可以更快地產生業務結果。
異常檢測:識別可能有趣的異常數據記錄或需要進一步調查的數據錯誤。
關聯規則學習:搜索變量之間的關係。
聚類:在數據中以某種方式或另一種“相似”方式發現組和結構而不使用數據中的已知結構的任務。
分類:概括已知結構以應用於新數據的任務。
迴歸:試圖找到一個函數,該函數以最小的誤差對數據進行建模,即用於估計數據或數據集之間的關係。
數據彙總:數據挖掘工具應能夠將數據壓縮爲內容豐富的表示形式。通常,製表之類的方法是用於彙總大型數據集的常用技術。該軟件提供了交互式數據準備工具。

01 Orange
Orange是一個開源數據可視化和分析工具。數據挖掘通過可視化編程或Python腳本完成。該工具具有用於機器學習的組件,用於生物信息學的附加組件和文本挖掘,並且具有用於數據分析的功能。Orange是一個Python庫。Python腳本可以在終端窗口,PyCharm和PythonWin等集成環境或iPython這樣的shell中運行。

02 Anaconda
Anaconda是一個由Python支持的開放數據科學平臺。Anaconda的開源版本是Python和R的高性能發行版,其中包括100多個用於數據科學的最受歡迎的Python,R和Scala軟件包。還可以訪問720多個軟件包,這些軟件包可以輕鬆地與conac,Anaconda附帶的軟件包,依賴項和環境管理器一起安裝。包括最受歡迎的Python,R&Scala軟件包,用於統計,數據挖掘,機器學習,深度學習,模擬和優化,地理空間,文本和NLP,圖形和網絡,圖像分析。

03 R Software Environment
R是一個統計計算和圖形的免費軟件環境。它可以在各種UNIX平臺、Windows和MacOS上編譯和運行。R是一套集成的軟件設施,用於數據處理、計算和圖形顯示。其中一些功能包括:有效的數據處理和存儲設施、一套對數組特別是矩陣進行計算的運算符、一套大型、連貫、綜合的數據分析中間工具、直接在計算機上或在硬拷貝上進行數據分析和顯示的圖形設施,以及包括條件在內的發達、簡單和有效的編程語言。

04 Scikit-learn
Scikit-learn是一個面向Python編程語言的開源機器學習庫,它的特點是提供了各種分類、迴歸和聚類算法,包括支持向量機、隨機森林、梯度提升、k-means和DBSCAN,並被設計爲與Python數值和科學庫NumPy和SciPy互操作。分類:識別一個對象屬於哪一類應用。垃圾郵件檢測,圖像識別。算法。SVM,最近鄰,隨機森林。迴歸:預測與對象相關的連續值屬性。應用:藥物反應、股票價格。藥物反應、股票價格 算法:SVR、嶺迴歸。SVR,山脊迴歸 聚類 :將相似的對象自動分組爲集合。
05 Weka Data Mining
Weka是一個用於數據挖掘任務的機器學習算法的集合。這些算法既可以直接應用於數據集,也可以從你自己的Java代碼中調用。Weka的功能包括機器學習、數據挖掘、預處理、分類、迴歸、聚類、關聯規則、屬性選擇、實驗、工作流和可視化。Weka是用Java編寫的,由新西蘭懷卡託大學開發。Weka的所有技術都是基於這樣的假設:數據是以單個平面文件或關係的形式存在的,其中每個數據點由固定數量的屬性描述Weka提供了對SQL數據庫的訪問……

06 Shogun
Shogun是一個用C++編寫的免費開源工具箱。它爲機器學習問題提供了許多算法和數據結構。Shogun的重點是內核機,如用於迴歸和分類問題的支持向量機。Shogun還提供了隱藏馬爾科夫模型的完整實現。工具箱無縫地允許輕鬆結合多種數據表示、算法類和通用工具。這使得數據管道的快速原型化和新算法的可擴展性成爲可能。它現在提供的功能跨越了機器學習方法的整個空間,包括分類、迴歸、數據分析等許多經典方法。

07 DataMelt
DataMelt,即DMelt,是一款用於數值計算、統計、分析大數據量(“大數據”)和科學可視化的軟件。該程序可用於許多領域,如自然科學、工程、金融市場的建模和分析。DMelt是一個計算平臺。它可以在不同的操作系統上使用不同的編程語言。與其他統計程序不同,它不受單一編程語言的限制。DMelt可以與多種腳本語言一起使用,如Python/Jython,BeanShell,Groovy,Ruby,以及與Java一起使用。最全面的軟件。

08 Natural Language Toolkit
NLTK是構建Python程序以處理人類語言數據的領先平臺。它爲50多個語料庫和詞彙資源(如WordNet)提供了易於使用的接口,同時還提供了一套用於分類、標記化、詞幹、標記、解析和語義推理的文本處理庫,工業級NLP庫的封裝器,以及一個活躍的討論論壇。由於有一本介紹編程基礎和計算語言學主題的實踐指南,再加上全面的API文檔,NLTK適合語言學家、工程師、學生、教育工作者、研究人員和行業用戶。NLTK適用於Windows、Mac OS X和Linux。

09 Apache Mahout
Apache Mahout項目的目標是構建一個快速創建可擴展的高性能機器學習應用的環境。Apache Mahout是一個簡單且可擴展的編程環境和框架,用於構建可擴展的算法,包含了Scala和Apache Spark、H2O、Apache Flink的各種預製算法。它還使用了Samsara,它是一個類似R語法的向量數學實驗環境,可以在規模上工作。Apache™ Mahout是一個可擴展的機器學習算法庫,在Apache Hadoop之上實現,使用MapReduce範式。

10 GNU Octave
GNU Octave代表了一種用於數值計算的高級語言,由於它的命令行界面,用戶可以通過它來解決線性和非線性問題,以及進行其他數值實驗。由於它的命令行界面,用戶可以通過一種主要與Matlab兼容的語言來解決線性和非線性問題,並進行其他數值實驗。該軟件具有強大的面向數學的語法等特點,並內置了繪圖和可視化工具,它是免費軟件,可以運行在GNU/Linux、macOS、BSD和Windows上,兼容許多Matlab腳本。與Matlab基本兼容的語法是Octave語法。

11 GraphLab Create
GraphLab Create是一個機器學習平臺,用於構建智能、預測性應用,涉及清理數據、開發特徵、訓練模型以及創建和維護預測性服務。這些智能應用爲包括推薦人、情感分析、欺詐檢測、流失預測和廣告定位在內的用例提供預測。訓練好的模型可以部署在Amazon Elastic Compute Cloud (EC2)上,並通過Amazon CloudWatch進行監控。可以通過 RESTful API 對它們進行實時查詢,並通過可視化儀表板查看整個部署管道。對於GraphLab Create用戶來說,從原型設計到生產的時間大大縮短。

12 ELKI
ELKI框架是用Java編寫的,圍繞着一個模塊化的架構。目前包含的算法大多屬於聚類、離羣檢測和數據庫索引。ELKI的一個關鍵概念是允許任意算法、數據類型、距離函數和索引的組合,並評估這些組合。當開發新的算法或索引結構時,現有的組件可以重複使用和組合。ELKI是圍繞數據庫核心建模的,它採用垂直數據佈局,將數據存儲在列組中。

13 Apache UIMA
非結構化信息管理應用程序是分析大量非結構化信息的軟件系統,以發現與最終用戶相關的知識。一個UIM應用程序的例子可能會攝取純文本,並識別實體,如人、地點、組織;或關係,如works-for或located-at UIMA使應用程序能夠被分解成組件,例如 “語言識別”=>“語言特定分割”=>“句子邊界檢測”=>“實體檢測(人名/地名等)”。每個組件實現框架定義的接口,並通過XML描述符文件提供自我描述的元數據。

14 KNIME Analytics Platform Community
KNIME分析平臺是數據驅動創新的領先的開放式解決方案,幫助你發現隱藏在數據中的潛力,挖掘新的洞察力,或預測新的未來。KNIME分析平臺擁有超過1000個模塊,數百個隨時可運行的示例,全面的集成工具,以及最廣泛的高級算法選擇,是任何數據科學家的完美工具箱。大量的原生節點、社區貢獻和工具集成使 KNIME 分析平臺成爲任何數據科學家的完美工具箱。

15 TANAGRA
Tanagra代表了學術和研究用途的免費數據挖掘軟件。它提供了探索性數據分析、統計學習、機器學習和數據庫領域的多種數據挖掘方法。它是SIPINA的後繼者,這意味着它提供了各種監督學習算法,尤其是決策樹的交互式和可視化構建。因爲它不僅包含了監督學習,還包含了聚類、因子分析、參數和非參數統計、關聯規則、特徵選擇和構造算法等其他範式,所以Tanagra非常強大。

16 Rattle GUI
Rattle是免費的開源軟件,源代碼可以從Bitbucket倉庫中獲得。Rattle給用戶提供了審查代碼的自由,用戶可以將其用於任何用戶喜歡的目的,也可以隨意擴展,不受限制。Rattle是一個流行的使用R進行數據挖掘的GUI,它可以呈現數據的統計和可視化摘要,轉換可以隨時建模的數據,從數據中建立無監督和監督模型,以圖形方式呈現模型的性能,並對新數據集進行評分。

17 CMSR Data Miner
StarProbe Data Miner或CMSR Data Miner Suite是一款軟件,它爲預測建模、分割、數據可視化、統計數據分析和基於規則的模型評估提供了一個集成環境。對於高級用戶,還提供了集成分析和規則引擎環境。該軟件具有很多特點,如:深度學習建模RME-EP代表了非常強大的專家系統外殼規則引擎,支持神經網絡、自組織地圖、決策樹、迴歸等預測建模。它在開發過程中使用了類似SQL的表達式,用戶可以非常方便快捷的學習。

18 OpenNN
OpenNN是一個用C++編程語言編寫的開源類庫,它實現了機器學習研究的主要領域–神經網絡。該庫實現了任意層數的非線性處理單元,用於監督學習。這種深度架構可以設計出具有通用近似特性的神經網絡。OpenNN的主要優勢是其高性能。它採用C++開發,以實現更好的內存管理和更高的處理速度,並通過OpenMP實現CPU並行化,用CUDA實現GPU加速。OpenNN是用ANSI C++編寫的。

19 Dataiku DSS Community
Dataiku DSS是數據科學家、數據分析師和工程師團隊的協作式數據科學軟件平臺,可供數據科學家、數據分析師和工程師團隊更高效地探索、原型化、構建和交付自己的數據產品。Dataiku開發了獨特的高級分析軟件解決方案,使企業能夠更高效地構建和交付自己的數據產品。Dataiku DSS爲數據科學家和初級分析師提供了一個協作和基於團隊的用戶界面,爲數據項目的開發和部署提供了一個統一的框架,並可立即訪問從頭開始設計數據產品所需的所有功能和工具。

20 DataPreparator
DataPreparator是一款免費的軟件工具,旨在協助完成數據分析和數據挖掘中常見的數據準備(或數據預處理)任務。DataPreparator提供的功能包括:字符刪除、文本替換、日期轉換、刪除所選屬性、移動所選屬性、等寬、等頻、等頻從分組數據中刪除含有缺失值的記錄、刪除含有缺失值的屬性、推算缺失值、從模型中預測缺失值(依賴樹、奈夫貝葉斯模型)、包括缺失值模式、Z-score metho。方塊圖法,創建二元屬性,用指數替換名義值,減少標籤數量,十進制,線性,雙曲正切,軟最大……

21 LIBLINEAR
LIBLINEAR是一個開源庫,數據科學家、開發者和終端用戶都使用它來執行大規模的線性分類。LIBLINEAR易於使用的命令工具和庫調用使數據科學家和開發人員能夠使用LIBLINEAR來執行向量機的物流、迴歸和線性支持。有了LIBLINEAR,開發人員和數據科學家能夠使用與LINLINEAR通用SVM求解器中的LIBSVM相同的數據格式,LINLINEAR通用SVM求解器也有類似的用法。LINLINEAR提供了幾個機器語言接口,可供數據科學家和開發人員使用。

22 Chemicalize.org
Chemicalize提供即時的化學信息學解決方案。它是一個強大的化學計算、搜索和文本處理的在線平臺。計算視圖爲任何分子結構提供基於結構的預測。可用的計算包括元素分析,名稱和標識符,pKa,logP/logD,以及溶解度。搜索視圖可以讓你對Chemicalize數據庫進行基於文本和基於結構的搜索,以找到網頁來源和相關結構的結果。您甚至可以結合基於文本和結構的查詢來實現高級搜索功能。

23 Vowpal Wabbit
Vowpal Wabbit(VW)項目是由Microsoft Research和(先前)Yahoo!贊助的一種快速的核心學習系統。研究。可通過郵件列表獲得支持。擁有快速學習算法的方法有兩種:(a)從慢速算法開始並加快速度,或者(b)建立本質上快速的學習算法。這個項目是關於方法(b)的,目前它已經成爲一種狀態,對於其他人來說,它可以作爲研究和實驗的平臺。

24 mlpy
Mlpy被稱爲機器學習Python,代表了一種基於NumPy / SciPy(用於數學,科學和工程的基於Python的開源軟件生態系統)和GNU科學庫(代表C和C的數值庫)構建的Python機器學習方法。提供大量數學例程(例如隨機數生成器,特殊函數和最小二乘擬合)的C++程序員。針對有監督和無監督的問題提供了廣泛的最新機器學習方法,mlpy旨在在模塊化,可維護性,可再現性,可用性和效率之間找到合理的折衷方案。
25 Dlib
lib是一個現代的C ++工具包,其中包含機器學習算法和工具,以便使用C ++創建複雜的軟件來解決實際問題。它被廣泛用於機器人,嵌入式設備,移動電話和大型高性能計算環境等領域。它是免費的,這意味着用戶可以在任何應用程序中使用它。Dlib的主要功能是:文檔–它爲每個類和函數提供完整而精確的文檔,提供了許多示例程序。

26 CLUTO
Cluto是一個軟件包,用於對低維和高維數據集進行聚類,並分析各種聚類的特徵。它非常適合於聚類數據集,出現在許多不同的應用領域,包括信息檢索,客戶購買交易,網絡,地理信息系統,科學和生物學。CLUTO的發行版包括獨立程序和一個庫,通過這個庫,應用程序可以直接訪問CLUTO中實現的各種聚類和分析算法。該軟件有幾個特點,如多類聚類算法–基於分區、聚類與圖分區;多種相似性/距離函數–歐氏距離、餘弦、相關係數、擴展Jaccard……

27 TraMineR
TraMineR代表的是R-package(用於統計計算和圖形的免費軟件環境,它可以在UNIX平臺、Windows和MacOS等多種平臺上編譯和運行),旨在挖掘、描述和可視化狀態或事件的序列,更一般的是離散序列數據。分析社會科學中的傳記縱向、數據,如描述職業或家庭軌跡的數據,是其主要目標。這個平臺有很多功能,可以適用於很多其他種類的分類序列數據。

28 ROSETTA
ROSETTA是一個在粗糙集理論框架內分析表格數據的工具包。它是爲支持整個數據挖掘和知識發現過程而設計的。從最初的數據瀏覽和預處理,通過計算最小屬性集和生成if-then規則或描述性模式,到驗證和分析誘導規則或模式。這個工具箱並不是專門針對任何特定的應用領域,而是作爲一個基於辨識度建模的通用工具。它提供了高度直觀的GUI環境,在這個環境中,數據導航能力得到了強調。

29 Pandas
Pandas 是一個開源的 BSD 許可庫,爲 Python 編程語言提供高性能、易用的數據結構和數據分析工具。Pandas 是 NUMFocus 贊助的項目。這將有助於確保 pandas 作爲一個世界級的開源項目的成功開發,並使其有可能對項目進行捐贈。獲取 pandas 的最佳方式是通過 conda 安裝,Python 2.7、Python 3.4 和 Python 3.5 的 osx-64、linux-64、linux-32、win-64、win-32 的 Builds 都可用。

30 Fityk
Fityk是一個數據處理和非線性曲線擬合的程序。它主要用於分析粉末衍射、色譜、光致發光和光電光譜、紅外和拉曼光譜等實驗技術數據的科學家,也用於擬合峯-鐘形函數(高斯、洛倫茲、Voigt、Pearson VII、二叉高斯。EMG、Doniach-Sunjic等),但它適用於任何曲線與二維(x,y)數據的擬合。

31 KEEL
KEEL(Knowledge Extraction based on Evolutionary Learning)是一個開源(GPLv3)的Java軟件工具,可用於大量不同的知識數據發現任務。KEEL提供了一個簡單的基於數據流的GUI,用於設計不同數據集和計算智能算法(特別關注進化算法)的實驗,以評估算法的行爲。它包含了各種經典的知識提取算法、預處理技術(訓練集選擇、特徵選擇、離散化、缺失值的推算方法等)、基於計算智能的學習算法、混合模型、對比實驗的統計方法等。

32 ADaMSoft
ADaMSoft是一個免費開源的數據管理、數據和網絡挖掘、統計分析系統。ADaMSoft提供的程序有:主成分分析、文本挖掘、網絡挖掘、三路時間數組分析、模糊因變量線性迴歸、實用程序、合成表、在ADaMSoft中導入數據表(文件)(創建字典)、圖表、神經網絡(MLP)、定性變量的關聯測量。線性代數、評估函數逼近的結果、數據管理、函數擬合、誤差定位和數據推算、決策樹、定量變量的統計、記錄聯繫、評估分類模型的結果、聚類分析(k-means法)、對應分析、等……

33 Sentic API
Sentic API提供了SenticNet 4的語義和感性,如與概念相關的指代和內涵信息,SenticNet 4是一個常識性知識的語義網絡,它包含了5萬個單詞和多詞表達的節點,以及節點之間關係的數千個連接。Sentic API有40種不同的語言,用戶可以有選擇地在線訪問最新版本的知識庫。

34 ML-Flex
ML-Flex使用機器學習算法從獨立變量中導出模型,目的是預測因變量(類變量)的值。例如,機器學習算法早已應用於Ronald Fisher爵士於1936年引入的Iris數據集,該數據集包含四個獨立變量(萼片長度、萼片寬度、花瓣長度、花瓣寬度)和一個因變量(Iris花的種類=setosa、versicolor或virginica)。從四個獨立變量中推導出預測模型,機器學習算法通常可以以近乎完美的精度區分。

35 Databionic ESOM
Databionics ESOM工具提供了許多使用新興自組織地圖(ESOM)的數據挖掘任務。使用數據仿生學原理對高維數據進行可視化、聚類和分類,可以交互式或自動進行。它的功能包括ESOM訓練、U-Matrix可視化、探索性數據分析和聚類、ESOM分類以及U-Maps的創建。Databionic ESOM Tools是一套程序,用於執行數據挖掘任務,如使用新興自組織地圖(ESOM)進行聚類、可視化和分類。其特點包括使用不同的初始化方法、訓練算法、距離函數、參數冷卻策略、ESOM網格拓撲結構和鄰域核來訓練ESOM。

36 MALLET
MALLET被稱爲Machine Learning for LanguagE Toolkit,是一個基於Java的軟件包,用於自然語言統計處理、文檔分類、聚類、主題建模、信息提取和其他機器學習應用於文本。它提供了複雜的文檔分類工具–用於將文本轉換爲 "特徵 "的高效例程、多種算法(包括奈夫貝葉斯、最大熵和決策樹),以及使用幾種常用指標評估分類器性能的代碼。它還提供了用於從文本中提取命名實體等應用的序列標記工具。

37 streamDM
streamDM是一款使用Spark Streaming挖掘大數據流的開源軟件,由華爲諾亞方舟實驗室開發。本軟件採用Apache Software License v2.0授權。如今,大數據流學習更具挑戰性,因爲數據在流的生命週期內可能不會保持相同的分佈。學習算法需要非常高效,因爲每一個流來的例子都可以處理一次,或者這些例子需要用很小的內存佔用來總結。

38 ADaM
ADaM用於將數據挖掘技術應用於遙感數據和其他科學數據。挖掘和圖像處理工具包由可互操作的組件組成,這些組件可以通過各種方式連接在一起,應用於不同的問題領域。ADaM有超過100個組件,可以進行配置,以創建定製的挖掘過程。預處理和分析工具幫助用戶將數據挖掘應用於其具體問題。

39 MiningMart
MiningMart可以幫助縮短這個時間。MiningMart項目旨在爲決策者提供新的技術,使他們能夠直接訪問存儲在數據庫、數據倉庫和知識庫中的信息。其主要目標是通過提供以下目標來支持用戶做出智能選擇。直接進入數據庫的預處理操作員;使用機器學習進行預處理;詳細記錄成功的案例;高質量的發現結果;可擴展到非常大的數據庫和自動選擇或改變表示的技術。

40 Modular toolkit for Data Processing
模塊化數據處理工具包(MDP)是一個廣泛使用的數據處理算法庫,可以按照流水線類比進行組合,構建更復雜的數據處理軟件。從用戶的角度來看,MDP由監督和非監督學習算法的集合,以及其他數據處理單元(節點)組成,這些單元可以組合成數據處理序列(流)和更復雜的前饋網絡架構。給定一組輸入數據,MDP負責連續訓練或執行網絡中的所有節點。

41 Jubatus
Jubatus支持的基本任務包括分類、迴歸、聚類、最近鄰、離羣檢測和推薦。Jubatus是第一個在大數據數據流上進行在線分佈式機器學習的開源平臺。Jubatus採用鬆散的模型共享架構,通過定義三個基本操作,實現機器學習模型的高效訓練和共享。更新、混合和分析,與Hadoop中的Map和Reduce操作方式類似。此外,Jubatus還支持可擴展的機器學習處理。它可以使用商品硬件集羣每秒處理100000個或更多數據。

42 LIBSVM
LIBSVM是一個支持向量機(SVM)的庫。LIBSVM提供的工具有:多核LIBLINEAR、分佈式LIBLINEAR、增量學習和減量學習的LIBLINEAR、單對單多類分類的LIBLINEAR、大規模rankSVM、超過2^32個實例/特徵的LIBLINEAR(實驗)、數據無法放入內存時的大型線性分類、數據實例的權重。

43 Arcadia Data Instant
Arcadia Data Instan使用智能加速技術,通過靈活的拖放式訪問實現超快的分析和BI。Arcadia Data Instant提供了一個集羣內執行引擎,可以在Apache Hadoop和其他現代數據平臺上實現無數據移動的擴展性能。Arcadia Data Instant支持Apache Kafka上的可視化。通過這一點,用戶有一個很好的平臺來快速下載一個工具包,並開始探索Kafka主題的可視化。Arcadia Data Instant提供的主要功能包括連接、發現、建模、可視化、交互、管理、擴展、優化、安全、共享和發佈以及高級分析。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章