基于JAVA的数据挖掘算法（ID3算法、K-means算法）

原創

HRBU_小欣

2020-06-26 02:19

(注:本项目为原创项目若转载或引用请联系QQ504546888 备注数据挖掘算法提供前后台)

开发环境

Eclipse 4.2.2 (Juno)
JDK 1.8

代码结构

algorithm -- 算法集，可自由加入算法
- ID3 -- ID3 实现
- Kmeans -- K-means 实现
data -- 数据结构
- DataSet.java -- 数据集类
- Attribute.java -- 属性类
- Instance.java -- 实例（数据）类
gui -- 界面集
- Main.java -- 主面板
- AnalysisPanel.java -- 分析面板
- DataPanel.java -- 数据面板
util -- 工具集
- Reader.java -- 数据读取工具

数据挖掘是一个以数据库、人工智能、数理统计、可视化四大支柱技术为基础，我们知道，描述或说明一个算法设计分为三个部分：输入、输出和处理过程。数据挖掘算法的输入是数据库，算法的输出是要发现的知识或模式，算法的处理过程则设计具体的搜索方法。从算法的输入、输出和处理过程三个角度分，可以确定数据挖掘主要涉及三个方面：挖掘对象、挖掘任务、挖掘方法。挖掘对象包括若干种数据库或数据源，例如关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、历史数据库，以及万维网（WEB）等。挖掘方法可以粗分为：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为：回归分析、判别分析等。机器学习可细分为：遗传算法等。神经网络方法可细分为：前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析方法等。

数据挖掘（Data Mining）技术由此应运而生，数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。但是并非所有的信息发现任务都被视为数据挖掘，例如，使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的Web页面，则是信息检索（information retrieval）领域的任务。

NLPIR大数据语义智能分析平台(原ICTCLAS）是北京理工大学大数据搜索与挖掘实验室张华平主任研发，针对大数据内容采编挖搜的综合需求，融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果，先后历时近二十年的不断创新。平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。