基于JAVA的数据挖掘算法(ID3算法、K-means算法)

(注:本项目为原创项目 若转载或引用请联系QQ504546888  备注数据挖掘算法 提供前后台)

开发环境

  • Eclipse 4.2.2 (Juno)
  • JDK 1.8

代码结构

  • algorithm -- 算法集,可自由加入算法
    • ID3 -- ID3 实现
    • Kmeans -- K-means 实现
  • data -- 数据结构
    • DataSet.java -- 数据集类
    • Attribute.java -- 属性类
    • Instance.java -- 实例(数据)类
  • gui -- 界面集
    • Main.java -- 主面板
    • AnalysisPanel.java -- 分析面板
    • DataPanel.java -- 数据面板
  • util -- 工具集
    • Reader.java -- 数据读取工具

数据挖掘是一个以数据库、人工智能、数理统计、可视化四大支柱技术为基础,我们知道,描述或说明一个算法设计分为三个部分:输入、输出和处理过程。数据挖掘算法的输入是数据库,算法的输出 是要发现的知识或模式,算法的处理过程则设计具体的搜索方法。从算法的输入、输出和处理过程三个角度分,可以确定数据挖掘主要涉及三个方面:挖掘对象、挖掘任务、挖掘方法。挖掘对象包括若干种数据库或数据源,例如关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据库、多媒体数据库、历史数据库,以及万维网(WEB)等。挖掘方法可以粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。统计方法可细分为:回归分析、判别分析等。机器学习可细分为:遗传算法等。神经网络方法可细分为:前向神经网络、自组织神经网络等。数据库方法主要是多维数据分析方法等。

数据挖掘(Data Mining)技术由此应运而生,数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的。但是并非所有的信息发现任务都被视为数据挖掘,例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。

NLPIR大数据语义智能分析平台(原ICTCLAS)是北京理工大学大数据搜索与挖掘实验室张华平主任研发,针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时近二十年的不断创新。平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章