诗韵项目---------启程

原創

Static Final

2020-07-05 11:06

1.项目介绍：

主要是通过抓取互联网上的诗词，然后进行数据的采集，解析，存储，数据分析，输出报告。

2.功能

数据采集，解析，存储

数据分析，可视化展示

3. 技术

Stream流式处理：Stream 就如同一个迭代器（Iterator），单向，不可往复，数据只能遍历一次，遍历过一次后即用尽了，就好比流水从面前流过，一去不复返。

而和迭代器又不同的是，Stream 可以并行化操作，迭代器只能命令式地、串行化操作。顾名思义，当使用串行方式去遍历时，每个 item 读完后再读下一个 item。而使用并行去遍历时，数据会被分成多个段，其中每一个都在不同的线程中处理，然后将结果一起输出。Stream 的并行操作依赖于 Java7 中引入的 Fork/Join 框架（JSR166y）来拆分任务和加速处理过程。

参考：

https://blog.csdn.net/qq_20989105/article/details/81234175

优点：java 8 使用 Stream，代码更加简洁易读；而且使用并发模式，程序执行速度更快。
#####清单 2. Java 8 的排序、取值实现



List<Integer> transactionsIds = transactions.parallelStream().
 filter(t -> t.getType() == Transaction.GROCERY).
 sorted(comparing(Transaction::getValue).reversed()).
 map(Transaction::getId).
 collect(toList());

文本分词和解析（ ansj ）：对于分词来说，最重要的任务无非就是拿到切分以后的结果(词)。

参考博客：https://blog.csdn.net/bitcarmanlee/article/details/53607776

网页解析工具（ htmlunit ）：用来做网页的解析工具

参考博客：https://blog.csdn.net/qq_33440781/article/details/73012480

数据库和JDBC编程

参考博客：https://www.cnblogs.com/HuiTai/p/JAVA2.html

XML:

gson：String=>Object/Object=>string

lombok：通过一个jar包(运行时不需要，编译时需要），添加相应的注解，让它自己生成，在开发工具时，需要装一个插件，编译时自动生成代码的库.

1.IDEA安装lombok插件，

2.设置中启用注释处理器

maven-jar-plugin：配置打包插件，设置主类和classpath

maven-dependency-plugin：配置依赖插件，复制程序依赖的jar包

数据可视化（ HTML/CSS/JavaScript , echarts , jQuery ）

参考博客：

Sparkjava嵌入式Web容器快速构建web应用：基于jetty嵌入式 java Web容器开发的 Web应用框架-第三方的
Spark 专门为大数据处理而设计的快速通用的计算引擎，  内存，实时的
Hadoop 实现一个分布式文件系统，两步计算，接收流计算 磁盘，离线的
参考博客：
DIY(Do It Yourself)构建对象管理工程

参考博客：

还未完善，请见谅！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

诗韵项目---------启程

参考：

如何使用 JS 判断用户是否处于活跃状态

通过HPA+CronHPA组合应对业务复杂弹性伸缩场景

❤️‍🔥 Solon Cloud Event 新的事务特性与应用

聊天寶（升級版）

Java類集--------1

詩韻項目---------啓程

計算機網絡中PC和路由器之間的流程圖

反射1------JAVA

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結