1.項目介紹:
主要是通過抓取互聯網上的詩詞,然後進行數據的採集,解析,存儲,數據分析,輸出報告。
2.功能
數據採集,解析,存儲
數據分析,可視化展示
3. 技術
- Stream流式處理:Stream 就如同一個迭代器(Iterator),單向,不可往復,數據只能遍歷一次,遍歷過一次後即用盡了,就好比流水從面前流過,一去不復返。
而和迭代器又不同的是,Stream 可以並行化操作,迭代器只能命令式地、串行化操作。顧名思義,當使用串行方式去遍歷時,每個 item 讀完後再讀下一個 item。而使用並行去遍歷時,數據會被分成多個段,其中每一個都在不同的線程中處理,然後將結果一起輸出。Stream 的並行操作依賴於 Java7 中引入的 Fork/Join 框架(JSR166y)來拆分任務和加速處理過程。
參考:
https://blog.csdn.net/qq_20989105/article/details/81234175
優點:java 8 使用 Stream,代碼更加簡潔易讀;而且使用併發模式,程序執行速度更快。
#####清單 2. Java 8 的排序、取值實現
List<Integer> transactionsIds = transactions.parallelStream().
filter(t -> t.getType() == Transaction.GROCERY).
sorted(comparing(Transaction::getValue).reversed()).
map(Transaction::getId).
collect(toList());
- 文本分詞和解析( ansj ):對於分詞來說,最重要的任務無非就是拿到切分以後的結果(詞)。
參考博客:https://blog.csdn.net/bitcarmanlee/article/details/53607776
- 網頁解析工具( htmlunit ):用來做網頁的解析工具
參考博客:https://blog.csdn.net/qq_33440781/article/details/73012480
- 數據庫和JDBC編程
- XML:
gson:String=>Object/Object=>string
lombok:通過一個jar包(運行時不需要,編譯時需要),添加相應的註解,讓它自己生成,在開發工具時,需要裝一個插件,編譯時自動生成代碼的庫.
1.IDEA安裝lombok插件,
2.設置中啓用註釋處理器
maven-jar-plugin:配置打包插件,設置主類和classpath
maven-dependency-plugin:配置依賴插件,複製程序依賴的jar包
- 數據可視化( HTML/CSS/JavaScript , echarts , jQuery )
- 參考博客:
- Sparkjava嵌入式Web容器快速構建web應用:基於jetty嵌入式 java Web容器開發的 Web應用框架-第三方的
Spark 專門爲大數據處理而設計的快速通用的計算引擎, 內存,實時的
參考博客:Hadoop 實現一個分佈式文件系統,兩步計算,接收流計算 磁盤,離線的
- DIY(Do It Yourself)構建對象管理工程
- 參考博客:
還未完善,請見諒!