詩韻項目---------啓程

1.項目介紹:

        主要是通過抓取互聯網上的詩詞,然後進行數據的採集,解析,存儲,數據分析,輸出報告。

2.功能

數據採集,解析,存儲

數據分析,可視化展示

3. 技術

  • Stream流式處理:Stream 就如同一個迭代器(Iterator),單向,不可往復,數據只能遍歷一次,遍歷過一次後即用盡了,就好比流水從面前流過,一去不復返。

       而和迭代器又不同的是,Stream 可以並行化操作,迭代器只能命令式地、串行化操作。顧名思義,當使用串行方式去遍歷時,每個 item 讀完後再讀下一個 item。而使用並行去遍歷時,數據會被分成多個段,其中每一個都在不同的線程中處理,然後將結果一起輸出。Stream 的並行操作依賴於 Java7 中引入的 Fork/Join 框架(JSR166y)來拆分任務和加速處理過程。

 參考:

https://blog.csdn.net/qq_20989105/article/details/81234175

優點:java 8 使用 Stream,代碼更加簡潔易讀;而且使用併發模式,程序執行速度更快。
#####清單 2. Java 8 的排序、取值實現



List<Integer> transactionsIds = transactions.parallelStream().
 filter(t -> t.getType() == Transaction.GROCERY).
 sorted(comparing(Transaction::getValue).reversed()).
 map(Transaction::getId).
 collect(toList());

 

  • 文本分詞和解析( ansj ):對於分詞來說,最重要的任務無非就是拿到切分以後的結果(詞)。

參考博客:https://blog.csdn.net/bitcarmanlee/article/details/53607776

  • 網頁解析工具( htmlunit ):用來做網頁的解析工具

參考博客:https://blog.csdn.net/qq_33440781/article/details/73012480

  • 數據庫和JDBC編程

參考博客:https://www.cnblogs.com/HuiTai/p/JAVA2.html

 

  • XML:

gson:String=>Object/Object=>string

lombok:通過一個jar包(運行時不需要,編譯時需要),添加相應的註解,讓它自己生成,在開發工具時,需要裝一個插件,編譯時自動生成代碼的庫.

                      1.IDEA安裝lombok插件,

                      2.設置中啓用註釋處理器

maven-jar-plugin:配置打包插件,設置主類和classpath

maven-dependency-plugin:配置依賴插件,複製程序依賴的jar包

 

 

  • 數據可視化( HTML/CSS/JavaScript , echarts , jQuery
  • 參考博客:
  •  
  • Sparkjava嵌入式Web容器快速構建web應用:基於jetty嵌入式 java Web容器開發的 Web應用框架-第三方的
  • Spark 專門爲大數據處理而設計的快速通用的計算引擎,  內存,實時的
  • Hadoop 實現一個分佈式文件系統,兩步計算,接收流計算 磁盤,離線的
    參考博客:
  • DIY(Do It Yourself)構建對象管理工程
  • 參考博客:

還未完善,請見諒!

        

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章