原创 Spark支持Scala連接數據庫

數據庫設計: CREATE DATABASE bigdata; USE bigdata; CREATE TABLE `t_student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` v

原创 Spark爲什麼要設計寬窄依賴?

  其實在回答這個問題的時候,首先要明白什麼是窄依賴和寬依賴。 窄依賴: 父RDD的一個分區只會被子RDD的一個分區依賴 對於窄依賴        #1:Spark可以並行計算        #2:如果有一個分區數據丟失,只需要從父R

原创 RDD的方法

方法 介紹 簡單使用  flatmap 對RDD中的每一個元素進行先map再壓扁,最後返回操作的結果 scala> sc.parallelize(Array("a b c", "d e f", "h i j")).collect

原创 持久化和Checkpoint的區別

對比:   持久化 Checkpoint 位置 Persist 和 Cache 只能保存在本地的磁盤和內存中(或者堆外內存--實驗中) 保存數據到 HDFS 這類可靠的存儲上 生命週期 Cache和Persist的RDD會在程序結束後會被

原创 Content-Type header [application/x-www-form-urlencoded] is not supported

 解決方法: curl -XPUT http://node01:9200/blog01/article/1?pretty -d  '{"id": "1", "title": "What is lucene"}' -H "Content

原创 如何修改maven的本地倉庫(IDEA版本)

第一步:(xml配置) 換成新的倉庫路徑       第二步:(IDEA配置)   注切換倉庫,以後第一次加載依賴比較慢,這時可以選擇奇特的事,然後慢慢等待吧  

原创 如何更新maven倉庫?

在IDEA中:  

原创 Oozie  任務查看 、 殺死

[root@node-1 oozie-4.1.0-cdh5.14.0]# oozie jobs Job ID                                   App Name     Status    User

原创 大數據常用命令

linux: 1.清理內存 1.清理前查看內存使用情況  free -m 2.釋放前最好sync一下,防止丟數據.因爲LINUX的內核機制,一般情況下不需要特意去釋放已經使用的cache。這些cache起來的內容可以增加文件以及的讀寫

原创 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user/root":root:supergroup:drwx------

問題:  Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user/root":root:supergroup:drwx------   解決方法: [ro

原创 redis的數據結構和內部編碼

數據結構 redis的數據類型分爲:string(字符串)、hash(哈希)、list(列表)、set(集合)、zset(有序集合)   底層內部編碼:  底層的內部編碼實現,而且是多種實現,這樣Redis會在合適的場景選擇合適的內部編

原创 HBase啓動報錯: Error: JAVA_HOME is not set

解決方法:

原创 逆向工程使用教程

項目設計: 新建maven項目,目錄如下:   pom.xml  <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/

原创 數據可視化注意事項

注意事項 :(與之前自己使用的不太一樣) 前後端數據格式問題 : 在使用echarts過程中,前端大量需要json格式數據  因此需要在後端查詢數據的時候最終轉化成符合前端的json格式數據 數據排序的問題 : 涉及到表格展示 時間