台部落chenyanlong

原创 Spark支持Scala連接數據庫

數據庫設計： CREATE DATABASE bigdata; USE bigdata; CREATE TABLE `t_student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` v

2019-09-02 17:55:19

原创 Spark爲什麼要設計寬窄依賴？

其實在回答這個問題的時候，首先要明白什麼是窄依賴和寬依賴。窄依賴: 父RDD的一個分區只會被子RDD的一個分區依賴對於窄依賴 #1：Spark可以並行計算 #2：如果有一個分區數據丟失，只需要從父R

2019-09-02 17:55:19

1

原创 RDD的方法

方法介紹簡單使用 flatmap 對RDD中的每一個元素進行先map再壓扁,最後返回操作的結果 scala> sc.parallelize(Array("a b c", "d e f", "h i j")).collect

2019-09-02 17:55:19

原创持久化和Checkpoint的區別

對比：持久化 Checkpoint 位置 Persist 和 Cache 只能保存在本地的磁盤和內存中(或者堆外內存--實驗中) 保存數據到 HDFS 這類可靠的存儲上生命週期 Cache和Persist的RDD會在程序結束後會被

2019-09-02 17:55:19

原创 Spark程序怎麼從一個目錄下遞歸的讀取文件

2019-09-02 17:55:19

原创 Content-Type header [application/x-www-form-urlencoded] is not supported

解決方法： curl -XPUT http://node01:9200/blog01/article/1?pretty -d '{"id": "1", "title": "What is lucene"}' -H "Content

2019-08-23 03:48:38

2

原创如何修改maven的本地倉庫（IDEA版本）

第一步：（xml配置）換成新的倉庫路徑第二步：（IDEA配置）注切換倉庫，以後第一次加載依賴比較慢，這時可以選擇奇特的事，然後慢慢等待吧

2019-08-23 03:48:38

2

原创如何更新maven倉庫？

在IDEA中：

2019-08-15 03:33:58

原创 Oozie 任務查看、殺死

[root@node-1 oozie-4.1.0-cdh5.14.0]# oozie jobs Job ID App Name Status User

2019-08-13 17:43:59

原创大數據常用命令

linux： 1.清理內存 1.清理前查看內存使用情況 free -m 2.釋放前最好sync一下，防止丟數據.因爲LINUX的內核機制，一般情況下不需要特意去釋放已經使用的cache。這些cache起來的內容可以增加文件以及的讀寫

2019-08-13 17:43:59

原创 Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user/root":root:supergroup:drwx------

問題： Permission denied: user=dr.who, access=READ_EXECUTE, inode="/user/root":root:supergroup:drwx------ 解決方法： [ro

2019-08-13 17:43:59

2

原创 redis的數據結構和內部編碼

數據結構 redis的數據類型分爲：string（字符串）、hash（哈希）、list（列表）、set（集合）、zset（有序集合）底層內部編碼：底層的內部編碼實現，而且是多種實現，這樣Redis會在合適的場景選擇合適的內部編

2019-08-13 17:43:59

原创 HBase啓動報錯： Error: JAVA_HOME is not set

解決方法：

2019-08-13 17:43:59

2

原创逆向工程使用教程

項目設計：新建maven項目，目錄如下： pom.xml <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/

2019-08-13 17:43:59

原创數據可視化注意事項

注意事項：（與之前自己使用的不太一樣）前後端數據格式問題：在使用echarts過程中，前端大量需要json格式數據因此需要在後端查詢數據的時候最終轉化成符合前端的json格式數據數據排序的問題：涉及到表格展示時間

2019-08-13 17:43:59