原创 上傳文件到FTP

1、登錄FTP: > ftp  192.168.1.111   21 > username > password > cd sip_test > put filename 記得給文件777權限

原创 PG 日常總結

  pg_dump -n 'tel_mat' tel_mat > /home/postgres/tel_mat.sql   備份一個模式 -N 可以排除一個模式

原创 SparkSQL讀寫

Spark SQL數據的加載與保存 加載數據 1)read直接加載數據 scala> spark.read. csv jdbc json orc parquet textFile… … 注意:加載數據的相關參數需寫到上

原创 Hbase 寫請求集中在一個 Region Server

這是一個寫的熱點問題: 1.熱點寫問題表現在大量的寫請求集中在一個region上,造成單點壓力大,降低寫效率.  2.解決方法.創建表的指定多個region,默認情況下一個表一個region,剛開始寫的時候就會造成所有的寫請求都寫到一個r

原创 SPARK三大數據結構

Spark 三大數據結構 Spark 有三大數據結構 RDD、廣播變量、累加器。 rdd 是彈性分佈式數據集。 廣播變量: 分佈式只讀共享變量。 累加器: 分佈式只寫共享變量。 Spark 累加器 默認累加器 packa

原创 postgre sql 累計和 hive sql

postgre sql 累計和 hive sql sql功能 Hive length ,split的用法 # 類似 hive split的函數,自己定義的 create or replace function ypl_str2Ar

原创 git 上傳項目步驟

1、創建個目錄,進入目錄後執行 C:\dns_white_server\> git init 2、切換分支,克隆 dev 分支項目到文件目錄下 > 註冊的一下 > git config --global user.name "lil

原创 Flask後端編寫應用時的基本目錄結構

最基礎的目錄 初始化的目錄結構:   ginger 是入口腳本保持和項目名稱一致: from app.app import create_app app = create_app() if __name__ == '__main

原创 SparkSQL

SparkSQL Spark SQL 是spark用來處理結構化數據的一個模塊,它提供了兩個編程抽象,DataFrame 和 DataSet 並且作爲分佈式SQL 查詢引擎作用。 Hive SQL 是將 MR 作業提交到集羣上執行

原创 RDD 總結

RDD 中的傳遞 在實際開發中,我們常常定義一些對應rdd的操作,那麼需要注意的是。初始化工作是所在Driver 端進的,而實際運行程序是在Executor 端進行的,這就涉及到了跨進程通信,需要序列化。 傳遞一個方法 、傳遞一

原创 RDD 與 mysql 和 Hbase 交互

RDD 與 MYSQL 交互: poml.xml 文件依賴: <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</ar

原创 spark 總結 算子篇

1、創建工程 在這裏添加 spark core包,添加bulid 插件。 <groupId>com.ypl.bigdata</groupId> // 這裏添寫包名稱 <artifactId>spark-200226</artif

原创 Flume 官網生肉變熟肉過程--測試你的Flume 是否和HDFS能正常交互

測試專用Demo 修改Flume 的配置文件 我用的CDH 版本的 CM (Clouder Manager) 來修改的配置進行的測試: 1、打開 Flume     2、點擊配置修改配置文件     3、粘貼測試Demo內容到  Ag

原创 創建parquet 表指定 snappy 壓縮 語句

create table `t_hive_dm_pv_count`( `source_name` string, `pv` bigint, `s_time` timestamp, `acct_hour` timestamp, `ypl_

原创 CDH 無法創建 hdfs 目錄

[root@cdh1 home]# hadoop fs -ls / Found 3 items drwxr-xr-x   - hbase hbase               0 2019-12-05 18:02 /hbase drwx