台部落Cincinnati

1、登錄FTP: > ftp 192.168.1.111 21 > username > password > cd sip_test > put filename 記得給文件777權限

2020-06-29 18:20:04

pg_dump -n 'tel_mat' tel_mat > /home/postgres/tel_mat.sql 備份一個模式 -N 可以排除一個模式

2020-06-29 17:41:59

Spark SQL數據的加載與保存加載數據 1）read直接加載數據 scala> spark.read. csv jdbc json orc parquet textFile… … 注意：加載數據的相關參數需寫到上

2020-06-29 17:41:59

這是一個寫的熱點問題: 1.熱點寫問題表現在大量的寫請求集中在一個region上，造成單點壓力大，降低寫效率. 2.解決方法.創建表的指定多個region，默認情況下一個表一個region，剛開始寫的時候就會造成所有的寫請求都寫到一個r

2020-06-29 17:41:59

Spark 三大數據結構 Spark 有三大數據結構 RDD、廣播變量、累加器。 rdd 是彈性分佈式數據集。廣播變量: 分佈式只讀共享變量。累加器: 分佈式只寫共享變量。 Spark 累加器默認累加器 packa

2020-06-29 17:41:59

postgre sql 累計和 hive sql sql功能 Hive length ，split的用法 # 類似 hive split的函數，自己定義的 create or replace function ypl_str2Ar

2020-05-02 03:27:08

1、創建個目錄，進入目錄後執行 C:\dns_white_server\> git init 2、切換分支，克隆 dev 分支項目到文件目錄下 > 註冊的一下 > git config --global user.name "lil

2020-04-16 20:19:33

最基礎的目錄初始化的目錄結構: ginger 是入口腳本保持和項目名稱一致: from app.app import create_app app = create_app() if __name__ == '__main

2020-04-12 12:16:55

SparkSQL Spark SQL 是spark用來處理結構化數據的一個模塊，它提供了兩個編程抽象，DataFrame 和 DataSet 並且作爲分佈式SQL 查詢引擎作用。 Hive SQL 是將 MR 作業提交到集羣上執行

2020-03-02 22:20:19

RDD 中的傳遞在實際開發中，我們常常定義一些對應rdd的操作，那麼需要注意的是。初始化工作是所在Driver 端進的，而實際運行程序是在Executor 端進行的，這就涉及到了跨進程通信，需要序列化。傳遞一個方法、傳遞一

2020-03-01 01:49:05

RDD 與 MYSQL 交互: poml.xml 文件依賴： <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</ar

2020-03-01 01:49:05

1、創建工程在這裏添加 spark core包，添加bulid 插件。 <groupId>com.ypl.bigdata</groupId> // 這裏添寫包名稱 <artifactId>spark-200226</artif

2020-02-28 02:51:15

測試專用Demo 修改Flume 的配置文件我用的CDH 版本的 CM (Clouder Manager) 來修改的配置進行的測試: 1、打開 Flume 2、點擊配置修改配置文件 3、粘貼測試Demo內容到 Ag

2020-02-25 20:34:47

create table `t_hive_dm_pv_count`( `source_name` string, `pv` bigint, `s_time` timestamp, `acct_hour` timestamp, `ypl_

2020-02-25 20:34:47

[root@cdh1 home]# hadoop fs -ls / Found 3 items drwxr-xr-x - hbase hbase 0 2019-12-05 18:02 /hbase drwx

2020-02-25 20:34:47