原创 Day04:Window系統運行常用命令

命令 含義 說明 cmd 打開命令編輯器   mstsc 打開遠程桌面   calc 打開計算器   taskmgr 打開任務處理器   regedit 打開註冊表編輯器   notepad 打開記事本   mspaint 打開畫圖  

原创 離線數倉-數據漂移

數據漂移:ODS的表在同一個業務日期數據中包含前一天或者後一天凌晨附近的數據或者丟失當天的變更數據  

原创 接受入參工具類ParameterTool

一、Flink中的ParameterTool工具類 // // Source code recreated from a .class file by IntelliJ IDEA // (powered by Fernflower de

原创 標籤體系

  標籤定義 利用原始數據,通過一定的加工邏輯產出,能夠爲業務所直接使用的可閱讀、易理解、有業務價值的數據 數據在哪裏 數據人員:xx庫xx表xx字段 業務人員:xx 對象 xx 標籤

原创 Elasticsearch Restful 操作數據

_index 索引(文檔存儲的地方) _type 文檔存儲的類型 _id 文檔的唯一標識 curl是利用URL語法在命令行方式下工作的開源文件傳輸工具,使用curl可以簡單實現常見的get/post請求。簡單的認爲是可以在命

原创 理解MySQL索引B+樹與事務

1、索引 參考博客: http://www.liuzk.com/410.html 2、事務 一、事務的基本要素(ACID)     1、原子性(Atomicity):事務開始後所有操作,要麼全部做完,要麼全部不做,不可能停滯在中間環節。事

原创 Python基礎與高級

類型 Numbers(數字):int|logn|float|complex 布爾:true、false String(字符串) List(列表) Tuple(元組) 元組的元素不能修改 D

原创 海量日誌數據處理

1、海量日誌TOPN 對不能完全加載到內存中處理的海量數據,考慮“分而治之”+Hash的算法思想  1.按照標識字段的Hash(IP)%1024(根據具體情況設置)值,把海量日誌分別存儲到1024個小文件中(每個標識所有數據只會存儲到1個

原创 hive、sparksql統計每小時的在線人數、訪問時長、平均訪問時長

一、業務場景描述 vpn的訪問日誌有三個字段,用戶名、時間、狀態, 如 張三、‘2020-04-28 10:00:00'、’login',即張三這個用戶10點登陸了vpn 如 張三、‘2020-04-28 11:10:00'、’login

原创 ES 基本CURL操作

基本命令詳見官網:https://www.elastic.co/guide/en/elasticsearch/reference/5.4/index.html _index 索引(文檔存儲的地方) _type 文檔存儲的類型 _i

原创 知網資源免費下載——杭州圖書館

在杭州繳納過社保的杭州圖書館默認會爲其開通賬號 進入杭州圖書館 https://www.hzlib.net/ 點擊登錄 卡號爲身份證號,初始密碼爲身份證9-14位 3. 進入後,點擊 電子資源----》更多----》中國知網CNKI

原创 Linux常用命令

linux # mac常用 vim gg 第一行 G 最後一行 ^ (shift+6) 行首 $(shift+4)行尾 u 撤消操作 ctrl+r 恢復上一步的撤銷操作 open .    # 打開當前目錄、文件 open -n /App

原创 ES知識點

Elasticsearch是個開源分佈式搜索引擎,提供蒐集、分析、存儲數據三大功能。它的特點有:分佈式,零配置,自動發現,索引自動分片,索引副本機制,restful風格接口,多數據源,自動搜索負載等。在ES中,索引(index)指的是具有

原创 hive知識點

-- 創建並使用數據庫 create database db_0625; use db_0625; -- 創建內部表 create table if not exists t_0625(sid int,sname string)    

原创 Elasticsearch配置

# # ---------------------------------- Cluster ----------------------------------- # 集羣名稱 cluster.name: my-application