原创 單機區塊鏈理解
區塊鏈是一種分佈式的、不可篡改的記錄數據的技術。它是由一系列數據塊(Blocks)組成的鏈式結構,每個數據塊包含了一定數量的交易信息和與之相關的元數據。每個數據塊都通過密碼學哈希函數與前一個數據塊連接起來,形成了一個不斷增長的鏈式結構。
原创 Hivesql字符截取函數錯用
1.背景 最近在使用instr進行字符截取時出現了字符截斷的情況,案例是需要獲取出"紅河哈尼族矯族自治州(xxxx(紅河)有限公司)"裏面的"xxxx(紅河)有限公司"內容,結果獲取到的內容是"xxxx(紅河",該語句針對只
原创 Python自動化測試工具Selenium使用踩坑
1.背景 最近看同事在搞自動化測試,便想着自己在本地搭建一個自動化點擊頁面環境。主要是Selenium操作谷歌遊覽器進行訪問百度,然後搜索關鍵詞,獲取搜索的內容。 2.環境準備 (1)查看本地谷歌遊覽器版本號,點擊遊覽器右上
原创 本地測試Spark的svm算法
上一篇介紹了邏輯迴歸算法,發現分類效果不好,通過這次的svm發現是因爲訓練數據不行,於是網上找了部分訓練數據,發現實際上分類效果還可以。 訓練數據,第一個值是標籤,下面的數據是某種花的相關特徵。 1|5.1,3.5,1.4,0.2
原创 本地測試Spark的邏輯迴歸算法
本地小數據量測試了一下Spark的LogisticRegressionWithSGD算法,效果不盡如人意。 數據樣例如下,豎槓前的0,1代表兩種類型,後面逗號隔開的是兩個特徵,兩個特徵只要有一個大於等於0.6就會被分爲1這一類,否則
原创 極驗驗證碼破解思路
1.背景 最近整理以前的文件,發了一篇有意思的關於極驗驗證碼破解思路的文章。現在回過頭來思考感覺挺有意思的,分享給大家。 百度百科對極驗的定義如下: 極驗驗證是一種在計算機領域用於區分自然人和機器人的,通過簡單集成的
原创 Sqoop參數使用大全
最近看了以前寫的Sqoop腳本,就順手整理一下數據導入導出的相關參數使用方法及解釋。 參數 解釋 --connect <jdbc-uri> 關係數據庫連接地址,比如mysql的 jdbc:mysql://xx.x.35.x
原创 數倉數據導出mysql保留換行符踩坑
記錄一個導數的小坑,數倉裏面的數據需要導出到mysql,然後報表展示,並且需要把一段文字裏面的換行功能體現出來;數倉裏面的原始數據採用的是$符號進行分割每一行數據,直接把$符號替換爲\n然後導出到mysql,發現沒有生效,反而在頁面上把
原创 數倉彙總表的類型彙總
數倉中表類型有很多,這裏羅列一下數倉中各種表的區別及使用場景。 1.拉鍊表 (1)記錄一個實體的所有歷史狀態變化。 (2)每個狀態都有一個起始日期,目前有效的這一條可用很大的日期表示,比如2999-01-01等。 (3)當狀態發生變化時
原创 設計事實表的注意事項
事實表主要由兩部分組成,一部分是主鍵和外鍵組成的鍵值部分,另一部分是用來描述業務過程的事實度量,也不排除部分設計人員把部分維度退化進去,從而使事實表再加一部分退化維度。在維度建模中事實表的設計一般遵循五大步驟:1.確定業務過程-》2.定義粒
原创 離線數倉數據源變更及應對方案
離線數倉數據源的變化對數倉的影響是巨大的,所以我們不但要做好事後監控,也要做好事前的各種流程制度規範,比如所有業務的升庫語句需要DBA對其進行管控,只能由DBA進行升庫處理,並且做好處理記錄,同時把相關變更通知到數據部門。爲了防止有導致異常
原创 組織變更數據統計應對方法
組織架構是公司的核心,組織變更頻繁,對於數據統計是一個頭疼的事情,尤其是業績計算歸屬的時候,所以在制定數倉規範時,一定要有各方一致認可的應對方案。組織變化一般分爲以下幾種情況: 1.組織名稱調整2.人員換部門3.部門換層級4.部門廢棄 其
原创 大寬表數據邏輯覈對方法
1.背景 上層應用表目前基本採用的是大寬表的方式進行呈現,查看數據的運營人員總懷疑數據有誤,所以會抽查一些數據進行手工計算覈查,以便驗證數據開發人員是否按照要求開發完成,這其實是很有必要的過程,很多時候測試也測了,但是在
原创 數倉調度輔助功能效率提升
調度是數倉數據生成的執行者,好的調度可以事半功倍,目前市面上的調度很多,比如DolphinScheduler、Oozie、Azkaban等調度工具,當然也可自行開發適合自己企業個性化的調度工具。調度工具怎麼實現這裏暫且不談,核心談一下
原创 數倉調度輔助功能效率提升
調度是數倉數據生成的執行者,好的調度可以事半功倍,目前市面上的調度很多,比如DolphinScheduler、Oozie、Azkaban等調度工具,當然也可自行開發適合自己企業個性化的調度工具。調度工具怎麼實現這裏暫且不談,核心談一下調度除