原创 hive鎖表操作

當hive表被鎖住後,進行drop insert操作時都出掛起等待,sqoop也無法導入數據,此時就需要先對hive表解鎖再進行相關操作。 1. 查看是否鎖表 SHOW LOCKS <TABLE_NAME>; SHOW LOCKS

原创 瞭解數據倉庫

面臨的場景 公司要搞數據分析,但是數據存儲在不同的數據庫中,有的在mysql,有的在oracle甚至有的是第三方數據,需要把這些數據整合在一起進行統一的分析處理。   怎麼找到一個合理而且主流的解決方案呢?經過技術調研,我們發現這正是數

原创 Hive數據組織方式介紹

Hive和普通DB的異同   Hive將元數據存儲在RDBMS中,一般使用的數據庫有mysql和derby。 默認的情況下hive將元數據保存在內嵌的derby數據庫中,但是隻能允許一個會話連接,只適合做簡單的測試。這種部署當時在實際生

原创 python __init__.py的主要作用

__init__.py的主要作用 Python中 package的標識 在__init__.py中定義__all__用來模糊導入 編寫Python代碼(不建議這麼做,實際的邏輯可以在其他py文件中寫,__init__.py應該儘量輕) p

原创 數據倉庫工具之hive介紹

Hive是基於hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供類SQL查詢功能。本質是將SQL轉換爲MapReduce程序。 hive的主要用途:用來做離線數據分析,比直接用MapReduce程序開發效

原创 渠道反作弊之常見行業手段

總結 對用戶設備物理信息的採集,通過技術手段識別是否異常,或以來後臺類似黑名單的資源進行判斷。未來較爲先進的手段有檢測設備的環境信息,例如是否有觸摸,設備位置角度是否有變化等,同盾在近半年可能會使用這種方式。 從用戶效果數據的角度進行分析