原创 Hive內嵌集合函數:size,map_keys,map_values,array_contains,sort_array等詳解

0.hive官方函數解釋        hive官網函數大全地址:HIVE官網函數大全地址 Collection Functions Return Type Name(Signature) Description int

原创 Hive內嵌字符處理函數:regexp_extract,regexp_replace,split,replace,translate

1.Hive內嵌函數說明         官方地址:hive函數大全官方地址        Hive字符處理函數系列1:hive內嵌字符串函數1 String Functions Return Type Name(Signature

原创 Hive內嵌表生成函數UDTF:explode,posexplode,json_tuple,parse_url_tuple,stack

0.Hive內嵌表生成函數 Built-in Table-Generating Functions (UDTF) 普通的用戶定義函數,如concat(),接受單個輸入行並輸出單個輸出行。相反,表生成函數將單個輸入行轉換爲多個輸出行 Ro

原创 Hive內嵌字符處理函數:get_json_object,parse_url

  1.Hive內嵌函數對Json字符和網址的解析處理 Return Type Name(Signature) Description string parse_url(string urlString, string par

原创 真正讓你明白Hive調優系列3:笛卡爾乘積,小表join大表,Mapjoin等問題

0.Hive中的優化分類      真正想要掌握Hive的優化,要熟悉相關的MapReduce,Yarn,hdfs底層源碼,明晰Hive的底層執行流程。真正讓你明白Hive調優系列,會徵對下面分類逐一分析演示。 大類1:參數優化 文件輸入

原创 大多數開發人員都弄錯的Hive與MapReduce小文件合併問題

      近來我們公司搞小文件治理(小於10Mb),小文件太多的危害就不此贅述了。公司的開發人員提供的合併小文件治理配置如下: -- 設置小文件合併 set hive.merge.mapfiles=true; set hive.mer

原创 玩轉python中的GIL前世今生與核心用法剖析

1.GIL的前世今生 1.1GIL的是什麼?        python是解釋型語言,不用編譯,運行時可以直接通過解釋器進行解釋執行了。類似linux中的bash解釋器,所以python中也有很多解釋器,如cpython(C語言實現),j

原创 數據倉庫常見建模方法與建模實例演示

1.數據倉庫建模的目的?   爲什麼要進行數據倉庫建模?大數據的數倉建模是通過建模的方法更好的組織、存儲數據,以便在 性能、成本、效率和數據質量之間找到最佳平衡點。一般主要從下面四點考慮 訪問性能:能夠快速查詢所需的數據,減少數據I/O

原创 玩轉HTML中表單標籤的使用

        html中標籤個數不多,但是標籤的屬性非常之多,所以實際除非專業做前端的,否則沒必要把所有的屬性都記下來,需要查查w3c文檔即可,只需要掌握常見的用法,看得懂即可。詳細請查閱:W3C官網網站 表單用於蒐集不同類型的用戶輸入

原创 python實現外部靜態服務器,瀏覽器通過HTTP與之通信1

    因爲網絡間通信是基於TCP協議傳輸數據的,而服務器與瀏覽器之間通信是基於HTTP協議的,那麼下面基於python實現一個tcp服務器,瀏覽器可以基於http協議進行發送請求和解析。展示瀏覽器返回一個固定頁面和HTML頁面案例。 1

原创 python以單線程非阻塞模式實現HTTP服務器,瀏覽器通過HTTP與之通信5

        多進程一般來說要比單進程效率高,因爲多進程可以解決了單進程recv()阻塞等待的問題。而實際上單進程也可以有非阻塞模式,實現多進程的功能,並且效率更高。所謂單線程非阻塞模式:           1.首先開啓socket非

原创 python連接操作mysql數據庫使用詳解

     在python3中,有個模塊pymysql,用戶可以通過這個模塊實現遠程對mysql數據庫的操作。 1.python操作mysql流程架構 2 .python操作mysql使用演示 1.安裝並且導入包pymysql,如果環境中

原创 python以epoll方式實現HTTP服務器,瀏覽器通過HTTP與之通信6

        實際開發中,由於各種原因,我們一般不會用前面演示幾種方式實現多併發的web服務器,而是使用一個種更加高效的方式:epoll方式。比如nginx服務器的實現就是基於epoll方式,同樣實現了非阻塞,“併發”。 1.什麼是ep