原创 Python條件、循環和其他語句概述

1.序列解包 當函數或方法返回元組(或其他序列或可迭代對象時),可使用該特性 #分別賦值 x,y,z=1,2,3 x,y=[1,2] x,y=(1,2) x,y={'ti':2,'an':4} #x:'ti' y:'an',只返回鍵

原创 關係型數據庫與SQL簡介

一、SQL簡介 1.是用於組織、管理與檢索由計算機數據庫所存儲數據的工具,是用於與數據庫進行交互的計算機語言;是集數據操作、數據定義、數據控制功能於一體的關係數據語言 2.SQL是非結構化語言,非過程化語言;所有SQL語句接受集合作爲輸入

原创 GBDT梯度提升決策樹-理清每個細節-附Python代碼

1.GBDT概念 以決策樹爲基學習器的集成學習算法具有預測精度高的優勢,樹的集成算法主要有隨機森林和GBDT。隨機森林具有很好的抗過擬合特性,且決策樹個數對預測性能影響較小,調參較爲容易。GBDT(或MART)梯度提升決策樹是一種迭代決策

原创 決策樹算法-理清每個細節-附R+Python代碼

2018-12-20更新 一.決策樹概念 在計算機科學中,樹是一種重要數據結構,比如二叉查找樹、紅黑樹等,通過引入“樹”數據結構,可以很快縮小數據規模,實現高效查找。一般情況面對的樣本通常具有很多特徵,對事務的判斷不能只從一個角度出發,決

原创 Python基本語法概述

1.數字與表達式 #變量名可以包括字母/數字/下劃線,但不能以數字開頭 // 整除運算符 \ 轉義字符串 % 取模(對浮點數也適用) ** 冪次運算,或者使用pow(x,y) = 賦值符號 int(x) 浮點數轉換成整數(向下

原创 電話號碼的正則表達式

1.正則匹配中國電信手機號碼段:電信分別有:133,153,180,181,189,177總共六個號段。第一位爲數字1,第二位分別是3,5,7,8,第三位分別是0,1,3,7,9 所以前三位的正則如下: 1[3578][01379]\d

原创 SQL ON Hadoop-Hive(三)-分區表

分區表是將大的表文件劃分成多個小文件以利於查詢,但是如果數據分佈不均也會影響查詢效率(桶表可以對數據進行哈希取模,目的是讓數據能夠均勻分佈在表的各個數據文件中,是對分區表的補充) create table info_student( s

原创 SQL ON Hadoop-Hive(六)-字符串函數+行列轉換

一.hive常用字符串函數 1.字符串反轉函數reverse(string A) --返回值類型string select reverse('gian') from iteblog; --'naig' 2.帶分隔符字符串連接函

原创 SQL ON Hadoop-Hive(五)-列自增+元數據表

一.hive實現列自增 1.用row_number()函數生成代理鍵 insert into tbl_dim select row_number() over (order by tbl_stg.id)+t2.sk_max, tbl_s

原创 SQL ON Hadoop-Hive(二)-DDL數據定義語言

一.創建數據庫 Hive中的數據庫本質上僅僅是個表的目錄或命名空間,在生產環境,如果表非常多,一般會用數據庫將生產表組織成邏輯組。Hive中默認使用的數據庫是default 數據庫名+數據庫所在的目錄位置不能修改 --創建數據庫(包含數

原创 SQL ON Hadoop-Hive(四)-數據操作

一.裝載數據 --可自動創建分區 load data [local] inpath 'file_path' [overwrite] into table table_name [partition(partcol1=val1,parco

原创 SQL ON Hadoop-Hive(一)-認知篇

1.認識HIVE Hive是基於Hadoop的數據倉庫工具(允許使用SQL處理HDFS上的數據),Hadoop及其生態圈提供了一個成熟高效的處理海量數據集的解決方案,hive設計目的是爲了讓精通SQL技能而Java技能較弱的數據分析師能用

原创 hadoop分佈式文件系統HDFS初識

HDFS是可擴展、容錯、高性能的分佈式文件系統,異步複製,一次寫入多次讀取,專門存儲超大數據文件,爲整個hadoop生態圈提供了基礎的存儲服務 1.認識HDFS HDFS可在許多服務器上運行,根據需要HDFS可輕鬆擴展到數千個節點和PB量

原创 初識hadoop與雲計算

1.組合的模擬 Hadoop發佈者Apache軟件基金會對Hadoop的定義:Hadoop的軟件庫是一個框架,允許在集羣(是一組通過網絡連接通信和協同工作的計算機,集羣中的每一臺計算機被稱爲一個節點,Hadoop部署在集羣上)中使用簡單的

原创 R語言函數中的字符編碼解析

一.RStudio編碼設置 Rstudio有時出現讀取亂碼,在電腦本地打開又是正常的。這是因爲Rstudio的編碼顯示問題,可以通過軟件設置來解決。但有時可能會因爲Rstudio的版本不同,編碼設置的路徑也會有所不同 常見中文格式編碼主