原创 Spark之DataFrame操作大全

Spark Session中的DataFrame類似於一張關係型數據表。在關係型數據庫中對單表或進行的查詢操作,在DataFrame中都可以通過調用其API接口來實現。 可以參考,Scala提供的DataFrame API。本文中的代碼基

原创 Storm入門原理

storm 入門原理介紹 1.hadoop有master與slave,Storm與之對應的節點是什麼? 2.Storm控制節點上面運行一個後臺程序被稱之爲什麼? 3.Supervisor的作用是什麼? 4.Topology

原创 Scala伴生類和伴生對象

Scala伴生類和伴生對象 單例對象與類同名時,這個單例對象被稱爲這個類的伴生對象,而這個類被稱爲這個單例對象的伴生類。伴生類和伴生對象要在同一個源文件中定義,伴生對象和伴生類可以互相訪問其私有成員。不與伴生類同名的單例對象稱

原创 map與flatmap區別

map的作用很容易理解就是對rdd之中的元素進行逐一進行函數操作映射爲另外一個rdd。flatMap的操作是將函數應用於rdd之中的每一個元素,將返回的迭代器的所有內容構成新的rdd。通常用來切分單詞。 Spark 中 map函數會對每

原创 Hive自定義UDF函數 Hive自定義UDF函數

Hive自定義UDF函數 以簡單的處理單個字段的UDF函數爲例,開發自定義UDF函數需要繼承’org.apache.hadoop.hive.ql.exec.UDF’類. 可以通過Maven添加,pom文件中加入(版本號跟Hive

原创 Spark之reduceByKey與GroupByKey

Spark中針對鍵值對類型的RDD做各種操作比較常用的兩個方法就是ReduceByKey與GroupByKey方法,下面從源碼裏面看看ReduceByKey與GroupByKey方法的使用以及內部邏輯。 官方源碼解釋:三種形式的r

原创 python將dateframe數據存入mysql

import pymysql.cursors import pandas as pd conn= pymysql.connect(host='192.168.0.119',port=3306,user='root',passwd='ro

原创 Spark之 cache()和persist()

× Spark之cache()和persist() SuperBoy_Liang RDD的持久化也就是說假如我們從hdfs讀取文件,形成RDD。當我們對RDD進行持久化操作之後, ,然後再針對該RDD進行action操

原创 MySQL中常見的字符串處理函數

ASCII(char)      返回字符的ASCII碼值 SELECT ASCII('a') CONCAT(s1,s2…,sn)     將s1,s2…,sn連接成字符串(oracle只支持兩個字符串連接) SELECT CONCA

原创 Elasticsearch5.4.0(head/kibana/logstash)安裝部署深入詳解

Elasticsearch5.4.0(head/kibana/logstash)安裝部署深入詳解 轉載請務必加上原作者:銘毅天下,原博客地址:http://blog.csdn.net/laoyang360 目錄(?

原创 Centos7 通過yum安裝pip

前幾天用Python作了一些數據處理,覺得Python在分析數據方面很有優勢,於是決定在服務器上用Python做一些測試。Python的一個優點就是有着豐富的庫,它們能處理大多數的常見問題,安裝這些庫也比較簡單,通過pip命令就能安裝,然

原创 mysql中將15位身份證號改爲18位

轉換規則大致爲將15位中的6位出生日期改爲8位,即在原十五位數身份證的第六位數後面插入19 ,這樣身份證號就成爲了17位。最後一位爲校驗碼,是通過前面17位計算得到的。校驗碼計算方法:將身份證前十七位數分別乘以不同係數,從第一至十七位的係

原创 Spark Yarn-cluster與Yarn-client

Spark Yarn-cluster與Yarn-client 摘要 在Spark中,有Yarn-Client和Yarn-Cluster兩種模式可以運行在Yarn上,通常Yarn-Cl

原创 Word2Vec提取關鍵詞,詞語相似度

對於瞭解深度學習、自然語言處理NLP的讀者來說,Word2Vec可以說是家喻戶曉的工具,儘管不是每一個人都用到了它,但應該大家都會聽說過它——Google出品的高效率的獲取詞向量的工具。 說到提取關鍵詞,一般會想到TF-IDF和Text

原创 python 通過國內鏡像使用pip安裝工具包

在用pip安裝numpy時由於各種原因,導致網速過慢,時間太長,總是報出這樣那樣的錯誤,安裝不成功,於是通過各種途徑,找個國內的鏡像源,可以快速的下載需要的工具包。 舉例如下(此處用的是豆瓣):pip install matplotlib