原创 window下安裝單機的spark

前提條件:java 8、scala已經安裝完畢 而hadoop得安裝是需要yarn管理或訪問hdfs分佈式文件集羣時才需要安裝,單機版可以考慮不安裝hadoop,僅僅安裝spark spark官網:http://spark.apache.

原创 java SE、EE、ME區別與window下的安裝

一 簡單介紹背景: java因 oracle收購sun,已有閉源風險,區別與open jdk,open jdk完全免費,源碼可得。而java得jdk源碼中有一部分是不可得的,open jdk也只是仿照功能有了替代的包,目前主流依然是jav

原创 pyspark rdd的combineByKey的高級API使用方法,多行按某列合爲一行

combineByKey是比較底層的高級用法,如dataframe或rdd的groupby,rdd的reduce、reduceByKey等都依賴與它。 combineByKey入參是三個function函數,分別針對單個的(k,v

原创 pyspark出現異常 ValueError: too many values to unpack

ValueError: too many values to unpack 這是python的錯誤, 例如賦值時: a,b=(1,2,3) #就會出現ValueError: too many values to unpack 而我的spa

原创 pyspark rdd中按其中一列分割拆分後轉爲多行

dataframe也有按某列中按分隔符轉成多行的函數,不過dataframe比rdd所需資源更多,所以此處先些rdd的按某列拆分轉爲多行 dataframe的詳見https://spark.apache.org/docs/2.3.

原创 git出現 Unlink of file '' failed. Should I try again? (y/n)

這是因爲有後臺進程在使用正在拉取或者提交的文件,git暫時沒有權限去操作改文件; 解決辦法:關閉其他正在操作相關文件的程序,再輸入y,繼續提交/拉取 文件即可

原创 mysql重啓服務,自增列id的auto_increment會重置爲當前列最大值加1

生產事件:實時數據遷移到歷史數據出現自增主鍵重複異常 原因: 實時業務部分有刪除記錄操作,後續跑批將實時數據遷移到歷史數據庫表,因爲mysql服務異常宕機,重啓mysql服務後,因自增列auto_increment會重置爲當前列的

原创 mysql重啓服務,出現Authentioation is required to maage syste servc or units.

因爲要測試mysqld服務重啓,是否會造成自增列的auto_increment計時器會重置爲當前數據集列最大值加1. 使用命令: service mysql restart sudo service mysql restart

原创 mysql使用substring_index(源字符串,分割字符串,到第幾個)函數得到ip子網網段

substring_index(dest_str,sep_str,n) 返回從dest_str中子字符串sep_str出現第n此之前的整個字符串 -- 測試可使用環境mysql hive sparksql select subst

原创 webhdfs訪問出現 Operationcategory READ is no suported in state standby.異常,解決記錄

Operationcategory READ is no suported in state standby 之前已經配置好了的,能正常查看、下載文件,但是因爲一次hbase的region壞了緣故,重啓hdfs之後就一直不行

原创 基於大數據的銀行反欺詐的分析報告 【轉載,可用於風控系統架設借鑑】

轉載至 https://www.cnblogs.com/yueyebigdata/p/5893454.html  Growth躍爺Hacker (怕收藏至瀏覽器文件夾有天會有遺漏,轉至自己博客中,推薦去看原文) 0,大數據知識背景。  

原创 記錄基礎數學知識(重溫高中以及大學數學知識,列目錄)(持續更新中)

希臘字母表及其讀音 大寫 小寫 英文讀音 國際音標 中文注音 意義 Α α alpha /ˈælfə/ 阿耳法 角度,係數,角加速度 Β β beta /'beitə/ 貝塔 磁通係數,角度,係數 Γ γ g

原创 機器學習、數據挖掘相關框架簡單總結

人工智能用python最熱,人工智能偏向深度學習、神經網絡學習等相關; 機器學習很早來源於數據統計知識,而數據挖掘也來源於此; 機器學習相關: TensorFlow:(工作、生產,可利用小型設備入手機等元件的分佈式擴展) 簡稱tf

原创 安全術語記錄(持續記錄)

本帖主要收集一些基本概念知識放在這裏,便於回顧 風控系統中主要分爲信用風險與欺詐風險 信用風險多指一個用戶消費還款能力與意願的風險評估 欺詐風險多指團體行爲的,比如中介之類等類似羣體進行批註、盜號、薅羊毛、養號、套現等諸多行爲。

原创 shell 浮點數計算使用bc

bash shell 變量只支持字符和整數,想要進行浮點數運算,需要使用bc; bc 我理解爲bash shell 中的C語言執行; var1=20 var2=3.14159 var3=`echo "scale=5;$var1 ^