原创 matlab內存映射文件操作

日常我們使用matlab進行模型訓練,每次訓練需要加載的數據都是比較大,都是千萬級別的數據,如果從txt或者csv中讀取,需要很長時間,這樣很影響讀取數據的效率。matlab有自己的方式,將數據文件快速加載到內存中。 寫文件: file

原创 kafka的應用場景

kafka作爲一個消息流處理平臺。很多開發人員都作它作爲一個生產&消費的中間件,並沒有細細去思考kafka可以在哪些應用場景中使用,下面根據我的經驗,總結下kafka可以應用在以下場景中。 消息隊列 這種場景是日常用得最多之一。我日常需

原创 ubuntu上構建jupyter notebook環境

安裝conda 在anaconda官網下載https://www.anaconda.com/distribution/,我下載的是Anaconda3-2019.03-Linux-x86_64.sh安裝包。在ubuntu終端上直接執行sh 

原创 softmax函數python實現

在實現一個神經網絡項目落地代碼,使用matlab訓練完後,爲了配合其他問題,使用python進行落地,實現DNN的正向計算,在網上看了一大堆softmax函數的實現,發現所有人都是單樣本去計算或者循環去計算矩陣,心裏默默吐槽,怎麼都是這樣

原创 在spark中通過UDF轉字符串ip

今天在spark中需要將字符型(String)的ip轉化爲長整型(long)的ip,參考了兩篇文章https://blog.csdn.net/cjuexuan/article/details/54912215和https://blog.c

原创 關於spark.sql.autoBroadcastJoinThreshold設置

今天使用spark對一組大數據進行合併作join操作,一直都報下面的錯: Exception in thread “broadcast-exchange-0” java.lang.OutOfMemoryError: Not enough

原创 spark以standalone運行時的日誌清理

spark運行任務的日誌一直沒太大關注,原因是硬盤資源充足,除非任務出錯時纔去看一下,但沒有清理這些日誌的習慣。直到最近遇到的一個問題是,硬盤資源嚴重缺乏,不得不需要定時去清理日誌。 第一時間去看下spark本身的配置,是否支持定時清理日

原创 銀行業密鑰體系概述

銀行業的密鑰體系是個很龐大的體系,其覆蓋不同的密碼學算法及適應不同的業務場景。一方面保證銀行的數據安全性,另一方面適應業務的變化且易於理解和使用。銀行業的密鑰體系與銀行監管制度是緊密相關的,密鑰體系保證銀行內各個業務環節的安全性,而銀行監

原创 關於spark以parquet寫入時的小問題

今天使用spark對一個dataframe中的數據以某一個爲主鍵做groupby進行求和,數據類似如下: scala> userDF.show +---------+--------+ | userid | count | +------

原创 Java實現des及3des加解密

           今天客戶需求一個java的des加解密庫,之前做加解都是調用加密機指令的,而現在提供的是一個靜態庫,找下以前的庫,沒有個合適的,只能自己去寫一個了。在網上找了下,發現網上基本都是一個,而且標題寫着是des加解密,實際

原创 PCA降維

關於PCA算法在機器學習中是經常會用到,特別在維度數比較大的情況下,爲了提取主要的維度成分,使用PCA對維度進行降維操作,一方面在保證數據高精確性情況下,另一方面減少維度數量,降低由於維度帶來的運算資源的消耗及運算的時間消耗 。PCA能夠

原创 maven本地jar包導入

今天用到第三方一個庫,在spark中將數據導入到hbase,使用了shc-core,但將maven配置上去無法下載,那隻能另找方法了。先從https://mvnrepository.com/artifact/com.hortonworks

原创 spark環境構建

spark是個分佈式運算平臺,在火熱的大數據時代,很多企業很多場景都使用spark作爲運算平臺。一方面是其在計算的高效性,另一方面是其穩定性。官網有個很形象的說明,spark的運算效率是hadoop運算效率的100倍以上。廣泛被運用在各種

原创 openssl系列--DES/3DES算法加解密(1)

  des/3des對稱加密算法在我們日常保護數據或者保護傳輸時使用得較多的對稱加密算法,des的原理不在這裏再作詳細介紹,des/3des屬於一種分組算法,以8個字節爲一個分組。例如下面使用3des對一組數據進行加密: 例如: 密鑰:0

原创 logstash的logstash-output-jdbc插件安裝

突然來的一個需求,將日誌文件中json串的內容寫入到數據庫中,作爲一個偷懶coder,第一個時間想到就是偷懶的做法:將logstash掃描的結果直接輸入到mysql庫表中。 關於logstash的安裝就不再詳述,後面如果寫安裝的介紹時再回