原创 Spark ML 之 特徵選擇,提取,轉換工具

數據挖掘算法中有很大一部分都是數據預處理工作,畢竟現有模型都是比較成熟的,只需要學會調用就好,如何把原始數據轉化爲算法模型適用的數據結構也是很重要的一步。spark ML中提供了對特徵的提取(Extracting),轉換(tran

原创 Spark ML簡介之Pipeline,DataFrame,Estimator,Transformer

MLlib是Spark的機器學習(Machine Learning)庫,旨在簡化機器學習的工程實踐工作,並方便擴展到更大規模。MLlib由一些通用的學習算法和工具組成,包括分類、迴歸、聚類、協同過濾、降維等,同時還包括底層的優化原

原创 Python 數值計算 遇到的錯誤總結

def convert(s): # conver = {b'Iris-setosa': 0, b'Iris-versicolor': 1, b'Iris-virginica': 2} conver = {

原创 ubuntu18.04 修改域名服務器DNS

前段時間爲了科學上網,搗鼓SSR,油管倒是能訪問了,但是停用SSR後,國內網絡卻不能訪問了。頭疼。 沒動過其他配置,缺不能訪問網絡,初步懷疑是DNS的問題,然後開始各種百度。 1. /etc/resolv.conf 查看/etc/r

原创 論文閱讀: Universal Language Model Fine-tuning for Text Classification

論文鏈接: https://arxiv.org/pdf/1801.06146.pd 官方代碼與數據: http://nlp.fast.ai/category/classification.html

原创 ubuntu 18.04 解決網易雲音樂圖標不能打開的問題

很長時間沒寫過博客了,這次搞定了一個不大不小的bug,記錄一下,也幫助一下遇到同樣問題的人。 先上圖,成功搞定網易雲。 bug如標題所示,Ubuntu安裝網易雲音樂很簡單,在網易雲官網下載linux版的客戶端安裝即可,不多贅述,到目

原创 協同過濾之ALS算法

ALS 是交替最小二乘 (alternating least squares)的簡稱。在機器學習的上下文中,ALS 特指使用交替最小二乘求解的一個協同推薦算法。它通過觀察到的所有用戶給產品的打分,來推斷每個用戶的喜好並向用戶推薦適合的產品

原创 flume+kafka+storm整合(一)

這幾天弄了一下消息採集方面的工作,跑了一下flume+kafka+storm的流程,遇到一些問題,不過最終還是搞定了。其實網上有很多相關的文章,這裏整理出來,只是作一下筆記,方便以後查看,如果能幫到和我踩到類似坑的小夥伴的話,那就更好了,

原创 Phoenix介紹與安裝

Phoenix簡單介紹 Apache Phoenix是構建在HBase之上的關係型數據庫層,作爲內嵌的客戶端JDBC驅動用以對HBase中的數據進行低延遲訪問。Apache Phoenix會將用戶編寫的sql查詢編譯爲一系列的scan操作

原创 python numpy 自定義數據類型

在某些場景下,可能會用到numpy的自定義數據類型,比如需要將電子表格或者數據庫的一行數據作爲一個數據。 舉例說明,我們創建一個存儲商店庫存信息的數據類型。其中,我們用一個長度爲40個字符的字符串來記錄商品名稱,用一個32位的整數來記錄商