原创 spark DataFrame 基本操作函數

DataFrame 的函數Action 操作 1、 collect() ,返回值是一個數組,返回dataframe集合所有的行 2、 collectAsList() 返回值是一個Java類型的數組,返回dataframe集合所有的行 3、

原创 Auto Machine Learning 自動化機器學習筆記

適讀人羣:有機器學習算法基礎1. auto-sklearn 能 auto 到什麼地步?     在機器學習中的分類模型中:         常規 ML framework 如下圖灰色部分:導入數據-數據清洗-特徵工程-分類器-輸出預測值

原创 model.save(sc,'fname')異常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError

最近在使用pyspark保存model的時候出現Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError報錯, 網上搜索了一下找下如下解決方案,

原创 自動機器學習之auto-sklearn入門

當我們做完了特徵工程之後,就可以代入模型訓練和預測,對於模型的選擇及調參,主要根據分析者的經驗。在具體使用時,經常遇到同一批數據,同一種模型,不同的分析者得出的結果相差很多。 前面學習了幾種常用的機器學習方法原理以及適用場景,對於完全沒有

原创 SuperSet logo修改、導出csv中文亂碼、sql查詢超時問題解決(默認30s)問題處理

一、網頁標題及logo修改 1、網頁標題修改 需要修改兩個文件: vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.py retur

原创 在Linux Centos7 上使用pyspark Notebook

首先安裝anaconda 參考: https://blog.csdn.net/levy_cui/article/details/80898739 https://blog.csdn.net/levy_cui/article/details

原创 xgboost中XGBClassifier()參數

#常規參數 booster gbtree 樹模型做爲基分類器(默認) gbliner 線性模型做爲基分類器 silent silent=0時,輸出中間過程(默認) silent=1時,不輸出中間過程 nt

原创 pyspark提交代碼到yarn模式,報錯ImportError: No module

上一篇:PySpark任務在YARN集羣上運行 關聯python包numpy pandas scipy 等   問題: 在提交ALS.train代碼到yarn模式的時候,會出現如下報錯: import numpy as np Impor

原创 Spark調優:提交job資源參數調優及內存模型調優

 【場景】 Spark提交作業job的時候要指定該job可以使用的CPU、內存等資源參數,生產環境中,任務資源分配不足會導致該job執行中斷、失敗等問題,所以對Spark的job資源參數分配調優非常重要。 spark提交作業,yarn-c

原创 Spark ALS 協同過濾(CF)如何將Str類型的userID或itemID轉換爲Rating中要求的int類型

/** * 問題: *      在對數據進行訓練時,Rating要求的是int,int,double,但是現有的數據是long,string,double類        型,使用toInt進行轉換時依然會報錯,這是因爲long類型轉換

原创 使用釘釘機器人對業務異常進行告警(Linux)

添加釘釘機器人 首先使用電腦版操作,目前個人已知的釘釘機器人只能存在於釘釘羣,釘釘羣的建羣需求是至少 3 人,當然,你建羣之後可以把其它人請出去。 【1】首先,我們進入一個釘釘羣創建我們的機器人: 【2】目前釘釘已經存在了一些項目的機

原创 自動機器學習之Auto-Keras入門

對於訓練深度學習,設計神經網絡結構是其中技術含高最高的任務,優秀的網絡架構往往依賴建構模型的經驗,專業領域知識,以及大量的算力試錯。實際應用中往往基於類似功能的神經網絡微調生成新的網絡結構。 Auto-Keras是一個離線使用的開源庫,用

原创 推薦系統排序算法的演進

在分析用戶推薦系統程序排序算法之前,我們先介紹下推薦系統中的數據的特點,排序算法就是針對這種數據特點設計了不同的解決方案,纔有了推薦算法的發展。 首先我們先重點介紹下推薦系統中數據的幾個鮮明特點: 1、數據主要以離散數據爲主,連續數據爲輔

原创 在廣告/搜索/推薦系統中 對展示結果打散的通用魯棒算法

摘要:之所以同時提到廣告/搜索/推薦三個系統,是因爲這三者有一定的相似性,即通過一次請求(基於上下文、用戶場景、關鍵詞等)給用戶呈現一籃子元素,這些元素包括如文章、商品、活動、專輯、音樂、視頻等等。這一籃子需要展示的元素儘管是根據權重進行

原创 superset配置LDAP(MSFT AD)

superset配置ldap這塊調試了好久,一直不能配置通,各種查,網上一些教程都是針對服務器端是openldap的設置,我這邊ldap服務器是微軟的MSFT AD,最後也是結合網上的信息各種嘗試,終於調試通了,特此單獨記錄一下,幫助需要