台部落铁甲大宝

SparkSesson爲使用Dataset和DataFrame API編程Spark的入口點。 SparkSesson對象可以創建DataFrame，將Dataframe註冊爲表，並在表上執行SQL、緩存表、讀parquet文件等

2020-07-04 10:41:11

對於開發信用評分模型來說，首先需要明確用哪些數據來建模，以及好壞客戶的定義。因此需要明確觀察期與表現期的概念。如下圖所示：觀察期：代表的是決策時已知的信息，位於時間軸左側，主要是用來生成用戶特徵的時間區間，即用來確定X變量

2020-07-04 10:00:55

信用評分模型是消費信貸管理中先進的技術手段，是現在金融行業常用的信用風險評估方法，本文從宏觀上介紹評分模型的建模開發流程。 1. 明確問題明確業務要解決的問題，確定時間窗口、標籤的定義規則，以及模型的評價指標和數據來源。在定義

2020-07-04 10:00:55

本文針對無上下文信息的隱性反饋數據集（每一條行爲記錄僅僅包含用戶ID和物品ID），介紹基於用戶的協同過濾算法原理。基於用戶的協同過濾推薦算法本質：找到和待推薦用戶相似的用戶羣，推進該用

2020-07-04 10:00:55

先放上pyspark.sql.DataFrame的函數彙總 from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local')

2020-07-04 10:00:55

銀行風險主要包括信用風險、市場風險、操作風險、流動性風險、國家風險、聲譽風險、法律風險、戰略風險八大風險。信用風險產生的原因及特點：銀行獲取客戶信息的不完整性信用風險具有非系統特性。貸企業或個人的還款能力大多取決於自身的財

2020-07-04 10:00:55

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('sparksqlColumn').getO

2020-07-04 10:00:55

導入SparkConf和SparkContext模塊，任何Spark程序都是SparkContext開始的，SparkContext的初始化需要一個SparkConf對象，SparkConf包含了Spark集羣配置的各種參數。初始

2020-07-04 10:00:55

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOr

2020-07-04 10:00:55

本文檔介紹瞭如何通過本地的瀏覽器訪問啓動在遠程服務器上的jupyter notebook。首先，確定服務器上安裝了jupyter notebook，沒有安裝可以通過pip安裝，命令如下： pip install jupyter

2020-07-04 10:00:55

MinMaxScalar 將數據歸一化到[0,1]，計算公式如下： Xscaled=X−X.min(axis=0))X.max(axis=0)−X.min(axis=0)∗(max−min)+min X_{scaled} = \f

2020-07-04 10:00:55

python必看面試題（一）python中 == 和 is 的區別是什麼？深拷貝和淺拷貝私有化和Propretypython的生成器python迭代器python的for循環閉包python裝飾器pyhton實例方法，類方法，靜態

2020-07-04 10:00:55

1、 ItemCF算法原理： ItemCF算法並不利用物品的內容屬性計算物品之間的相似度，它主要通過分析用戶的行爲記錄計算物品之間的相似度。該算法認爲一個人的興趣都侷限在幾個方面，當很多人都對兩個物品感興趣時，就認爲這兩個物品具

2020-05-18 10:32:25

BM25屬於bag-of-word（詞袋）模型，是用來計算某一個目標文檔（Document）相對於一個查詢關鍵字（Query）的“相關性”（Relevance）的流程。BM25認爲：詞頻和相關性之間的關係是

2020-05-02 23:38:34

k-means算法 K-均值聚類算法（k-means clustering algorithm)是一種無監督聚類算法。本文前部分介紹算法原理及優缺點，後面通過Python代碼實現一個簡版的k-means算法。優缺點優點：簡潔

2020-05-02 23:38:34