原创 pyspark入門系列 - 02 pyspark.sql入口 SparkSession簡介與實踐

SparkSesson爲使用Dataset和DataFrame API編程Spark的入口點。 SparkSesson對象可以創建DataFrame,將Dataframe註冊爲表,並在表上執行SQL、緩存表、讀parquet文件等

原创 觀察期與表現期

對於開發信用評分模型來說,首先需要明確用哪些數據來建模,以及好壞客戶的定義。因此需要明確觀察期與表現期的概念。如下圖所示: 觀察期: 代表的是決策時已知的信息,位於時間軸左側,主要是用來生成用戶特徵的時間區間,即用來確定X變量

原创 信用評分模型建模流程

信用評分模型是消費信貸管理中先進的技術手段,是現在金融行業常用的信用風險評估方法,本文從宏觀上介紹評分模型的建模開發流程。 1. 明確問題 明確業務要解決的問題,確定時間窗口、標籤的定義規則,以及模型的評價指標和數據來源。 在定義

原创 一文搞懂基於用戶的協同過濾推薦算法

        本文針對無上下文信息的隱性反饋數據集(每一條行爲記錄僅僅包含用戶ID和物品ID),介紹基於用戶的協同過濾算法原理。         基於用戶的協同過濾推薦算法本質:找到和待推薦用戶相似的用戶羣,推進該用

原创 pyspark入門系列 - 03 pyspark.sql.DataFrame函數彙總與實踐

先放上pyspark.sql.DataFrame的函數彙總 from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local')

原创 銀行風險管理

銀行風險主要包括信用風險、市場風險、操作風險、流動性風險、國家風險、聲譽風險、法律風險、戰略風險八大風險。 信用風險產生的原因及特點: 銀行獲取客戶信息的不完整性 信用風險具有非系統特性。貸企業或個人的還款能力大多取決於自身的財

原创 pyspark入門系列 --pyspark.sql.Column函數彙總與實戰

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('sparksqlColumn').getO

原创 pyspark入門系列 - 01 統計文檔中單詞個數

導入SparkConf和SparkContext模塊,任何Spark程序都是SparkContext開始的,SparkContext的初始化需要一個SparkConf對象,SparkConf包含了Spark集羣配置的各種參數。初始

原创 pyspark入門系列 --pyspark.sql.Row函數彙總

from pyspark.sql import SparkSession spark = SparkSession.Builder().master('local').appName('pysparkSqlRow').getOr

原创 本地訪問啓動在遠程服務器上的jupyter notebook

本文檔介紹瞭如何通過本地的瀏覽器訪問啓動在遠程服務器上的jupyter notebook。 首先,確定服務器上安裝了jupyter notebook,沒有安裝可以通過pip安裝,命令如下: pip install jupyter

原创 sklearn數據預處理 - 歸一化

MinMaxScalar 將數據歸一化到[0,1],計算公式如下: Xscaled=X−X.min(axis=0))X.max(axis=0)−X.min(axis=0)∗(max−min)+min X_{scaled} = \f

原创 python開發工程師常見面試題

python必看面試題(一)python中 == 和 is 的區別是什麼?深拷貝和淺拷貝私有化和Propretypython的生成器python迭代器python的for循環閉包python裝飾器pyhton實例方法,類方法,靜態

原创 基於物品的協同過濾算法(ItemCF)-- 原理與實戰

1、 ItemCF算法原理: ItemCF算法並不利用物品的內容屬性計算物品之間的相似度,它主要通過分析用戶的行爲記錄計算物品之間的相似度。該算法認爲一個人的興趣都侷限在幾個方面,當很多人都對兩個物品感興趣時,就認爲這兩個物品具

原创 搜索排序算法之BM25

        BM25屬於bag-of-word(詞袋)模型, 是用來計算某一個目標文檔(Document)相對於一個查詢關鍵字(Query)的“相關性”(Relevance)的流程。BM25認爲:詞頻和相關性之間的關係是

原创 K-means原理與Python實現

k-means算法 K-均值聚類算法(k-means clustering algorithm)是一種無監督聚類算法。本文前部分介紹算法原理及優缺點,後面通過Python代碼實現一個簡版的k-means算法。 優缺點 優點:簡潔