原创 如何防範與化解聯保聯貸風險

衆多研究認爲,“聯保聯貸”模式改變了傳統商業銀行信貸機制,能緩解信息不對稱問題,其誕生的初衷主要是爲解決中小企業擔保不足、信息不對稱的問題,但如果這種企業間的聯保聯貸純粹爲了得到銀行貸款,則在經濟增速放緩、內外部需求趨弱從而導致企業經營困

原创 機器學習算法優缺點及其應用領域

 決策樹 一、  決策樹優點 1、決策樹易於理解和解釋,可以可視化分析,容易提取出規則。 2、可以同時處理標稱型和數值型數據。 3、測試數據集時,運行速度比較快。 4、決策樹可以很好的擴展到大型數據庫中,同時它的大小獨立於數據庫大小。

原创 R語言主成分和因子分析篇

主成分分析(PCA)是一種數據降維技巧,它能將大量相關變量轉化爲一組很少的不相關變量,這些無關變量稱爲主成分。 探索性因子分析(EFA)是一系列用來發現一組變量的潛在結構的方法,通過尋找一組更小 的、潛在的或隱藏的結構來解釋已觀測到的、變

原创 adaboost原理(包含權重詳細解釋)

    1.1 Adaboost是什麼 AdaBoost,是英文"Adaptive Boosting"(自適應增強)的縮寫,由Yoav Freund和Robert Schapire在1995年提出。它的自適應在於:前一個基本分類器分

原创 推薦系統中協同過濾算法實現分析(重要兩個圖!!)

 最近研究Mahout比較多,特別是裏面協同過濾算法;於是把協同過濾算法的這個實現思路與數據流程,總結了一下,以便以後對系統做優化時,有個清晰的思路,這樣才能知道該如何優化且優化後數據亦能正確。      推薦中的協同過濾算法簡單說明

原创 讓人又愛又恨的信用評級

墨西哥灣漏油事故,讓石油巨人BP甚至陷入了破產的傳言,最直接的表現就是,6月3日,幾大國際信用評級機構紛紛下調對其信用評級。這預示着這家公司在金融市場上面臨的風險正在增加,而保障這家公司債務違約的成本也大

原创 數據挖掘之lsh minhash simhash

 在項目中碰到這樣的問題: 互聯網用戶每天會訪問很多的網頁,假設兩個用戶訪問過相同的網頁,說明兩個用戶相似,相同的網頁越多,用戶相似度越高,這就是典型的CF中的user-based推薦算法。 算法的原理很簡單,只要兩兩計算用戶的相

原创 最大似然概率和後驗概率的區別

極大似然估計和貝葉斯估計分別代表了頻率派和貝葉斯派的觀點。頻率派認爲,參數是客觀存在的,只是未知而矣。因此,頻率派最關心極大似然函數,只要參數求出來了,給定自變量X,Y也就固定了,極大似然估計如下所示: D表示訓練數據集,是模型參數 相

原创 大數據環境下,徵信,真的那麼美好嗎?

     不知從什麼時候開始,徵信彷彿一夜之間成了一個很熱門的業務。也曾經看過很多文章,都描繪着徵信未來廣泛的應用,和龐大的市場份額。其間,雖然偶爾也有人出來潑冷水,但顯然很快就被更爲狂熱的後進者所淹沒。 衆多代表着傳統金融和互

原创 銀行對公風險分析

 銀行對公業務風險分析 標籤   銀行對公業務包括企業電子銀行、單位存款業務、信貸業務、機構業務、國際業務、委託性住房金融、資金清算、中間業務、資產推介、基金託管等等,通俗點說就是“對單位的業務”。讓我們一起了解下銀行對公業務有哪些

原创 ChiMerge 算法: 以鳶尾花數據集爲例

ChiMerge 是監督的、自底向上的(即基於合併的)數據離散化方法。它依賴於卡方分析:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。 基本思想:對於精確的離散化,相對類頻率在一個區間內應當完全一致。因此,如果兩個相鄰的區間

原创 機器學習中的數學(5)-強大的矩陣奇異值分解(SVD)及其應用

 版權聲明:     本文由LeftNotEasy發佈於http://leftnoteasy.cnblogs.com, 本文可以被全部的轉載或者部分使用,但請註明出處,如果有問題,請聯繫[email protected] 前言:

原创 Deep Learning(深度學習)學習筆記整理系列

 目錄: 一、概述 二、背景 三、人腦視覺機理 四、關於特徵        4.1、特徵表示的粒度        4.2、初級(淺層)特徵表示        4.3、結構性特徵表示        4.4、需要有多少個特徵

原创 十大算法展輝煌歷史,十大問題引錦繡前程

上篇博文(趣味數據挖之十)末尾許下一願–介紹數據挖掘十大算法。在博友們友好的催促之下,現在才姍姍來遲,歉疚有加。凡人寫博是十分個性化的業餘活動(非平凡人物可能會僱傭團隊寫博);在科技的春種秋收季節,人們總會遇到若干突然冒出來的任務,而在次

原创 R語言預處理之異常值問題

 >>>> 一、問題 什麼是異常值?如何檢測異常值?請夥伴們思考或者留言討論。 >>>> 二、解決方法 1. 單變量異常值檢測 2. 使用局部異常因子進行異常值檢測 3. 通過聚類的方法檢驗異常值 4. 檢驗時間序列數據