原创 Lightgbm基本原理

僅供參考: 背景:XGBoost一個瓶頸是針對每個特徵,它需要對每一個可能的分裂點掃描全部的樣本來進行計算基尼係數,這是非常的耗時的。 Lightgbm的主要特點: 1. Lightfbm使用直方圖算法在犧牲一定精度的條件下換取計算速度的

原创 劍指offer 鏈表題最佳解彙總 Python

面試題5: 從尾到頭打印鏈表 輸入一個鏈表,從尾到頭打印鏈表每個節點的值。 思路: class Solution: # 返回從尾部到頭部的列表值序列,例如[1,2,3] def printListFromTailToHe

原创 劍指offer 二叉樹與二叉搜索樹最佳解彙總 Python

面試題6: 重建二叉樹 輸入某二叉樹的前序遍歷和中序遍歷的結果,請重建出該二叉樹。假設輸入的前序遍歷和中序遍歷的結果中都不含重複的數字。例如輸入前序遍歷序列{1,2,4,7,3,5,6,8}和中序遍歷序列{4,7,2,1,5,3,8,6}

原创 CART樹的剪枝

CART樹剪枝 預剪枝 控制樹的深度設定基尼係數(殘差)的閾值,即若當前劃分特徵的基尼係數(殘差)小於閾值時不再對當前的特徵進行劃分設定樣本量的閾值,樣本量小於閾值不再劃分後剪枝 總體思路: 由完全樹T0開始,剪枝部分結點,得到T1,再次

原创 劍指offer SQL訓練

1.  查找最晚入職員工的所有信息 CREATE TABLE `employees` ( `emp_no` int(11) NOT NULL, `birth_date` date NOT NULL, `first_name` varch

原创 輪廓係數

假設我們已經通過一定算法,將待分類數據進行了聚類。常用的比如使用K-means ,將待分類數據分爲了 k 個簇 。對於簇中的每個向量。分別計算它們的輪廓係數。 對於其中的一個點 i 來說: 計算 a(i) = average(i向量

原创 spark wordcount

text_file = sc.textFile("hdfs://...") counts = text_file.flatMap(lambda x: x.split(" ")) \ .map(lambda x:

原创 SQL練習 學校場景

Student(S#,Sname,Sage,Ssex)  學生表 Course(C#,Cname,T#)  課程表 SC(S#,C#,score)  成績表 Teacher(T#,Tname)  教師表 問題: 1、查詢“001”課程比“

原创 機器學習之- 推薦系統

推薦系統 數學定義:設C爲全體用戶集合,設S爲全部商品/推薦內容集合,設u是評判把si推薦ci的好壞評判函數,推薦是對於c∈C,找到s∈S,使得u最大,即 注意:部分場景下是Top N推薦。 通俗地說,推薦系統需要: 根據用戶的:

原创 LeetCode SQL刷題全解

1. 交換性別 Given a table salary, such as the one below, that has m=male and f=female values. Swap all f and m values

原创 SQL知識點彙總(二)

SQL UNION 子句 SQL UNION 子句/運算符用於將兩個或者更多的 SELECT 語句的運算結果組合起來。 在使用 UNION 的時候,每個 SELECT 語句必須有相同數量的選中列、相同數量的列表達式、相同的數據類

原创 SQL知識點彙總(一)

什麼是表? RDBMS 中的數據存儲在被稱作表的數據庫對象中。表是相互關聯的數據記錄的集合,由一系列的行和列組成。 謹記,表是關係型數據庫中最常見也是最簡單的數據存儲形式。下面是一個客戶信息表的例子: +----+--

原创 假設檢驗

H0:原假設(希望得到結果的反面) H1:備擇假設 (首先確定H1,希望得到的結果) 第一類錯誤:H0正確,卻認爲H0錯誤 第二類錯誤:H0不正確,確認爲H0正確 顯著性水平:犯第一類錯誤的概率是顯著性水平,記爲α。 假設檢驗過程:

原创 詳解stacking過程

之前一直對stacking一知半解,找到的資料也介紹的很模糊。。所以有多看了幾篇文章,然後來此寫篇博客,加深一下印象,順便給各位朋友分享一下。 stacking的過程有一張圖非常經典,如下: 雖然他很直觀,但是沒有語言描述確實很難搞