原创 算法分析--回溯法

回溯法提高搜索速度的策略: 用約束函數在擴展節點處剪去不滿足約束的子樹。 用限界函數減去得不到最優解的子樹。

原创 Pandas多表連接產生笛卡兒積(交叉表)

貌似pandas自帶的merge,concat,和join對笛卡兒積這個操作都不是太友好,有許多blog甚至直接寫了個兩重循環實現交叉表。 所以什麼是笛卡兒積? https://baike.baidu.com/item/%E7%AC%9B

原创 機器學習算法筆記--------建立西瓜數據集

西瓜書裏面常用的三個數據集,西瓜數據集2.0,3.0,4.0整理如下,注意中文容易出現亂碼。 西瓜數據集2.0 西瓜數據集3.0 西瓜數據集4.0   import pandas as pd def createDataSet_

原创 機器學習算法筆記--------樸素貝葉斯

拉普拉斯平滑 似然度,置信度 先驗概率,後驗概率 先驗概率:P(X) ,P(Y) 後驗概率:P(X|Y) ,P(Y|X) 例子 目標:根據先驗概率P(Y)(患病和無患病的比例)和後驗概率P(X|Y)(患病被檢測出患病,無

原创 統計學習、機器學習的基礎知識彙總

數學概念 偏序關係, F1值,精確率,召回率 TP(True Positive) -- 將正類預測爲正類 FN(False Negative) --將負類預測爲負類 FP(False Positive) --將負類預測爲正類 TN

原创 Kaggle -- Google Analytics Customer Revenue Prediction -- 測試數據分析

測試數據包含以下字段 Data Fields fullVisitorId- A unique identifier for each user of the Google Merchandise Store. channelGroupin

原创 機器學習算法筆記--------決策樹

基本思想 計算集合無序程度的算法 信息熵 基尼不純度 優缺點 優點:計算複雜度低,無需進行數據歸一化。 缺點:容易過擬合。

原创 機器學習算法筆記--------K-近鄰算法

基本思想: 假設訓練集中每個數據都是已標記的數據。 當輸入一個新樣本的時候,將新樣本的特徵和數據集中的數據進行特徵比對。 找出最相似的前k個數據。(歐式距離-L2範數,閔科夫斯基距離-Lp範數) 統計這k個數據的標籤,其中出

原创 算法分析--快速排序

快速排序法時間複雜度分析 1、最優情況 每次都剛好在中間。 T(1) = 1; T(n) = 2*T(n/2) + O(n)        = 2*(2*T(n/4)+O(n/2)) + O(n)        = 4*T(n/4) +

原创 校招在線編程題系列----數字遊戲

題目來自牛客網https://www.nowcoder.com/questionTerminal/876e3c5fcfa5469f8376370d5de87c06 題目描述 小易邀請你玩一個數字遊戲,小易給你一系列的整數。你們倆使用這些整

原创 CS231n-assignment1 soft max

       

原创 Kaggle比賽——Digit Recognizer——Part 2(Pytorch 卷積神經網絡的架構)

        在構建好數據集以後就可以動手搭卷積神經網絡了。這裏我還是使用Pytorch來實現幾個常用的卷積神經網絡結構,由於計算資源有限,有些網絡參數已經被我簡化了,完整的網絡結構可以查看原文獻。   未完待續————

原创 CS231n-assignment2 FullyConnectedNet 多層神經網絡的實現 任意數量隱藏層的實現

  from builtins import range from builtins import object import numpy as np from cs231n.layers import * from cs231n.

原创 卷積神經網絡 -- PyTorch 實現系列之 LeNet(datasets: CIFAR-10)

原文:Gradient-Based Learning Applied to Document Recognition 摘要:         本文利用PyTorch實現了經典神經網絡LeNet。 引入:         目前有很多博客都系

原创 Kaggle比賽——Digit Recognizer——Part 1(Pytorch 數據集的建立)

       首先從Kaggle官網下載數據集https://www.kaggle.com/c/digit-recognizer/data裏面包含三個CSV文檔。train.csv是帶標籤的數據,用於訓練和調參,test.csv是無標籤的