原创 機器學習高頻面試題(41道)

Q1: What’s the trade-off between bias and variance? 問題1: 什麼是偏差(bias)、方差(variable)之間的均衡? Bias 是由於你使用的學習算法過度簡單地擬合結果或者錯誤地擬

原创 MNIST訓練數字識別-Keras

端到端的MNIST訓練數字識別 # -*- coding:utf-8 -*- import numpy as np from keras.datasets import mnist from keras.models import S

原创 sklearn.classification_report預測準確率

SKLearn中預測準確率函數介紹 1、在使用Sklearn進行機器學習算法預測測試數據時,常用到classification_report函數來進行測試的準確率的計算輸 #開始預測 y_pred = clf.predict(X_test

原创 用數據分析搭配肯德基早餐

今天看到一個好玩的數據分析小case,通過對KFC的早餐爬取部分數據,並做簡單處理,查看肯定早餐搭配 原數據集及初始代碼網址如下:https://www.kesci.com/home/project/5ecf10d0162df90036d

原创 短信文本分類的實踐

由於最近接觸到一些短信內容,本着想要做一個模板提取和分類,先試試水。開局就遇到一堆問題,也可能是我自己太菜。所以想把遇到的問題進行記錄,以備不時之需。 第一部分 ①由於我拿到的數據是沒有標籤的,就是隻有短信內容,沒有短信標籤,是分爲那個類

原创 K-means原理及Python實現

K-means方法是一種非監督學習的算法,它解決的是聚類問題。 1、算法簡介:K-means方法是聚類中的經典算法,數據挖掘十大經典算法之一;算法接受參數k,然後將事先輸入的n個數據對象劃分爲k個聚類以便使得所獲得的聚類滿足聚類中的對象相

原创 GDBT模型有缺失值處理

在訓練GDBT是,執行model.fit(X_train, y_train)語句報錯,報錯如下: ValueError: Input contains NaN, infinity or a value too large for dtyp

原创 impala使用-數據類型轉換

今天在使用impala查詢數據的時候,發現price字段是string類型,不能進行sum計算,需要轉換格式。 第一種方法:由於price字段中的數值是類似0.24這樣的小數,不能轉換成int類型,使用了cast()函數轉換成float類

原创 impala 時間格式轉換

最近在impala中遇到一些時間格式問題,目標:取當前日期的前兩天日期。 一種做法是from_unixtime(unix_timestamp()-60*60*24*2,'yyyyMMdd'),當前時間戳減去兩天的秒數,60秒*60分*24

原创 Logistic Regression(邏輯迴歸)模型實現二分類和多分類

原文鏈接:https://blog.csdn.net/u011734144/article/details/79717470 一、邏輯迴歸 二、判定邊界 當將訓練集的樣本以其各個特徵爲座標軸在

原创 算法工程師 -常見面試題

原文鏈接:http://www.ijiandao.com/2b/baijia/157038.html ▌1. LDA(線性判別分析) 和 PCA 的區別與聯繫    首先將LDA 擴展到多類高維

原创 hive sql數據分析面試整理

原文鏈接:https://www.jianshu.com/p/7bc58aa08185 1.寫作目的說明 hive sql是從事數據分析的同學的基本功。無論是秋招、春招或者是實習,sql都是面試

原创 Titanic倖存預測

  import numpy as np  import pandas as pd  from sklearn import preprocessing import matplotlib.pyplot as plt  plt.rc("f

原创 KNN學習筆記

k近鄰(k-nearest nrighbor,k-NN)是一種基本分類與迴歸的方法。實現簡單,直觀:給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例,這K個實例的多數屬於某個類,就把該輸入實例分爲到

原创 線性迴歸實例學習

# -*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.linear_m