原创 機器學習基石筆記-感知機-Day1

1 基礎概念 1. 機器學習應用三個關鍵 有某些有規律的目標待機器進行學習 我們不知如何編程 有能夠給機器進行學習的資料 2. 機器學習流程 首先將Data傳給我們的機器,Data也同時告訴了機器假設空間 讓機器對數據進行學

原创 爬蟲練習(二)-股票信息抓取

思路: 1、首先需要找到一個將股票信息存放在html上的股票網站 2、因爲每一個股票都是一個獨立的頁面,所以在抓取時,首先要了解每個股票網址的規律(網址最後結尾都是股票的代碼) 3、先要找到所有股票代碼,從東方財富網股票列表處來獲

原创 樸素貝葉斯-Day2

1 拉普拉斯平滑: 上一篇博客的最後留下了一個問題,那就是如果檢測的詞列表中包含概率爲0的字那麼最後結果總是0。那麼此時可以引入拉普拉斯平滑,也就是說,可以將所有的字初始化爲1,然後分母初始化爲2. 還有一個問題就是要防止下溢出,

原创 Ng-機器學習(Day 3)

Logistic 多分類問題: 面對Logistic多分類問題,通常的分類是將一類單獨拎出來,然後其他剩下的分爲另一類。這樣就可以利用二元Logistic迴歸的思路了。 比如下圖,我們一共有三個類,那麼我們會有三個分類器,然後依此

原创 Ng-機器學習(Day 1)

1 What is Machine-learning? Tom Mitchell: 機器學習是指一個程序從經驗E(計算機與自己進行上萬次的對弈)中學習解決某項任務T(玩跳棋),進行某一項性能度量P(贏跳棋的概率),通過P測定在T

原创 爬蟲練習(一)-初體驗-淘寶商品名稱價格爬取

爬蟲練習(一)-初體驗-淘寶商品名稱價格爬取 思路: 1、首先需要一個接口 2、希望爬取多頁,要了解翻頁的機制 第二頁 第三頁 由此可知,淘寶默認44爲一頁 爬蟲思路: 要定義四個函數: 1、用來抓取網頁的內容 import

原创 Ng-機器學習(Day6)

一、 改進算法 1. 當代價函數非常大的時候可以嘗試的辦法: 獲取更多的訓練樣本 嘗試用更少的特徵數 增加額外的特徵 降低/提高lambda值 但是!這些步驟會花費較多的時間。下面將介紹一種事半功倍的解決辦法。 2.機器學習

原创 Ng-機器學習(Day 5)

神經網絡代碼實現: 讀取數據: 因爲要求y爲下圖的形式,所以要對y進行處理 import numpy as np import pandas as pd from scipy.io import loadmat from s

原创 Ng-機器學習(Day 4)

1 多變量Logistic迴歸: 多變量Logistic迴歸的基本思想就是:假設又K個類別,那麼就用K個分類器,一個一個的挑出每一個類別與其他的類別進行比較。比如:類別包括:晴,陰天,雨三個分類。那麼我就需要三個分類器。第一個分類

原创 Ng-機器學習(Day 2)

Classification: 邏輯迴歸(Logistic Regression): 作用: hypothesis函數在這裏與線性迴歸是不同的: 當h(x)>0.5,就會被歸爲正向類;當h(x)<0.5時就會被歸爲負向類

原创 統計學學習-Day1

樣本與總體 樣本: 樣本是用來估計總體的 樣本應與總體的情況相似(比如,利用埃菲爾鐵塔的模型去研究真正的埃菲爾鐵塔的結構。那麼這個樣本應該在結構上,比例上與原來的母體相似(總體 population) 樣本應該是概率樣本,也就是

原创 統計學學習-Day4

配對卡方檢驗: 目的:研究同一羣人在實驗前測和實驗後測是否發生了變化 前提: 1、觀測變量爲二分類變量,且兩類之間互斥 2、分組變量包含2個分類,且相關。(當分組變量有3個及以上分類時,可使用Cochran’s Q檢驗)

原创 Kaggle Intermediate-ML

1 如何處理類別變量? 方法一:丟棄(一般不用) 方法二:LabelEncoder from sklearn.processing import LabelEncoder label_encoder = LabelEncoder(

原创 管理學問題回答思路

1. 什麼是組織?爲什麼管理者對於組織很重要 思路:首先闡述組織的概念,組織存在是爲了幹什麼的?接着說明管理者在組織當中所要履行的職責(計劃、組織、領導、控制),然後談談如果組織沒有計劃、沒有明確的結構,沒有領導者或沒有控制組織會

原创 《管理學原理與實踐》-Robbins

第1章 管理者與管理 1.1 誰是管理者 組織:是由兩個或兩個以上的個體或羣體爲實現共同目標協調起來行動的系統。 組織的特徵:1、組織由共同的目標;2、組織目標只能由人來完成;3、組織由特定的結構 管理者:是指在組織中直接督促他