原创 【斯坦福大學-機器學習】3.線性代數

【斯坦福大學-機器學習】3.線性代數 Author:kevinelstri DateTime:2017/3/20 3.1 矩陣和向量 矩陣: 矩陣的維數:行數× 列數 Aij :第i行,第j列的元素 向量: 向量是

原创 文本分析--NLTK語料庫選擇

# -*-coding:utf-8-*- """ from nltk.book import * 獲取所有的語料庫 """ """ 古滕堡語料庫 """ # from nltk.corpus import gu

原创 文本分析--遍歷文件夾和讀寫文件

分析: 1、讀取指定目錄下的所有文件 2、讀取指定文件,輸出文件內容 3、創建一個文件夾,並將內容放到指定文件中 輸入文件存放樣例: 輸入文件夾News_split下的所有文件: 輸出文件存放樣例: 創建一個文件夾N

原创 使用python讀取數據科學最常用的文件格式

Author:kevinelstri DateTime:2017/3/13 譯文:How to read most commonly used file formats in Data Science (using Pytho

原创 一鍵google遨遊

方法一: https://laod.cn/ 這個博客不錯,一鍵google就靠他了,分享大家一起學習 方法二: http://dir.scmor.com/google/ 方法三: http://51kxsw.xyz/+S

原创 【斯坦福大學-機器學習】4.多變量線性迴歸

【斯坦福大學-機器學習】4.多變量線性迴歸 Author:kevinelstri DateTime:2017/3/22 4.1 多維特徵 目前爲止,所討論的都是單變量/特徵的迴歸模型,也就是在對房價模型進行預測的過程中,只存

原创 【斯坦福大學-機器學習】2.單變量線性迴歸(二)

【斯坦福大學-機器學習】2.單變量線性迴歸(二) Author:kevinelstri DateTime:2017/3/15 5、梯度下降       梯度下降是一個用來求函數最小值的算法,下面將使用梯度下降算法來求出代價函

原创 【斯坦福大學-機器學習】1.引言

Author:kevinelstri DateTime:2017/3/14 1、機器學習是什麼?       Arthur Samuel (1959). Machine Learning: Field of study tha

原创 文本分析--關鍵詞獲取(jieba分詞器,TF-IDF模型)

關鍵詞獲取可以通過兩種方式來獲取:       1、在使用jieba分詞對文本進行處理之後,可以通過統計詞頻來獲取關鍵詞:jieba.analyse.extract_tags(news, topK=10),獲取詞頻在前1

原创 文本分析--NLTK自然語言處理

# -*-coding:utf-8-*- from __future__ import division from nltk.book import * """ 搜索文本 """ # print text1 # pri