原创 信息增益生成決策樹

首先查看數據集 我們用這個數據集來構造決策樹,判斷一個新的西瓜是否爲好瓜。 決策樹的構造 計算數據集的信息熵 首先觀察數據集DDD,發現數據集DDD中有好瓜和壞瓜兩個類別,其中好瓜佔比p1=817p_1=\frac {8}{17

原创 Python爬蟲實現貓眼電影搜索

import requests import time from bs4 import BeautifulSoup import re movie=[] def search(url): try: header

原创 Python爬蟲實現豆瓣圖書搜索

import requests import time from bs4 import BeautifulSoup import re book=[] def search(url): try: #url='h

原创 Python爬蟲爬取淘寶商品信息

selenium庫可以驅動瀏覽器自動進行頁面的訪問(代碼參考《Python3網絡爬蟲開發實戰》崔慶才著) 1.驅動瀏覽器訪問淘寶頁面 browser=webdriver.Chrome() wait=WebDriverWait(brows

原创 爬取淘寶美食信息並進行可視化展示

首先爬取淘寶美食信息 採用的爬取方法是selenium庫和pyquery庫,並將爬取到的美食信息存放到csv文件,具體代碼如下: import re from selenium import webdriver from selen

原创 numpy之transpose詳解

transpose用於numpy中高維度數組的軸變換,非常不好理解,我用自己的理解以三維數組來舉例: transpose()括號中傳入的參數通常爲0,1,2,可以將0看作0軸,1看作1軸,2看作2軸;對於三維數組(a,b,c)來說

原创 【leetcode刷題】數組部分記錄(更新中)

簡單 1.面試題53 - II. 0~n-1中缺失的數字 解題思路1:0到n-1範圍內有n個數組,創建一個升序的從0到n的新數組,遍歷原數組,如果某一個位置上的數和原數組不同,那麼返回新數組中的那個數。當遍歷完原數組後都沒有出

原创 【自然語言處理】Hanlp分詞與去停用詞工具

可以參考這個GitHub 分詞除了使用jieba也可以用Hanlp的這個小工具,也很方便。 HanLP的詞典分詞實現 1.DoubleArrayTrieSegment DoubleArrayTrieSegment分詞器是對DAT最

原创 梯度下降算法-案例實踐

一元線性迴歸 一元線性迴歸算法的原理比較簡單,大致思路就是:對於給定的數據集,找到一條直線y=θ0x+θ1y=\theta_0x+\theta_1y=θ0​x+θ1​,使這條直線可以很好的擬合所有的數據。那麼如何選擇直線,這是一元

原创 決策樹的一些概念

決策樹 決策樹的定義 分類決策樹模型是一種描述對實例進行分類的屬性結構。 決策樹由結點和有向邊組成,其中結點有兩種類型:內部結點和葉結點 內部結點表示一個特徵或屬性;外部結點表示一個類 信息熵 信息熵是度量樣本集合純度

原创 Pytorch實現Seq2Seq

前言 Seq2Seq模型用來處理nlp中序列到序列的問題,是一種常見的Encoder-Decoder模型架構,基於RNN同時解決了RNN的一些弊端(輸入和輸入必須是等長的)。Seq2Seq的模型架構可以參考Seq2Seq詳解,也可

原创 使用pyinstaller打包python文件爲exe格式

算法課老師要求提交的作業格式是.exe文件,但是python生成的是.py格式的文件。上網查了一下,可以用python的pyinstaller對py文件進行打包,所以按照教程進行嘗試,其間遇到很多問題,這篇博客記錄一下這些問題。

原创 Pytorch Tensor基本操作

創建Tensor 從numpy引入 torch.from_numpy() a = np.array([2,3]) torch.from_numpy(a) 使用list導入,不用numpy作爲載體 tor

原创 python os.walk()的用法

os.walk() 方法用於通過在目錄樹中游走輸出在目錄中的文件名,向上或者向下。 示例: 在D盤新建一個test文件夾,裏邊的內容如下:      

原创 【機器學習】KNN近鄰算法

import numpy as np import time # from perception import data_load def data_load(filename): ''' :param fil