原创 PCA(主成份分析法)技術及其Python實現

數據的降維處理(Dimensionality Reduction) 在現實中,經常出現數據量很大很高維的情況,那這樣以來就很難處理數據。若可以對數據進行降維處理,那麼我們的數據就可以變得簡單,數據集會變得更易用,又可以降低算法的計算開銷,

原创 蘑菇街2016實習生筆試面試總結

蘑菇街是專注於時尚女性消費者的電子商務網站,爲愛美的姑娘們提供衣服、鞋子、箱包、配飾和美妝等領域適合年輕女性的商品,蘑菇街APP也成爲時尚女性購買和互相分享的必備APP。 投簡歷 投蘑菇街的簡歷是一個很意外的事情,不過說實話相比其他

原创 【Python網絡爬蟲】百度貼吧/豆瓣小組

爲什麼我要做爬蟲 其實做爬蟲已經有幾次經歷了,但從來沒有把爬蟲的相關工作做過總結,所以在我第三次寫爬蟲卻還要網頁搜索具體寫法的時候,我決定還是自己把爬蟲的相關技術記錄下來。 基礎版爬蟲 最基礎版的爬蟲很簡單,我們都知道爬蟲其實就只是要把網

原创 二叉搜索樹的基本概念、性質及Python實現

 ———- 二叉搜索樹 二叉搜索樹相對於普通的二叉樹的區別就在於其內部數據額存儲是有規律的,任何一個節點其左邊的節點小與其根結點數值大小,其右邊節點則大與其根結點數值大小。 這樣做的意義就在於可以很快地實現查找,判斷也很容易進行。在上一篇

原创 二叉樹的基本性質、存儲方式與遍歷(Python實現)

二叉樹 二叉樹(Binary Tree)是樹的一種特殊形式,也就是每個節點之下最多擁有2個孩子,相應地若最多不超過M個孩子,那就成爲M叉樹,但實際上我們統稱爲多叉樹。對於二叉樹,常用的定理有四條: 深度爲i的二叉樹最多含有2i−1

原创 Hash Table 概念及構造方法

Hash Table 中文稱哈希表或散列表,就是通過關鍵碼將數據映射到某個位置上並需要通過該關鍵碼來進行訪問數據,因此在哈希表中最核心的點就是如何獲取關鍵碼。有了關鍵碼就可以很方便的對數據進行查找,而哈希表最重要的用途之一就是用來做索引。

原创 K-Means Algorithm(K-均值算法)

K-Means algorithms(K-均值) K-means算是一個很簡單的聚類算法,而聚類與決策樹、SVM等不同,是一種無監督的學習,所謂無監督學習(Unsupervised learning)是和監督學習相對應的,不同於監督學習

原创 A Brief Introduction to Language Modeling

Language modeling plays a pivotal role in automatic speech recognition and can be thought as a way to impose a collecti

原创 騰訊2015實習生招聘基礎研究崗筆試面試總結

前言 對騰訊一直有一種莫名的情感,不是因爲他有多大有多牛,而是因爲曾經在面試的時侯遇到過一個很好很好的面試官。 大概在大三的時候想去找實習,面的產品。羣面表現比較出色,第二天一早第一個去面試,當時的我很不自信,很膽怯,以致於自我介紹的時

原创 利用Python實現KNN

       KNN(k-NearestNeighbor)中文稱K-近鄰算法,是數據挖掘/機器學習中最簡單的算法。既然叫做K近鄰,那麼按照字面理解就很容易知道該算法與距離相關,而在實際中距離也是該算法的核心。         該算法需要

原创 棧與隊列

棧(stack) 棧又可以被叫做堆棧,指的是一種只能從表的一個方向進行插入和刪除元素的線性表。最先進入的元素被壓在棧底,這樣的結構限制了棧的元素進出方式爲後進先出模式(LIFO)。 將元素放入堆棧中的操作叫做進棧,操作爲push(a),而