原创 異常檢測算法分類及經典模型概覽

最近工作涉及有關異常檢測的內容,而且前幾天在公司做了一次有關異常檢測算法和應用場景的分享,在此總結記錄一下。   什麼是異常檢測? 異常檢測(Anomaly Detection 或 Outlier Detection)指的是通過數據挖掘手

原创 用 Python 寫一個 Kaggle 比賽排行榜的爬蟲

長久以來,我和小夥伴們都被 Kaggle 網站的加載速度困擾着,比如最近在用 Kaggle 上的數據集測試模型效果時,遇到排行榜(Leaderboard)刷新困難的問題。於是我們開始探索解決方案。 首先嚐試直接使用頁面鏈接進行數據爬取,很

原创 盤一盤2020年上半年的微博熱搜詞條

6月10日晚上,我正在衝浪,突然收到一條推送: 於是熱搜停在了6月10日下午15點整: 楊冪、彭昱暢、明道或成最大贏家,(可能)花一天的錢買了七倍的量。 於是在熱搜恢復之前,我去挖了一下歷史熱搜詞條,沒有新瓜喫的日子,就回味一下微博曾

原创 百度指數的爬蟲方法及代碼

​最近幾年經常在各平臺看到有關「搜索指數動態排行」的視頻,比如「青春有你2」決賽前一週,我在B站上傳了一段「青你2」和「創造營2020」的人氣選手指數動態榜的視頻,後臺看到的視頻播放量、彈幕數、評論數等數據如下:     居然被播放了近

原创 Flask+Axios+jQuery構建前後端通信的小例子

比較暴力但好理解的方法,下面詳細說一下。   工具準備 Flask pip install flask Axios https://cdnjs.cloudflare.com/ajax/libs/axios/0.19.2/axios.m

原创 AttributeError: 'Request' object has no attribute 'is_xhr' 報錯的解決辦法

在用 Flask+VUE 做前後端分離的數據可視化項目時,遇到了這個報錯:AttributeError: 'Request' object has no attribute 'is_xhr'   是 Werkzeug 的版本問題,只需在命

原创 韓國新冠病例突破7000人,韓疾控中心公開數據解析

新冠肺炎在韓國一觸即發,雖有不良組織屢屢做出違反抗疫秩序的事,但韓國官方始終很盡責,做出的決策都很關鍵果決,沒有上演電影《流感》的劇情。 前幾日,韓國疾病預防控制中心(KCDC)在官網(http://www.cdc.go.kr)公開了全

原创 Mac OS X 上搭建 Hadoop 開發環境指南

  Hadoop 的配置有些麻煩,目前沒有一鍵配置的功能,雖然當時我在安裝過程中也參考了有關教程,但還是遇到了很多坑,一些老版本的安裝過程已不適用於 hadoop2.x,下面就介紹一下具體步驟。 安裝 Java 因爲之後使用 Hadoop

原创 Spring MVC 常用註解之 Controller 篇

Shopping Without Vision 的 project 終於告一段落,teamwork 非常給力,中間也遇到很多困難,還好都一起克服了。這是做的第二個 Spring MVC  項目了,對這個框架在很多細節上又多了些深入的理解。

原创 基於 PSO 算法解決 TSP 項目

PSO (Particle Swarm Optimization) 算法即粒子羣優化算法,源於對鳥羣捕食行爲的學習。基本思想是:個體獲取的局部信息提供給羣體,羣體根據所有局部信息獲得一個動態的全局最優解,每個個體再根據這個全局最優解調整自

原创 數據工作者的福音:Google 發佈正式版數據搜索工具啦!

作爲數據工程師,平時在工作中一定少不了到處搜找測試數據,常用的網站包括:Kaggle、Freebase、Data.gov 等等,有時候要挨個網站搜索關鍵字和主題,然後下載了又發現數據集可能並不適用,非常浪費時間。 好消息是,上個月 Goo

原创 記一次京東數據產品經理面試

職位詳情 1. 數學,統計學相關專業優先;碩士以上優先; 2. 熟悉零售行業,有自己的“業務分析方法”和“獨立的視角”; 3. 能夠從數據中還原業務場景,擁有較強的解釋力; 4. 數據建模 能力 職責 1. “無人超市”數據運營支撐:用數

原创 使用 Spark ML Pipeline 進行機器學習

Spark ML Pipeline 的引入,是受到 scikit-learn 的啓發,雖然 MLlib 已經足夠簡單實用,但如果目標數據集結構複雜,需要多次處理,或是在學習過程中,要使用多個轉化器 (Transformer) 和預測器 (

原创 數據預處理之將類別數據數字化的方法 —— LabelEncoder VS OneHotEncoder

LabelEncoder 和 OneHotEncoder 是什麼 在數據處理過程中,我們有時需要對不連續的數字或者文本進行數字化處理。 在使用 Python 進行數據處理時,用 encoder 來轉化 dummy variable(虛擬數

原创 Hadoop 的核心(2)—— MapReduce & YARN

MapReduce 簡介 MapReduce 是一種編程模型,是一種編程方法,是抽象的理論。 YARN 概念 YARN 是 Hadoop 2.0 版本以後的資源管理器,即 MapReduce 2.0,相比於 1.0 版本,架構中的各個模塊