台部落ckriser

Pandas學習： pandas 兩大主要數據結構：Series,Dataframes Series:一種類似於一維數組的對象,它由一組數據(各種Numpy數據類型)以及一組與之相關的數據標籤(即索引1)組成。僅由一組數據即可產生最

2019-03-26 15:59:22

代碼實現是基於：推薦系統實戰-----項亮； import pandas as pd items_data = pd.read_csv("items_action_2.csv") items_data.head() U

2018-11-04 11:48:25

~~~~~~ 看了很多文章，對word2vec的原理講解很清楚，還有一些源碼解讀和實現。但是在真正工作中如何熟練使用更是必須的。翻了下網頁發現這個內容比較少。就記錄一下關鍵它的使用。 ~~~~~~

2018-10-20 10:48:13

1.基於規則，對於要提取的分類維護一個dict,在dict裏面保存需要提取的關鍵詞，存在關鍵詞的對應標記爲分類；（缺點，不斷的去維護詞典） 2.基於機器學習：HMM(分詞最常用的)，CRF,SVM,LDA,CNN 3.詞袋模型：bag

2018-10-13 10:24:56

使用tornado就是因爲他是Python的輕量級框架，業務需求就是封裝一些簡單接口供業務使用，主要是進行數據的封裝處理。 tornado的書：Introduction to Tornado tornado的視頻：千鋒python視頻

2018-09-30 10:37:04

文章來自：https://leonardoaraujosantos.gitbooks.io 原文作者：Leonardo Araujo dos Santos 公衆號：機器學習算法工程師 https://blog.csdn.net/by

2018-09-06 12:48:52

MongoDB數據庫 NOSQL，指非關係型數據庫。Not Only SQL的縮寫，是不同於傳統的關係型數據庫管理系統的統稱。 NOSQL用於超大規模數據的存儲。主要解決：對數據庫高併發需求對海量數據的高效率存儲和訪問的需求對數

2018-09-03 18:25:41

混淆矩陣,AUC,ROC曲線 smote算法

2018-08-21 12:00:30

不平衡數據集的處理一般有：上採樣是小的變多下采樣是大的變小在圖像處理中也有改進的使用：smote算法

2018-08-21 12:00:19

SVR迴歸，就是找到一個迴歸平面，讓一個集合的所有數據到該平面的距離最近。關於核的映射，在SVM/SVR裏可謂巧奪天工，如果沒有核這種思想的引入，那麼SVM/SVR就是一種加了距離限制的percetion learning algori

2018-08-21 12:00:15

決策樹 —–ok 隨機森林邏輯迴歸 SVM —–ok 貝葉斯算法 —ok K最近鄰 —ok K均值—ok Adaboost 神經網絡馬爾可夫

2018-08-21 02:04:51

爬蟲學習 3. 爬蟲深度優先和廣度優先爬取網頁會存在環路的情況：比如導航欄通過URL去重，跳過已經爬取的URL 深度優先按照垂直進行（scrapy是用這個方法）深度優先算法： def depth_tree(tree_

2018-08-21 02:04:39

樸素貝葉斯(naive Bayes)法是基於貝葉斯定理與特徵條件獨立假設的分類方法；樸素貝葉斯並不是貝葉斯定理，也不是貝葉斯估計一、概率基礎知識：條件概率是指事件A在另外一個事件B已經發生條件下的發生概率。條件概率表示爲： P(A|

2018-08-21 02:04:16

PageRank由來在PageRank發明之前，搜索引擎採用的還是最原始的關鍵字匹配技術，於是呢在搜索結果中經常會遇到「掛羊頭賣狗肉」的垃圾網站，對這些網站，當時的Yahoo採用還是人工清理的方法。這時候G

2018-08-21 02:04:15

一、歐氏距離(Euclidean Distance)：歐氏距離是最容易直觀理解的距離度量方法，我們小學、初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:

2018-08-21 02:04:13