台部落青木长风

上上週週五投了字節跳動的數據研發的崗位，然後上週進行了一面，上週周天進行了二面，目前還沒出結果，但是應該是涼了。在這裏寫點東西留個經驗教訓。首先這是我的第一次面試，之前一直在準備競賽，論文，沒打算找實習。等我想找實習的時候已經6月中旬，

2020-06-25 10:31:38

mat()函數與array()函數生成矩陣所需的數據格式有區別： mat()函數中數據可以爲字符串以分號(；)分割，或者爲列表形式以逗號（，）分割。而array()函數中數據只能爲逗號。 2.mat()函數與array()函數生

2020-06-04 11:09:36

首先感謝https://blog.csdn.net/u012162613/article/details/41768407的分享！所謂KNN就是對那個你要預測的點，找出其k個鄰居，也就是距離他最近的k個點，這k個樣本中出現頻率最

2020-06-04 11:09:36

這裏來介紹一下pandas。由於知識點比較多，決定分幾篇介紹。 import numpy as np import pandas as pd #pandas是基於numpy的一個開源python庫。 #我認爲相當於python版exc

2020-06-04 11:09:36

x=np.array([1,2,3,4,5,6,7,8,9,10,11,12]) print(x[1:5])#打印index爲1~5的數組，範圍是左閉右開 print(x[3:])#打印index=3之後的數組，包含index=3

2020-06-04 11:09:36

本篇文章主要介紹內容：數據去噪，採樣，特徵工程數據去噪：無論是數據挖掘的比賽也好，還是日常生活中的各種項目也好，我們拿到手的數據集含有噪聲數據是很正常的。噪聲會降低我們的數據質量，從而影響我們模型的效果。因此，對噪聲的處理是必

2019-06-11 06:28:36

https://zhuanlan.zhihu.com/p/65481094

2019-05-15 08:30:14

還是先上新概念。分詞我們在做文本挖掘的時候，要對文本做的預處理首先就是分詞。對於英文來說，因此單詞之間天然有空格隔開，因此可以按照空格分詞（但也有需要把多個單詞做成一個分詞的時候）。而對於中文來說，由於沒有空格，那麼分詞就變成了一

2019-05-13 09:43:49

最近開始入坑數據挖掘比賽，總是聽圈內大佬們提到後處理漲分。我就一直很疑惑，一直都是數據預處理，怎麼又冒出來一個後處理。在網上學習了之後，決定寫一篇文章總結一下。就我目前學習到的數據挖掘的流程來說，一般拿到數據之後先進行數據的分析，

2019-05-13 09:43:49

今天在圖書館查了不少資料，感覺沒什麼特別好的學習途徑。主要通過博客，李航的《統計學習方法》，相關比賽代碼來學習。首先還是介紹幾個名詞，一個新領域總是有很多新名詞。 Tokenization：將文本轉化爲tokens的過程

2019-05-09 05:12:17

TF-IDF是一種文本特徵提取統計算法。什麼是詞頻？詞頻（TF）即一個詞語在文本中出現的頻率。文本總數（D）：所蒐集的所有文本數。含關鍵詞的文本數（Dw）：含有某個詞（關鍵字）的文本數目。公式： TF-IDF（w）=TF（w

2019-05-08 03:24:38

昨天跟隊友開源了一份線上0.85的baseline，發在我們的知乎專欄裏了。知乎地址： https://zhuanlan.zhihu.com/p/64715267 github地址： https://github.com/leo60

2019-05-07 01:36:40