原创 字節跳動 數據研發實習面經(一面二面)

上上週週五投了字節跳動的數據研發的崗位,然後上週進行了一面,上週周天進行了二面,目前還沒出結果,但是應該是涼了。在這裏寫點東西留個經驗教訓。 首先這是我的第一次面試,之前一直在準備競賽,論文,沒打算找實習。等我想找實習的時候已經6月中旬,

原创 numpy的mat和array的區別

mat()函數與array()函數生成矩陣所需的數據格式有區別: mat()函數中數據可以爲字符串以分號(;)分割,或者爲列表形式以逗號(,)分割。而array()函數中數據只能爲逗號。 2.mat()函數與array()函數生

原创 KNN實現手寫數字識別(代碼讀懂後復現)

首先感謝https://blog.csdn.net/u012162613/article/details/41768407的分享! 所謂KNN就是對那個你要預測的點,找出其k個鄰居,也就是距離他最近的k個點,這k個樣本中出現頻率最

原创 pandas基本操作——1

這裏來介紹一下pandas。由於知識點比較多,決定分幾篇介紹。 import numpy as np import pandas as pd #pandas是基於numpy的一個開源python庫。 #我認爲相當於python版exc

原创 Numpy.array[]的:與::與:,:的區別

x=np.array([1,2,3,4,5,6,7,8,9,10,11,12]) print(x[1:5])#打印index爲1~5的數組,範圍是左閉右開 print(x[3:])#打印index=3之後的數組,包含index=3

原创 第一場數據挖掘比賽的一些經驗心得

本篇文章主要介紹內容:數據去噪,採樣,特徵工程 數據去噪: 無論是數據挖掘的比賽也好,還是日常生活中的各種項目也好,我們拿到手的數據集含有噪聲數據是很正常的。噪聲會降低我們的數據質量,從而影響我們模型的效果。因此,對噪聲的處理是必

原创 文本分析入門(三)

https://zhuanlan.zhihu.com/p/65481094

原创 文本分析入門(二)

還是先上新概念。 分詞 我們在做文本挖掘的時候,要對文本做的預處理首先就是分詞。對於英文來說,因此單詞之間天然有空格隔開,因此可以按照空格分詞(但也有需要把多個單詞做成一個分詞的時候)。而對於中文來說,由於沒有空格,那麼分詞就變成了一

原创 數據挖掘競賽之後處理

最近開始入坑數據挖掘比賽,總是聽圈內大佬們提到後處理漲分。我就一直很疑惑,一直都是數據預處理,怎麼又冒出來一個後處理。在網上學習了之後,決定寫一篇文章總結一下。 就我目前學習到的數據挖掘的流程來說,一般拿到數據之後 先進行數據的分析,

原创 文本分析入門(一)

今天在圖書館查了不少資料,感覺沒什麼特別好的學習途徑。 主要通過博客,李航的《統計學習方法》,相關比賽代碼來學習。 首先還是介紹幾個名詞,一個新領域總是有很多新名詞。 Tokenization:將文本轉化爲tokens的過程

原创 TFIDF文本分析

TF-IDF是一種文本特徵提取統計算法。 什麼是詞頻? 詞頻(TF)即一個詞語在文本中出現的頻率。 文本總數(D):所蒐集的所有文本數。 含關鍵詞的文本數(Dw):含有某個詞(關鍵字)的文本數目。 公式: TF-IDF(w)=TF(w

原创 未來杯 城市-房產租金預測開源baseline

昨天跟隊友開源了一份線上0.85的baseline,發在我們的知乎專欄裏了。 知乎地址: https://zhuanlan.zhihu.com/p/64715267 github地址: https://github.com/leo60