原创 關於AJAX異步渲染的爬蟲

禁忌:不要在違法的邊緣瘋狂試探,關於爬蟲。。。特別是國家的網站和徵信類似數據,這兩天抓了一批人。。。 這裏給一個鏈接,有興趣的可以看下 http://www.sohu.com/na/340622822_161795?scm=1002.45

原创 文本分類心得

正式入職了一段時間,接手了NLP相關任務,作爲一個初學者,分享一點最近的所學心得和體會。 稍後有時間更新,現在項目催的很緊,能力比較強的可以找我內推秋招。可以私信我聯繫方法,個人會進行第一遍簡歷篩選。   冷啓動問題:

原创 機器學習查準率和查全率理解

         半年之後突然需要算這個東西,概念忘的差不多了。今天google搜索一查,發現搜索排名前幾的講解,都是在將概念,貼公式(沒什麼不好,但沒有短時間解決我的問題)           今天我們就從語文的角度來理解這兩個東西。

原创 近況

        很久沒寫博客了,這幾個月發生了很多事情,包括家裏的,個人的,公司的等等,最近也一會忙着寫畢業論文,博客沒時間更新了,等到5-6月份入職之後,會重啓博客,記錄學習心得。以下就推薦近期有感的書籍吧,包括小說和專業知識書,有興趣

原创 Flink學習總結

Flink這塊學習資料比較少,近期都在學習中,之後完善做一個總結,希望對自己和大家的學習有幫助,錯誤或者不足支持,懇請批評指正,謝謝! 目前在流失大數據這塊,隨着計算成本的降低,和實際業務開發需求的提升,對流失數據的開發也更加頻繁,各大公

原创 阿里數據研發提前批錄用

紀念一下今天,第一個OFFER,感謝阿里!秋招開始!大家加油! 面經和學習總結在其他博客裏面有,歡迎相互討論和學習!

原创 阿里2019校招數據研發/數據挖掘終面交叉面

今天下午,所有的面試都面完了,9月初出結果,耐心等待ing,面試是北京打來的電話,不是杭州,不知道爲什麼,base選擇的杭州; 問題描述: 1、自我介紹 2、學校的一些情況,選擇了杭州? 3、挑一篇你覺的最好的論文講一下 4、挑一個項目講

原创 2019阿里校招數據研發/算法工程師 hr面

2018-08-22更:下午6點接到hr電話,進行了20min左右的面試 主要問題如下: 1、你是控制專業,我不是很瞭解控制專業,你能大概給我講解一下嗎?並且告訴我這兩天還要加面一輪交叉面,不知道是爲什麼,有知道的大佬可否私信告訴一下,謝

原创 Scala幾類基本常用類型(Array,List,Tuple,Set,Map)和常用的操作(map,foreach,reduce)

創建 Array,可變的同類對象序列,長度不可變,值可變:  val example = new Array[String](3)  創建長度爲3的空數組,數組裏的元素類型爲字符串,數組賦值可以通過example(0) = "a"   

原创 2019校招阿里數據研發/數據挖掘三面總結

2018/8/20:阿里三面總結 寫在前面:面試是在13號進行的,面試時長10min左右,之前約的是視頻面試1h左右的,面試官太忙了,因此轉爲了電話面試,主要圍繞項目和個人未來規劃,出去轉了兩天,因此晚更了,開始正題。 1、自我介紹:圍繞

原创 用python 第一次在牛客網在線編程

更新注意事項:1、在線編程,需要導入sys,利用sys.stdin.strip().readline().split()讀取數據,一行這樣的代碼,僅僅代表讀取一行,如果需要讀取多行,可以用多行這樣的代碼,或者用while true循環讀取

原创 2019年阿里數據挖掘/數據研發二面總結

2018-08-06 晚上7:00 進行了一個小時的二面,由於時間耗光了,後面又郵件補發了三道編程了,要求實現;博客按回憶順序來寫,不足之處,請多多諒解! 問題一: 你簡歷中上過的數據挖掘、機器學習等課程,是學校的研究生課程還是自己單獨學

原创 2019阿里校招數據挖掘/數據開發一面總結

前兩天剛面完一面,明天面二面,趁着印象還算深刻,記錄下來,不管個人成功與否,希望對你們有參考意義; 面試7點40開始,是一位小姐姐來電面的(二面得知,這個小姐姐是二面小哥的Boss......),感覺應該是統計學/數學專業的,至於爲什麼會

原创 Linux shell學習總結

1、#!/bin/sh    定義腳本解釋器,將shell語句翻譯成機器語言                                        2、${var}   變量定義:通過$符號定義,變量又可以分爲環境變量,腳本變量等

原创 Python中不常使用卻有效率的模塊

1、itertools 模塊:內部有combinations方法重點在組合,permutations方法重在排列 2、slate、pdfminer PDF解析模塊:解析PDF格式數據,前者返回一個字符串,之後就可以用Re正則找你需要的數據