女神程序員的一天:暴力測試social爬蟲代碼
簡雅楠 ,友盟社會化組件(社交分享),UMTrack以及友盟指數的後端研發工程師,她喜歡coding和創新,也經常開一些無厘頭程序員玩笑。 因爲她每天像夜貓子一樣自願加班到深夜,在項目多的時候也能按優先級有條理的處理好,大家都叫她女神。
作爲女性程序員,往往會被低估,但她卻是團隊中的絕對核心,不僅因爲她coding的能力很強,還因爲她可以用音樂讓大家身心放鬆。鋼琴十級的她很喜歡古典音樂,給大家推薦曲目的同時也會提及怎樣欣賞作品。作爲一位研發女生,每天要面對哪些難題?又要怎樣處理多條產品線併發的關係?讓我們來看看簡雅楠的一天。
09:00 起牀查郵件。
09:30 買早餐,走在上班的路上,理清思路。
第一件事: 今天需要把社交分享項目的爬蟲架構再完善一下,現在是借鑑scrapy的架構寫的,每個平臺的middleware中還要按照平臺的特徵,切換proxy或加入proxy被封了之後的sleep以及重置狀態碼,這之後魯棒性就不錯了。這些大概會花費30至60分鐘,11:00之前可以搞定。
第二件事:社交分享項目社交平臺的抓取流程複雜,除了主工程之外,還需要整理其他輔助腳本,這個要補充到文檔裏,需要1小時左右,下午3點前應該可以搞定。
第三件事:社交分享項目社交平臺的數據挖掘 (給用戶按照興趣分類) 目前的三個工程除了主工程,還需要整理導數據腳本,因爲不能影響服務性能,所以數據庫做了很多優化,這些腳本也是因爲優化了數據庫才必須要用到。目測需要2小時,加上休息時間和小組討論時間,下午6點前應該可以搞定。
第四件事:指數需要更新,目前算法要支持多維度數據的平滑,這裏還需要調整一下,跑數據需要40分鐘,目測調整算法需要3小時多。這個恐怕需要分一部分給明天了,今天晚上10點前做好兩個維度的數據平滑就好了。
第五件事:UMTrack的數據實驗框架還沒有想好,需要補充文檔,把目前想到的架構補充進去。這個留作思考題,可以在晚上10點之後想想,睡前補充文檔,下週再請教team的人一起看看,商量一下。
09:50 到公司,加入透明proxy的按使用計數switch的方法,以及在特殊情況下,被禁止訪問後的sleep,嗯,像預想中的那樣,11點完事。
11:00 暴力測試social爬蟲代碼,盯着數據。
12:00 吃飯,繼續觀察social爬蟲運行狀態和數據。嗯,有問題。調整代碼,繼續暴力測試。
13:00 開始打桌上足球!今天要儘可能減少被虐。
13:30 去樓下買個冰激凌,調節心情,顯然是桌上足球被虐的太慘不忍睹了。
14:00 吃完冰激凌,嗯,爬蟲是OK了,開始整理腳本,搞定的比預想要快一些,嗯,好,可以調整一下social數據挖掘中的TF-IDF算法,分析出10w條結果之後要做一次權重計算。先不管流程,跑一下權重看看先。
15:00 已整理完腳本,還在調權重,這比我想象中複雜。嗯,這樣行不通,還需要加詞庫黑名單。匹配頻率高的詞中,有的詞在我們的系統裏還不能降低權重,因爲它不是干擾詞,確實是反應了用戶的興趣。
16:00 今天TF-IDF算法的優化是做不完了,先整理腳本吧,記一下日誌,調算法這地方明天是重點。和team中的人討論腳本整理和流程簡化的問題。
17:00 吃點零食,繼續討論,這流程現在看起來比較合適,該簡化的部分都完成了,再仔細想想看,這些腳本的執行頻率會不會對其他模塊有影響。
18:00 不行,這些腳本的運行頻率都需要再調整一下,數據庫插入和查詢的語句需要優化,不然鎖數據庫進程,查詢會慢,用不到索引的查詢就更不用說了,還好索引已經做了優化。
19:30 呼呼,終於搞定了,去吃個飯先!
20:30 嗯,指數的數據平滑倒是比較好做的,先揀兩個最容易的維度做吧。
22:00 OK啦,回家!
22:30 先吃點水果,據說新版笑傲江湖不錯,公司很多同事說東方不敗很好看。好,那就看看有東方不敗的片段。
===零點===
00:01 完全沒有睡意啊!嗯,想到track的數據驗證了,有一部分可以借鑑social數據挖掘中的架構,好,先寫上。
1:30 good,躺着去,上網隨便看看,同時聽一會Piano Guys的曲子,這羣傢伙太牛了,簡直是樂壇奇蹟,創造力極強,一臺鋼琴模仿了一個樂隊的效果,各種膜拜後,入眠了。 (責編/張寧)
開發者的一天系列:
《開發者的一天》系列文章,聚焦在移動應用開發領域,歡迎移動互聯網圈裏的朋友們踊躍投稿,投稿請聯繫@CSDN張寧。
本文爲CSDN網友投稿,並不代表本網觀點與立場。如需轉載請聯繫[email protected]。