原创 top k frequent words(前K個高頻單詞)

問題給一非空的單詞列表,返回前 k 個出現次數最多的單詞。返回的答案應該按單詞出現頻率由高到低排序。如果不同的單詞有相同出現頻率,按字母順序排序。示例 1:輸入: ["i", "love", "leetcode", "i", "love",

原创 Python調用JavaScript代碼

在寫爬蟲經常會遇到很多JS代碼,比如說某些參數加密,可以只用用Python來翻譯,但是有時候代碼不容易閱讀(JS渣渣),所以這裏直接去找一條捷徑,直接用Python的第三方庫去調用JS代碼。這裏用到的是 execjs安裝雖然這個庫導入名是i

原创 Spark教程(三) Spark 學習資源

SQL入門課程:https://www.codecademy.com/learn/learn-sql入門資料:http://www.w3school.com.cn/sql/實踐:http://www.mysqltutorial.org/入門

原创 Spark教程(一)爲什麼要學spark

介紹Apache Spark是一個開源集羣運算框架,最初是由加州大學柏克萊分校AMPLab所開發。相對於Hadoop的MapReduce會在運行完工作後將中介數據存放到磁盤中,Spark使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲

原创 Spark教程(二)Spark連接MongoDB

如何導入數據數據可能有各種格式,雖然常見的是HDFS,但是因爲在Python爬蟲中數據庫用的比較多的是MongoDB,所以這裏會重點說說如何用spark導入MongoDB中的數據。當然,首先你需要在自己電腦上安裝spark環境,簡單說下,在