原创 python爬蟲筆記1——一邊爬取一邊存

姑娘最近在學爬蟲,昨天寫好發現很奇怪,內存越來越高,最後死機了,沒錯,白爬了一天。對於一個計算機小白來講我還真的不太懂是怎麼回事,於是請一位前輩給出瞭解答。如下: 爬蟲應該一邊爬取一邊存 之前爬了大概四萬條數據存在dataframe中

原创 spark中間結果的存儲

spark中如果有中間結果(如抽樣結果)需要存儲,有兩種方式,直接存爲rdd,或者collect出來,再存儲。 存儲爲rdd rdd.saveAsPickleFile("hdfs://ip/rdd") 可直接使用。 存儲爲datafr

原创 mapreduce(pyspark)

本人剛接觸spark,最先學的就是map-reduce,跟大家分享一下對map-reduce的理解。 1.Map 首先是map,我認爲map就是對數據列的處理:抽取或者添加列,下邊是例子: 1.1 提取 rdd1是某用戶數據,我們想提取其

原创 機器學習算法fpGrowth

以下爲本人學習fpGrowth算法時爲了熟練自己敲了一遍,直接分享給大家,參考書目:《機器學習實戰》 定義類 class treeNode: def init(self, nameValue, numOccur, parentN