台部落Trista0036

姑娘最近在學爬蟲，昨天寫好發現很奇怪，內存越來越高，最後死機了，沒錯，白爬了一天。對於一個計算機小白來講我還真的不太懂是怎麼回事，於是請一位前輩給出瞭解答。如下：爬蟲應該一邊爬取一邊存之前爬了大概四萬條數據存在dataframe中

2019-01-27 22:20:31

spark中如果有中間結果（如抽樣結果）需要存儲，有兩種方式，直接存爲rdd，或者collect出來，再存儲。存儲爲rdd rdd.saveAsPickleFile("hdfs://ip/rdd") 可直接使用。存儲爲datafr

2018-09-13 03:37:23

本人剛接觸spark，最先學的就是map-reduce,跟大家分享一下對map-reduce的理解。 1.Map 首先是map,我認爲map就是對數據列的處理：抽取或者添加列，下邊是例子： 1.1 提取 rdd1是某用戶數據，我們想提取其

2018-09-06 00:25:19

以下爲本人學習fpGrowth算法時爲了熟練自己敲了一遍，直接分享給大家，參考書目：《機器學習實戰》定義類 class treeNode: def init(self, nameValue, numOccur, parentN

2018-09-06 00:25:18