#!/usr/bin/python # -*- coding: UTF-8 -*- ''' 初始化SparkConf, SparkContext 從pyspark 導入SparkConf, SparkContext ''' from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) inputFile = "hdfs://192.168.10.101:9000/input/test.txt" outputFile = "hdfs://192.168.10.101:9000/output" #讀取我們的輸入數據 input = sc.textFile(inputFile) # 把它切分成一個個單詞 words = input.flatMap(lambda line: line.split(" ")) #轉換爲鍵值對並計數 counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) #將統計出來的單詞總數存入一個文本文件,引發求值 counts.repartition(1).saveAsTextFile(outputFile) SparkContext.stop()
spark python wordcount
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.