spark python wordcount

#!/usr/bin/python
# -*- coding: UTF-8 -*-
'''
初始化SparkConf, SparkContext
從pyspark 導入SparkConf, SparkContext
'''
from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

inputFile = "hdfs://192.168.10.101:9000/input/test.txt"
outputFile = "hdfs://192.168.10.101:9000/output"

#讀取我們的輸入數據
input = sc.textFile(inputFile)
# 把它切分成一個個單詞
words = input.flatMap(lambda line: line.split(" "))
#轉換爲鍵值對並計數
counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)

#將統計出來的單詞總數存入一個文本文件,引發求值
counts.repartition(1).saveAsTextFile(outputFile)

SparkContext.stop()

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章