使用庫:
引用jieba庫:jieba是優秀的中文分詞第三方庫,需要額外安裝。
《大秦帝國(1-6)》:(.txt)
鏈接:https://pan.baidu.com/s/15WTtIrVXJsLH7I7dXzZDgA 提取碼:maag
Python代碼:
#分析排在前面的人物出場次數順序 及七國的出場次序(共二十位)
import jieba
txt=open("F:\\WinterVacation\\大秦帝國1-6 孫皓暉.txt","r",\
encoding="gb18030").read()
excludes={"沒有","一個","便是","已經","將軍","如何","如此","天下",\ #去掉無用的詞
"確是","立即","自己","一聲","竟是","卻是","秦王","丞相",\ #排第一位的“沒有”爲8079次
"秦軍","不能","這個","大軍","起來","之後","先生","一片",\
"咸陽","老夫","大臣","一陣","太子","皇帝","不是","一句",\
"還是","拱手","公子","只有","然則","不禁","今日","說話",\
"戰國","只是","正在","高聲","變法","突然","知道","頓時",\
"特使","大將","一般","驟然","以爲"}
words=jieba.lcut(txt)
counts={}
for word in words:
if len(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
for word in excludes:
del counts[word]
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(19):
word,count=items[i]
print("{0:<10}{1:>5}".format(word,count))
print("{0:<10}{1:>5}".format("韓國",1185)) #因韓國出現的次數太靠後,這裏直接打印
結果截圖:
結果的小分析:
這裏主要是分析詞頻出現在前面的人物,以及七大戰國的出現次數。
從結果中也可以看出《大秦帝國》的主要內容是在寫“秦國”,之後便是“趙國”,畢竟能與秦國在其極強盛的時期抗衡,史無前例的百萬人的大戰——“長平之戰”也體現出兩國的國立之強盛,秦滅六國時趙國也是最難啃的骨頭。與之相對的韓國則從詞頻中亦看出其弱。
人物的出場在一開始的時候我本以爲“商鞅”會出現很多次,卻沒想到不僅前面沒有出現,而且取而代之的是“衛鞅”。
像李斯、呂不韋、贏政、趙高、蒙恬這樣的人物排在前面,也體現出在《大秦帝國》泱泱五百萬言中着重寫的是大秦的形成前後這一段時期。
戰國四大名將之首、武安君白起(殺敵皆以萬記)排在前列也是毫無疑問的。
亦是,大秦總少不了縱橫家兩兄弟蘇秦、張儀。
沒想到的是,戰國四大公子死的最早孟嘗君出場竟然遠超其他三位。
秦昭王即秦昭襄王 贏稷在位55年,是個人物。