使用Python分析統計《大秦帝國》人物及七國的出場次數 的順序(前20)

使用庫:
引用jieba庫jieba是優秀的中文分詞第三方庫,需要額外安裝。
《大秦帝國(1-6)》:(.txt)
鏈接:https://pan.baidu.com/s/15WTtIrVXJsLH7I7dXzZDgA 提取碼:maag


Python代碼:

#分析排在前面的人物出場次數順序 及七國的出場次序(共二十位)
import jieba
txt=open("F:\\WinterVacation\\大秦帝國1-6 孫皓暉.txt","r",\
         encoding="gb18030").read()
excludes={"沒有","一個","便是","已經","將軍","如何","如此","天下",\     #去掉無用的詞 
          "確是","立即","自己","一聲","竟是","卻是","秦王","丞相",\     #排第一位的“沒有”爲8079次
          "秦軍","不能","這個","大軍","起來","之後","先生","一片",\
          "咸陽","老夫","大臣","一陣","太子","皇帝","不是","一句",\
          "還是","拱手","公子","只有","然則","不禁","今日","說話",\
          "戰國","只是","正在","高聲","變法","突然","知道","頓時",\
          "特使","大將","一般","驟然","以爲"}
          
words=jieba.lcut(txt)
counts={}
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1
        
for word in excludes:
    del counts[word]
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)

for i in range(19):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))
print("{0:<10}{1:>5}".format("韓國",1185)) #因韓國出現的次數太靠後,這裏直接打印




結果截圖:

在這裏插入圖片描述


結果的小分析:
這裏主要是分析詞頻出現在前面的人物,以及七大戰國的出現次數。
從結果中也可以看出《大秦帝國》的主要內容是在寫“秦國”,之後便是“趙國”,畢竟能與秦國在其極強盛的時期抗衡,史無前例的百萬人的大戰——“長平之戰”也體現出兩國的國立之強盛,秦滅六國時趙國也是最難啃的骨頭。與之相對的韓國則從詞頻中亦看出其弱。
人物的出場在一開始的時候我本以爲“商鞅”會出現很多次,卻沒想到不僅前面沒有出現,而且取而代之的是“衛鞅”。
像李斯、呂不韋、贏政、趙高、蒙恬這樣的人物排在前面,也體現出在《大秦帝國》泱泱五百萬言中着重寫的是大秦的形成前後這一段時期。
戰國四大名將之首、武安君白起(殺敵皆以萬記)排在前列也是毫無疑問的。
亦是,大秦總少不了縱橫家兩兄弟蘇秦、張儀。
沒想到的是,戰國四大公子死的最早孟嘗君出場竟然遠超其他三位。
秦昭王即秦昭襄王 贏稷在位55年,是個人物。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章