作者:高鵬
小說中,人名後經常跟着一個動詞或者介詞,根據這一點可以找出常見的人名。下面用一個小shell腳本來玩一下^.^ 腳本如下:
- #!/bin/sh
- # name:filter_name.sh
- # JH Gao <[email protected]>
- # function:從小說中過濾出經常出現的人名
- # 主要步驟如下:
- # 編碼轉換
- # 把動詞替換爲換行,於是每行的前幾個字很可能就是人名,再把空行去除
- # 取得每行的前3個字
- # 過濾掉一些一般不是名字但又經常出現的字
- # 過濾掉一個字的行
- # 排序,統計,取前100個
- iconv -f GB18030 -t utf-8 $1 \
- | sed 's/[、,“”聽笑說道想答。!:?]/\n/g' | sed 's/[[:space:]]*//g' | sed '/^$/d' \
- | cut -nb 1-9 \
- | grep -v -e '^$' -e [:\<\>父今哈咱\"還似轉整間沒他她它在地低衆到卻急這就怎最嗷但那是什麼都拿曰喫二其每另否兩麼不了你啊只着突我吧各此又雖便即第嘿忽的忙] -e '其實' -e 'http' -e '……' -e '原來' -e '自己' -e '心想' -e '終於' -e '當然' -e '微笑' -e '淡淡' -e '們' -e '然後' -e '所以' -e '可以' \
- | sed '/^.\{1\}$/d' \
- | sort | uniq -c | sort -k 1 -n -r | head -n 100
執行結果如下:
- $ ./filter_name.sh 天龍八部.txt
- 596 段譽
- 564 慕容復
- 532 木婉清
- 528 王語嫣
- 461 段正淳
- 358 鳩摩智
- 351 遊坦之
- 323 南海鱷
- 297 阿紫
- 293 虛竹
- 265 阿朱
- 257 保定帝
- 249 蕭峯
- 232 丁春秋
- 211 烏老大
- 203 馬伕人
- 174 王夫人
- 160 段延慶
- 159 段公子
- 156 巴天石
- 143 朱丹臣
- 140 鍾萬仇
- 139 段譽心
- 137 喬峯
- 136 耶律洪
- 123 風波惡
- 119 尋思
- 113 雲中鶴
- 108 鄧百川
- 106 蘇星河
- 105 鍾夫人
- 103 王姑娘
- 101 少林寺
- 91 公冶乾
- 90 左子穆
- 90 全冠清
- 89 段譽見
- 89 李秋水
- 89 徐長老
- 87 童姥
- 86 慕容公
- 84 白世鏡
- 84 段譽一
- 83 非也
- 83 趙錢孫
- 83 薛神醫
- 81 黃眉僧
- 81 蕭峯心
- 78 星宿派
- 78 崔百泉
- 77 司空玄
- 73 青袍客
- 73 大哥
- 72 很好
- 72 大夥兒
- 71 秦紅棉
- 71 姊夫
- 71 妙極
- 70 喬幫主
- 69 鎮南王
- 68 大聲
- 67 阮星竹
- 67 薛慕華
- 67 蕭遠山
- 67 段譽大
- 67 星宿老
- 66 鍾靈
- 66 司馬林
- 62 阿碧
- 61 慕容博
- 60 虛竹心
- 55 段郎
- 54 霎時之
- 54 心中一
- 53 蕭峯一
- 53 包三先
- 53 刀白鳳
- 52 陳長老
- 52 諸保昆
- 51 玉虛散
- 51 江湖上
- 51 姑娘
- 50 摘星子
- 50 康廣陵
- 50 姚伯當
- 49 飛庫論
- 49 飛庫制
- 49 顫聲
- 49 」阿朱
- 49 電腦訪
- 49 手機訪
- 48 木姑娘
- 47 褚萬里
- 47 虛竹一
- 47 少林派
- 46 高升泰
- 45 蕭峯見
- 45 大理段
- 44 華赫艮
- 43 站起身