Tensorflow图像生成文本(2)词表词频的构建

前言

了解了Tensorflow图像生成文本实现(1)flickr30k数据集介绍数据集之后,需要对其中的token文件进行解析,对数据进行初步处理。

词表词频构建

因为是一句句的描述,因此需要进行分词,并统计出每个词的词频,将其对应的储存在一个文件中。这个文件的作用有两个:

  1. 在后序程序中,需要中该词表文件中读取内容,组成两个字典,一个是从文字到文字id的映射,另一个是从文字id到文字的映射。
  2. 通过词频,可以将词频过低的词直接去掉,这些词对模型的训练贡献率非常低,所以就排除掉。

代码如下

import os
import sys
import pprint

input_description_file = "./data/results_20130124.token"
output_vocab_file = "./data/vocab.txt"

def count_vocab(input_description_file):
    with open(input_description_file) as f:
        lines = f.readlines()
    max_length_of_sentences = 0 # 所有句子中 最长长度
    length_dict = {} # 统计 句子长度字典 {长度:句子总数}
    vocab_dict = {} # 词表字典 {词:词频}
    for line in lines:
        image_id, description = line.strip('\n').split('\t')
        words = description.strip(' ').split() # 分词
        # words 的 格式 ['Two', 'young', 'guys', 'with', 'shaggy', 'hair', ……]

        max_length_of_sentences = max(max_length_of_sentences, len(words)) # 选择一个最大值放入
        length_dict.setdefault(len(words), 0)
        length_dict[len(words)] += 1

        # 词表 统计
        for word in words:
            vocab_dict.setdefault(word, 0)
            vocab_dict[word] += 1

    print(max_length_of_sentences)
    pprint.pprint(length_dict)
    return vocab_dict

vocab_dict = count_vocab(input_description_file)
sorted_vocab_dict = sorted(vocab_dict.items(), key = lambda d:d[1], reverse=True) #对 词表进行排序

with open(output_vocab_file, 'w') as f:
    f.write('<UNK>\t1000000\n')
    for item in sorted_vocab_dict:
        f.write('%s\t%d\n' % item)

生成的词表格式如下:

<UNK>	1000000
a	181627
.	151039
A	90071
in	83224
the	57402
on	45538
and	44253
is	41108
man	40277
of	38773
with	36171
,	25285
woman	21236
are	20189
to	17603
Two	16446
at	16157
wearing	15694
people	14148
white	13039
shirt	12975
black	12084
young	12021
while	11650
his	11489
blue	11268
an	11119
red	9857
sitting	9608
...
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章