问题描述
我一直在尝试在 nlp 任务中创建一个 vocab 文件,以在 trax 的 tokenize 方法中使用来标记单词,但我找不到哪个模块/用于创建 *.subwords 文件的库。请帮帮我?
解决方法
您可以使用 tensorflow API SubwordTextEncoder
使用以下代码片段 -
encoder = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
(text_row for text_row in text_dataset),target_vocab_size=2**15)
encoder.save_to_file(vocab_fname)
Tensorflow 会将 .subwords 扩展名附加到上面的 vocab 文件中。