什么是自然语言处理中用作词汇文件的 *.subwords 文件？

问题描述

我一直在尝试在 nlp 任务中创建一个 vocab 文件，以在 trax 的 tokenize 方法中使用来标记单词，但我找不到哪个模块/用于创建 *.subwords 文件的库。请帮帮我？

解决方法

您可以使用 tensorflow API SubwordTextEncoder

使用以下代码片段 -

encoder = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    (text_row for text_row in text_dataset),target_vocab_size=2**15)
encoder.save_to_file(vocab_fname)

Tensorflow 会将 .subwords 扩展名附加到上面的 vocab 文件中。

data-science nlp tokenize trax vocabulary