我们可以保存一个分词器以预处理savemodel中的原始文本吗?

问题描述

我目前面临一个有关SavedModel格式的输入的预处理的问题。 我正在使用使用子字/ BPE编码器的Transformers模型。我可以将模型保存为saveModel格式,但是我也不知道如何将预处理部分(令牌生成器)添加到saveModel中。 例如,“定制”令牌生成器(例如hugginface)或tensorflow令牌生成https://www.tensorflow.org/datasets/api_docs/python/tfds/features/text/SubwordTextEncoder。 我还没有找到有关SavedModel以及NLP预处理的任何文档。在TF 2中有可能吗?

解决方法

您无法将其保存到模型中。您必须每次都进行预处理。单词编码器也由HugginFace给出。您可以训练自己的单词编码器并将其单独保存或创建联合模型,然后保存该模型的所有参数。