使用预训练的拥抱面变压器进行翻译不起作用

问题描述

我有一种情况,我试图使用预先训练的拥抱脸模型将熊猫文本列从荷兰语翻译成英语。我的输入很简单:

Cmd5

我正在使用下面的代码来翻译上面的列,并且我想将我的结果存储到一个新的列 ENG_Text 中。所以输出将如下所示:

\n

我使用的代码如下:

Cmd8

任何帮助将不胜感激!

解决方法

这不是 MT 模型的使用方式。测试模型是否可以理解指令不是一个类似于 GPT 的实验。它是一个只能翻译的翻译模型,不需要添加指令"translate English to Dutch"。 (你不想反过来翻译吗?)

此外,翻译模型经过训练可以逐句翻译。如果您连接列中的所有句子,它将被视为一个句子。您需要:

  1. 遍历列并独立翻译每个句子。

  2. 将列拆分为批次,以便您可以并行化翻译。请注意,在这种情况下,您需要填充批次中的句子以具有相同的长度。最简单的方法是使用分词器的 batch_encode_plus 方法。