GPT-2的“提示”中可以输入多少个字符

问题描述

我正在使用github中的OpenAI GPT-2模型

我认为top_k参数指示要采样的令牌数。这也是决定可以给出多大提示的参数吗？

如果top_k = 40，提示可以多大？

解决方法

GPT-2在字符级别上不起作用，但在子单词级别上起作用。训练的最大文本段长度为1,024个子词。

它使用基于byte-pair-encoding的词汇表。在这种编码下，频繁的单词保持完整，不频繁的单词被分成几个单元，最终下降到字节级别。实际上，分段看起来像这样（69个字符，17个子词）：

 <attribute name="Payload" encode="false" escapeForwardSlash="false" layout="${aspnet-request-posted-body:when=level==LogLevel.Trace or level==LogLevel.Error or level==LogLevel.Fatal}"/>

在训练时，提示和答案之间没有区别，因此唯一的限制是提示和答案的总数不能超过1,024个子词。从理论上讲，您可以继续生成更多内容，但是历史模型认为再也不会更长。

选择Hello,▁Stack Over flow ! ▁This ▁is ▁an ▁example ▁how _a ▁string ▁gets ▁segment ed .仅影响内存需求。长查询也需要更多内存，但这可能不是主要限制

gpt-2 nlp openai python