问题描述
我在总结具有较大vocab尺寸的长文章时遇到了问题。 许多模型都有最大输入大小的限制。 因此,它不是接受并尝试执行索引超出范围错误的结果。 我特别使用“ BART-large-xsum”。请提出在长文档中使用这些模型的正确方法是什么,我可以进行微调以增加声音或其他操作。
一个带有如何使用“ BART-large-xsum”处理长文档的示例的代码片段将是完美的开始!
预先感谢, Teja
我的代码:
Article_text = "Article of more than 10000 characters"
from transformers import AutoModelWithLMHead,AutoTokenizer
model = AutoModelWithLMHead.from_pretrained("bart-large-xsum")
tokenizer = AutoTokenizer.from_pretrained("bart-large-xsum")
inputs = tokenizer.encode("summarize: " + Article_text,return_tensors="pt",max_length=100000)
outputs = model.generate(inputs,max_length=350,min_length=40,use_first = False)
print(tokenizer.decode(outputs[0],skip_special_tokens=True,clean_up_tokenization_spaces=False))
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)