问题描述
我正在将Huggingface BERT用于NLP任务。我的文字中包含公司的名称,这些公司被细分为子词。
tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
tokenizer.encode_plus("Somespecialcompany")
output: {'input_ids': [101,2070,13102,8586,4818,9006,9739,2100,102],'token_type_ids': [0,0],'attention_mask': [1,1,1]}
现在,我想将这些名称添加到令牌生成器ID中,以使它们不会拆分。
tokenizer.add_tokens("Somespecialcompany")
output: 1
这会将令牌生成器的长度从30522扩展到30523。
因此,所需的输出将是新的ID:
tokenizer.encode_plus("Somespecialcompany")
output: 30522
但是输出与之前相同:
output: {'input_ids': [101,1]}
我的问题是;将新令牌添加到令牌生成器的正确方法是什么,以便我可以将它们与tokenizer.encode_plus()和tokenizer.batch_encode_plus()一起使用?
解决方法
我在github上打开了一个错误报告。显然,我只需要将“ special_tokens”参数设置为“ True”。
tokenizer.add_tokens(["somecompanyname"],special_tokens=True)
output: 30522