使用torchtext准备用于预测的字符串

问题描述

关于如何使用torchtext训练模型有很好的说明。
但是如何准备生产呢?
如何创建PREDICT管道?

因为eval函数很简单-我已经准备好一切。
如何以相同的方式准备一些新数据?

例如,以下是一些标准的培训过程:
tokenize =>填充=> split =>迭代器

server.js

如何为模型进行预测以准备简单的字符串列表?

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Model parameter
MAX_SEQ_LEN = 32
PAD_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.pad_token)
UNK_INDEX = tokenizer.convert_tokens_to_ids(tokenizer.unk_token)

# Fields
id_field = Field(sequential=False,use_vocab=False,batch_first=True,dtype=torch.float)
label_field = Field(sequential=False,dtype=torch.float)
text_field = Field(use_vocab=False,tokenize=tokenizer.encode,lower=False,include_lengths=False,fix_length=MAX_SEQ_LEN,pad_token=PAD_INDEX,unk_token=UNK_INDEX)
fields = [('id',id_field),('message',text_field),('label',label_field),]

# TabularDataset
train,valid,test = TabularDataset.splits(path=data_dir,train='train.csv',validation='valid.csv',test='test.csv',format='CSV',fields=fields,skip_header=True)

# Iterators
train_iter = BucketIterator(train,batch_size=16,sort_key=lambda x: len(x.message),device=device,train=True,sort=True,sort_within_batch=True)
valid_iter = BucketIterator(valid,sort_within_batch=True)
test_iter = Iterator(test,train=False,shuffle=False,sort=False)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)