问题描述
我有一个10万行的语料库,平均每行20个句子,存储在pandas列中。分别为每一行嵌入tensorflow通用语句的最快方法是什么?
请注意:即使在30 GB的计算机中,加载整个语料库也将使其永久乃至内存约束错误。使其成为大块仍将使其置于for循环中,这很耗时。
在python-tensorflow-tensorflowserve组合中可行的任何基于内存的快速操作,是否类似于斯坦福NLP后端服务器与后端或h2o ML库相比在后端作为Java服务器运行时如何大幅减少POS标记过程?>
解决方法
这篇关于将 Pandas 与 tf.data 结合使用的 tutorial 可能很有用。