Spacy:用什么数据集格式对 1000 个标签进行分类?

问题描述

我想用 spacy 对文本进行分类 我基于 spacy 的 texcat_demo 项目,基于它,json 应该是这样的

{"text": "Sorpresa: Ceferin comió con Piqué y Laporta","cats": {"AR": 0,"ES": 1,"PT": 0 } } 
{"text": "Puado,de calabazas al Madrid a una renovación prioritaria","PT": 0 } } 

但是应该如何将这个 json 看成多个类别?,像这样

 {"text": "Sorpresa: Ceferin comió con Piqué y Laporta","cats": {"content": "news","language": "spanish" } }
 {"text": "Puado,"cats": {"content": "soccer","language": "portuguese" } }

谢谢

解决方法

您在 spaCy 论坛上询问了 the same question,但我会继续在这里回答:无论您有多少标签,格式都是相同的。 (你有其他理由吗?我不认为我们说任何地方都有限制......)

还要注意 JSON 格式不是固定格式,重要的是在序列化之前创建 Doc 对象。有很多方法可以做到这一点,但 spaCy tutorial projects 中有一些示例。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...