如何查找仅包含标题的商品属于哪个类别?

问题描述

| 我正在开发一项新服务,该服务将查询多个商品(Groupon等..),我想破译该商品属于哪个类别。 例: 我会得到以下标题:\“ Acqualina Wellness Expo – Acqualina Resort&Spa \”,我需要找出属于此优惠的类别。 我尝试使用http://www.google.com/insights/search/进行操作,但这并不容易,因为它仅接收7个参数(术语),并且有时我们有无法分开的复合词。     

解决方法

有一些基于Wordnet和搜索距离的有趣方法,但是标准方法是贝叶斯垃圾邮件过滤器方法。 步骤1:构建示例标题集(或标题和正文)以及您认为其所属的类别的示例。越大越多样化,则使此设置越好。您需要从想要识别的每个类别中获得许多(至少是两位数,但最好是数百个)不同的示例。如果您需要帮助来构建此集合,则可以使用Amazon的Mechanical Turk,并请其他人进行分类。 步骤2:通过CRM114(http://crm114.sourceforge.net/)或类似的方法运行所有示例。如果您想使用云服务,我认为Google Prediction API允许使用文本字段。 步骤3:进行测试时,不要让分类程序查看所有示例。将其中一些保存在所谓的“样本外集”中,以测试分类器。对其已经看到的内容进行分类要容易得多,因此您要确保您知道它在看不见的示例中有多好。一些分类程序将自动为您执行此测试。 祝好运!