是否有任何机器学习模型都适合此数据集和所需的输出?

问题描述

我的数据集包含来自各个网站的视频游戏标题,格式不同。这是我的示例:

"The Legend Of Zelda: Wind Waker,Nintendo"
"The Legend Of Zelda: The Wind Waker"
"The Legend Of Zelda: Wind Waker,Nintendo"
"The Legend Of Zelda: Wind Waker,Nintendo"
"Zelda: Wind Waker Hd Nintendo Wii U Game"
"The Legend Of Zelda: The Wind Waker"
"Legend Of Zelda: The Wind Waker Hd (nintendo Wii"
"The Legend Of Zelda: Wind Waker Of Game (nintendo"
"The Legend Of Zelda: The Wind Waker Nintendo Wii"
"Nintendo Wii U Game Zelda: Wind Waker Hd"
"The Legend Of Zelda: The Wind Waker Hd Wii U"
"The Legend Of Zelda: Wind Waker,Nintendo Pinterest"
"Zelda: Hd (nintendo Wii The"
"The Legend Of Zelda: The Wind Waker Hd Wii U Pinterest"
"The Legend Of Zelda: The Wind Waker Hd"
"Legend Of Zelda: Wind Waker Hd (nintendo Wii"
"The Legend Of Zelda: The Wind Waker Hd"
"The Legend Of Zelda: Wind Waker,Nintendo Wii U"
"The Legend Of Zelda Wind Hd"
"Zelda Wind Waker Hd"
"The Legend Of Zelda: Wind Waker,Nintendo Pinterest"
"The Legend Of Zelda Wind Waker Wii U Nintendo"
"Wii U The Legend Of Zelda: The Wind Waker Hd"
"Zelda: Wind Waker Hd"
"The Legend Of Zelda: The Wind Waker Hd Game Wii"
"The Legend Of Zelda: The Wind Waker Hd Nintendo Wii U"
"Zelda: Wind Waker Hd"
"The Legend Of Zelda The Wind Waker Hd Wii U"

此数据的正确输出为:

The Legend Of Zelda: The Wind Waker HD-标题

Wii U-平台

Nintendo-发布者

我可以为这些数据集提供100个模型,然后以我期望的结果作为正确的输出,然后希望该模型为未来的标题数据集“学习”期望的输出

机器学习可以做到这一点吗?我应该使用什么型号?我之前从未对ML做过任何事情,因此不确定这是否是一个好用例。

解决方法

正如我在您的问题中看到的那样,标题,平台和发布者(输出)是从原始数据(输入)中提取的,因此您可以使用类似于命名实体识别的方法,您应该查看文献以找出答案。还有更多,但这是您最应该去的方向。