问题描述
我的数据集包含来自各个网站的视频游戏标题,格式不同。这是我的示例:
"The Legend Of Zelda: Wind Waker,Nintendo"
"The Legend Of Zelda: The Wind Waker"
"The Legend Of Zelda: Wind Waker,Nintendo"
"The Legend Of Zelda: Wind Waker,Nintendo"
"Zelda: Wind Waker Hd Nintendo Wii U Game"
"The Legend Of Zelda: The Wind Waker"
"Legend Of Zelda: The Wind Waker Hd (nintendo Wii"
"The Legend Of Zelda: Wind Waker Of Game (nintendo"
"The Legend Of Zelda: The Wind Waker Nintendo Wii"
"Nintendo Wii U Game Zelda: Wind Waker Hd"
"The Legend Of Zelda: The Wind Waker Hd Wii U"
"The Legend Of Zelda: Wind Waker,Nintendo Pinterest"
"Zelda: Hd (nintendo Wii The"
"The Legend Of Zelda: The Wind Waker Hd Wii U Pinterest"
"The Legend Of Zelda: The Wind Waker Hd"
"Legend Of Zelda: Wind Waker Hd (nintendo Wii"
"The Legend Of Zelda: The Wind Waker Hd"
"The Legend Of Zelda: Wind Waker,Nintendo Wii U"
"The Legend Of Zelda Wind Hd"
"Zelda Wind Waker Hd"
"The Legend Of Zelda: Wind Waker,Nintendo Pinterest"
"The Legend Of Zelda Wind Waker Wii U Nintendo"
"Wii U The Legend Of Zelda: The Wind Waker Hd"
"Zelda: Wind Waker Hd"
"The Legend Of Zelda: The Wind Waker Hd Game Wii"
"The Legend Of Zelda: The Wind Waker Hd Nintendo Wii U"
"Zelda: Wind Waker Hd"
"The Legend Of Zelda The Wind Waker Hd Wii U"
此数据的正确输出为:
The Legend Of Zelda: The Wind Waker HD
-标题
Wii U
-平台
Nintendo
-发布者
我可以为这些数据集提供100个模型,然后以我期望的结果作为正确的输出,然后希望该模型为未来的标题数据集“学习”期望的输出。
机器学习可以做到这一点吗?我应该使用什么型号?我之前从未对ML做过任何事情,因此不确定这是否是一个好用例。
解决方法
正如我在您的问题中看到的那样,标题,平台和发布者(输出)是从原始数据(输入)中提取的,因此您可以使用类似于命名实体识别的方法,您应该查看文献以找出答案。还有更多,但这是您最应该去的方向。