ML 分类：使用 tfidf-vectorizer 后如何继续？

问题描述

我从事一个关于使用 ML 分类算法进行恶意软件分析的项目。这是我已有的代码。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is a Malware File','This is also a Malware File','This file is benign','Another benign file here',]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus).todense()

pd.DataFrame(X,columns=vectorizer.get_feature_names())

你可以忽略语料库中的内容，这只是一个例子。我当前的代码从语料库中的所有内容中提取 n-gram（在本例中为 2-gram），并提供一个表格，其中包含所有文档（语料库中的内容）的所有 n-gram 的 tfidf 值。

现在我想使用分类算法作为 NB、SVM 或 DT 来做一些分类。我不知道我接下来要做什么。我知道我必须为语料库中的每个“文档”添加恶意软件或良性标签，并且我必须将我的数据分成训练和测试数据。如果有人能帮助我如何继续，我将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

classification machine-learning n-gram scikit-learn

ML 分类：使用 tfidf-vectorizer 后如何继续？

问题描述

解决方法

相关问答