ML 分类:使用 tfidf-vectorizer 后如何继续?

问题描述

我从事一个关于使用 ML 分类算法进行恶意软件分析的项目。这是我已有的代码

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is a Malware File','This is also a Malware File','This file is benign','Another benign file here',]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus).todense()

pd.DataFrame(X,columns=vectorizer.get_feature_names())

你可以忽略语料库中的内容,这只是一个例子。我当前的代码从语料库中的所有内容提取 n-gram(在本例中为 2-gram),并提供一个表格,其中包含所有文档(语料库中的内容)的所有 n-gram 的 tfidf 值。

现在我想使用分类算法作为 NB、SVM 或 DT 来做一些分类。我不知道我接下来要做什么。我知道我必须为语料库中的每个“文档”添加恶意软件或良性标签,并且我必须将我的数据分成训练和测试数据。如果有人能帮助我如何继续,我将不胜感激。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...