问题描述
我从事一个关于使用 ML 分类算法进行恶意软件分析的项目。这是我已有的代码。
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'This is a Malware File','This is also a Malware File','This file is benign','Another benign file here',]
vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus).todense()
pd.DataFrame(X,columns=vectorizer.get_feature_names())
你可以忽略语料库中的内容,这只是一个例子。我当前的代码从语料库中的所有内容中提取 n-gram(在本例中为 2-gram),并提供一个表格,其中包含所有文档(语料库中的内容)的所有 n-gram 的 tfidf 值。
现在我想使用分类算法作为 NB、SVM 或 DT 来做一些分类。我不知道我接下来要做什么。我知道我必须为语料库中的每个“文档”添加恶意软件或良性标签,并且我必须将我的数据分成训练和测试数据。如果有人能帮助我如何继续,我将不胜感激。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)