问题描述
因此,虽然我是一名中级 ML 工程师,但我的 NLP 技能并不是那么好。这是我的问题
给定数据:
文件路径 |
---|
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK |
C:\Users\admin\AppData\Local\VirtualStore\Program Files\Microsoft Office\root\Licenses16\AccessR... |
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.officemui.msi.16.pt-br.xml.RYK |
................................ |
C:\Program Files\Microsoft Office\root\Licenses16\Access2019R_Retail-ul-oob.xrm-ms.RYK |
C:\Users\admin\AppData\Local\Packages\windows.immersivecontrolpanel_cw5n1h2txyewy\LocalState\Ind... |
总行数:363980
文件路径是从一个沙箱中生成的,在沙箱中引爆了勒索软件二进制文件。我正在尝试创建一个语言模型/GAN,它可以在这个文件路径语料库上进行训练,然后自己生成类似的文件路径。
我获得的大多数语言模型和文本生成教程都来自 .txt 文件,其中诗歌/小说作为输入传递给 LSTM 或转换器。
除了模型方面的帮助外,我还需要一些关于如何预处理这些数据的指导。
目前我的想法是将路径从'\'分割出来并用空格连接,这样目录就可以成为句子中的单词。
例如: 输入路径:
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
输出路径:
C: Program Files Microsoft Office root Integration C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
这是正确的方向吗?还有其他建议吗? (更喜欢在 tensorflow 中实现,但如果它真的有用,也可以向 pytorch 开放)
此外,是否可以使用 GAN 以同时学习文件路径序列的方式生成文本?由于勒索软件具有执行签名,并且会以某种已知的顺序运行命令,因此是否有一种模型也可以捕获该维度的数据。 (在更大的数据集中,我还有进程 ID、时间戳和其他标识符来确定哪组事件属于哪个二进制执行)
附注。我知道这个问题的前提可能有点奇怪和令人困惑,但这是我正在测试的东西,只是为了看看会发生什么。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)