从数据生成文件路径的语言模型或 GAN

问题描述

因此,虽然我是一名中级 ML 工程师,但我的 NLP 技能并不是那么好。这是我的问题

给定数据:

文件路径
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK
C:\Users\admin\AppData\Local\VirtualStore\Program Files\Microsoft Office\root\Licenses16\AccessR...
C:\Program Files\Microsoft Office\root\Integration\C2RManifest.officemui.msi.16.pt-br.xml.RYK
................................
C:\Program Files\Microsoft Office\root\Licenses16\Access2019R_Retail-ul-oob.xrm-ms.RYK
C:\Users\admin\AppData\Local\Packages\windows.immersivecontrolpanel_cw5n1h2txyewy\LocalState\Ind...

总行数:363980

文件路径是从一个沙箱中生成的,在沙箱中引爆了勒索软件二进制文件。我正在尝试创建一个语言模型/GAN,它可以在这文件路径语料库上进行训练,然后自己生成类似的文件路径。

我获得的大多数语言模型和文本生成教程都来自 .txt 文件,其中诗歌/小说作为输入传递给 LSTM 或转换器。

除了模型方面的帮助外,我还需要一些关于如何预处理这些数据的指导。

目前我的想法是将路径从'\'分割出来并用空格连接,这样目录就可以成为句子中的单词。

例如: 输入路径:

C:\Program Files\Microsoft Office\root\Integration\C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK

输出路径:

C: Program Files Microsoft Office root Integration C2RManifest.powerpointmui.msi.16.tr-tr.xml.RYK

这是正确的方向吗?还有其他建议吗? (更喜欢在 tensorflow 中实现,但如果它真的有用,也可以向 pytorch 开放)

此外,是否可以使用 GAN 以同时学习文件路径序列的方式生成文本?由于勒索软件具有执行签名,并且会以某种已知的顺序运行命令,因此是否有一种模型也可以捕获该维度的数据。 (在更大的数据集中,我还有进程 ID、时间戳和其他标识符来确定哪组事件属于哪个二进制执行)

附注。我知道这个问题的前提可能有点奇怪和令人困惑,但这是我正在测试的东西,只是为了看看会发生什么。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)