点击流数据的实时数据预处理

问题描述

我正在开展一个项目,以实时检测网络用户活动中的异常情况。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统(IDS)。我正在使用 python 3.6,我有以下查询

  1. 考虑到数据集中的所有属性都是分类值,哪种方法是进行数据预处理的最佳方法
  2. 可以应用热编码或标签编码等编码方法,但必须实时处理数据,因此难以应用
  3. 根据项目要求,将 3 列(点击 URL、点击文本和键入的信息)视为特征列。

我对如何进行数据预处理感到非常困惑。任何见解或建议将不胜感激

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)