从 HTML 中删除跟踪像素和类似内容

问题描述

我们的应用程序在很大程度上基于电子邮件(它是一个帮助台票务系统),我想保护我们的用户并阻止第 3 方跟踪收到的 HTML 消息(主要是跟踪像素)。

我们已经在进行 HTML/DOM 解析(以“清理”危险和不需要的标签),因此 HTML 解析并不是真正的技术挑战。挑战在于如何检测第 3 方跟踪器?我们可以使用哪些共同特征?

目前我想出了两种方法

  1. 使用一组规则,例如:
    • img 有外部 src
    • src 带有查询参数
    • 低维度(0 或 1)
  2. 只需使用现有的过滤器列表(例如,uBlock Origin 发布其列表 here)并删除所有指向危险目的地的标签

我还缺少其他任何想法吗?很想听听之前处理过这个问题的人的一些意见。

解决方法

我认为这就是您能做的所有事情,尽管阻止所有外部资源会更安全 - 图像大小和跟踪之间没有明确的联系,尽管这是一种常见模式。

有已知跟踪器 here 广告 here 的列表。 Hey.com 可能还有一些资源来帮助阻止跟踪器。