asp.net – 查找和删除孤立的网页,图像和其他相关文件

我正在处理许多可追溯到2000年的文件的网站.这些网站随着时间的推移有机会增长,导致大量孤立的网页,包括文件,图像,CSS文件,JavaScript 文件等…这些孤立的文件导致一些问题,包括可维护性差,可能的安全漏洞,客户体验差,以及驾驶OCD / GTD的怪胎像我疯狂.

这些文件的数量是数千,所以一个完全手动的解决方案是不可行的.最终,清理过程将需要相当大的质量检查工作,以确保我们不会无意中删除所需的文件,但我希望开发技术解决方案来帮助加快手动工作.此外,我希望将流程/公用事业部署到位,以防止未来这种混乱状况的发生.

环境考量：

>经典ASP和.NET
>运行IIS 6和IIS 7的Windows服务器
>多种环境(Dev,Integration,QA,Stage,Prodction)
>用于源控制的TFS

在开始之前,我想从其他成功浏览类似流程的人获得一些反馈.

具体我在找：

>识别和清理孤立文件的过程
>保护环境免受孤立文件干扰的过程
>帮助识别孤立文件的实用程序
>帮助识别破损链接的实用程序(一旦文件被删除)

我不是在寻找：

>我的组织OCD的解决方案…我喜欢我是如何
> Snide评论我们仍然使用经典的ASP.我已经感受到了痛苦.没有必要擦它.

解决方法

步骤1：建立您网站上绝对可见的网页列表.创建此列表的一种智能方法是解析您访问的页面的日志文件.

步骤2：运行一个递归发现站点拓扑的工具,从在第1步中具有每个页面的链接的特殊书面页面(您将在站点上创建的页面)开始.可以执行此操作的工具是Xenu’s Link Sleuth.它的目的是找到死链接,但它也将列出实时链接.这可以在外部运行,因此在您的服务器上安装“奇怪”软件没有安全问题.您需要偶尔观看,因为您的网站可能会有无限的页面,如果你有bug或其他的东西.

步骤3：运行一个从您的站点web目录开始递归地映射硬盘的工具.我不能想到任何这些都在我的头顶,但写一个应该是微不足道的,更安全,因为这将在您的服务器上运行.

步骤4：将步骤2和3的结果以#3编程方式与#3进行编程. #3中没有#2中的任何内容都可能是孤儿页面.

注意：这种技术对密码保护的东西工作不好,而且对于严重依赖于动态生成的链接的站点也很不好(如果链接一致,动态内容是正确的).

asp.net – 查找和删除孤立的网页,图像和其他相关文件

解决方法

相关文章