搜寻器可以在此服务器配置上工作吗？

问题描述

| 我正在将一个小型爬虫作为一项爱好项目。我要做的就是爬上一百万页并将它们存储在数据库中。（是的，它会不时地进行更新，但是在任何特定时间的条目将仅为一百万）。我想用PHP / MysqL编写代码。我不需要任何搜索功能，因为我没有服务器资源来提供该功能。我想要的是，我应该能够自己对数据库运行几个SQL查询。在数据库中，我将不会存储任何Page文本（我希望将其存储在单独的txt文件中-我不知道这是否可行）。仅标题，链接和其他一些信息将被存储。因此，基本上，如果我运行查询并给出一些结果，则可以从这些文件中提取文本数据。想知道这种设计在以下环境中是否可行。我将从Linode（512 MB RAM）购买一个VPS（我不能购买专用服务器，共享主机也不允许我这样做）。我的问题：能否在需要时以批处理模式运行查询来维持这个大数据库（100万行）。任何建议都欢迎。任何其他托管选项也将不胜感激。

解决方法

从头开始编写Web搜寻器是一项艰巨的任务，至少在您希望搜寻数百万个页面的情况下。我从Heritrix Web搜寻器的个人经验中知道这一点。阅读Heritrix开发人员指南中的“搜寻器概述”一章，您可能会受益。该章涵盖了高级设计，应该可以帮助您了解搜寻器的基本组件。只需将其归结为“抓取状态”和“处理”即可。爬网状态是您看到的URL，已爬网的URL等。处理包括提取URL和后续处理以提取链接，保存下载的数据等。多个处理线程通常并行运行。 ,您也可以尝试Scrapy。它速度很快，并且可以在Linode 512M服务器上正常工作，但是它是用Python编写的。

在此工作工作工作服务器服务器服务器配置配置