搜寻器可以在此服务器配置上工作吗?

问题描述

| 我正在将一个小型爬虫作为一项爱好项目。我要做的就是爬上一百万页并将它们存储在数据库中。 (是的,它会不时地进行更新,但是在任何特定时间的条目将仅为一百万)。 我想用PHP / MysqL编写代码。我不需要任何搜索功能,因为我没有服务器资源来提供该功能。我想要的是,我应该能够自己对数据库运行几个SQL查询。 在数据库中,我将不会存储任何Page文本(我希望将其存储在单独的txt文件中-我不知道这是否可行)。仅标题链接和其他一些信息将被存储。因此,基本上,如果我运行查询并给出一些结果,则可以从这些文件提取文本数据。 想知道这种设计在以下环境中是否可行。 我将从Linode(512 MB RAM)购买一个VPS(我不能购买专用服务器,共享主机也不允许我这样做)。 我的问题:能否在需要时以批处理模式运行查询来维持这个大数据库(100万行)。 任何建议都欢迎。任何其他托管选项也将不胜感激。     

解决方法

从头开始编写Web搜寻器是一项艰巨的任务,至少在您希望搜寻数百万个页面的情况下。我从Heritrix Web搜寻器的个人经验中知道这一点。 阅读Heritrix开发人员指南中的“搜寻器概述”一章,您可能会受益。该章涵盖了高级设计,应该可以帮助您了解搜寻器的基本组件。 只需将其归结为“抓取状态”和“处理”即可。爬网状态是您看到的URL,已爬网的URL等。处理包括提取URL和后续处理以提取链接,保存下载的数据等。多个处理线程通常并行运行。     ,您也可以尝试Scrapy。它速度很快,并且可以在Linode 512M服务器上正常工作,但是它是用Python编写的。