问题描述
我正在尝试从网站(我的Rateyourmusic页面)中抓取数据,并且我已经建立了一个使用Nokogiri的Ruby on Rails API,这意味着我正在使用open-uri。但是,尽管它在localhost上运行良好,但是在部署它时会中断。来自我的控制器的相关代码如下:
class RymsController < ApplicationController
def index
myname = params[:rym_user]
rym_data = URI::open('https://rateyourmusic.com/~mgintz').read
# I've commented some stuff out here,which intends to actually do the scraping
a = "3"
rym = Rym.create(review:a)
render json: rym
end
end
现在我让它返回数字3,以便可以看到一切都在运行。如果我用https://google.com替换提到的站点,那么它将按预期返回3,但是当我输入此站点时,它会显示错误(503),因此我知道此问题是特定于网站的。
看起来我没有破坏robots.txt,并且服务器上的负载很小(它所做的只是打开页面一次并用Nokogiri获取HTML)。正如您所看到的,目前这就是它的全部功能。
您知道我需要在这里做什么吗?任何帮助表示赞赏。
这是您想找找的仓库,相关文件是controllers文件夹中的ryms-controller:https://github.com/flyingpurplepeopleeater/website
编辑:我想说的是,我不确定要负责任地抓取网站的正确协议是什么,因此也应向您提供任何帮助。我认为,由于部署的版本甚至无法使用一次,因此我不可能被禁止使用。也许我必须为此指定一些东西,但是出于某种原因,它们仅需要从Heroku中指定它?但是负责任地这样做似乎是一个不错的工具:)
编辑2:我要求获得明确许可,因为他们的网站上说您应该这样做,但是我仍然对为什么该工具在本地而不是在Heroku上能正常工作感到困惑!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)