Heroku部署在某些站点上打破了开放uri

问题描述

我正在尝试从网站(我的Rateyourmusic页面)中抓取数据,并且我已经建立了一个使用Nokogiri的Ruby on Rails API,这意味着我正在使用open-uri。但是,尽管它在localhost上运行良好,但是在部署它时会中断。来自我的控制器的相关代码如下:

class RymsController < ApplicationController
  def index
    myname = params[:rym_user]
    rym_data = URI::open('https://rateyourmusic.com/~mgintz').read
    # I've commented some stuff out here,which intends to actually do the scraping
    a = "3"
    rym = Rym.create(review:a)
    render json: rym
  end
end

现在我让它返回数字3,以便可以看到一切都在运行。如果我用https://google.com替换提到的站点,那么它将按预期返回3,但是当我输入此站点时,它会显示错误(503),因此我知道此问题是特定于网站的。

看起来我没有破坏robots.txt,并且服务器上的负载很小(它所做的只是打开页面一次并用Nokogiri获取HTML)。正如您所看到的,目前这就是它的全部功能

您知道我需要在这里做什么吗?任何帮助表示赞赏。

这是您想找找的仓库,相关文件是controllers文件夹中的ryms-controller:https://github.com/flyingpurplepeopleeater/website

编辑:我想说的是,我不确定要负责任地抓取网站的正确协议是什么,因此也应向您提供任何帮助。我认为,由于部署的版本甚至无法使用一次,因此我不可能被禁止使用。也许我必须为此指定一些东西,但是出于某种原因,它们仅需要从Heroku中指定它?但是负责任地这样做似乎是一个不错的工具:)

编辑2:我要求获得明确许可,因为他们的网站上说您应该这样做,但是我仍然对为什么该工具在本地而不是在Heroku上能正常工作感到困惑!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...