问题描述
我正在抓取一些 url,当将 html 页面保存为 pdf 文件时,它们中的大多数在 pdfkit 上都可以正常工作。
但是有一些 html 文件会无限期地停止,直到我的 linux 实例基本上崩溃:/
html 文件在我打开时看起来不错,但可能是由于 pdfkit 遇到的 css/js 文件路径问题?
import pdfkit
url = "www.bgov.com_0_core_0_news_articles_0_QKTJDKT0G1L1"
filename = url[url.index("www."):].replace("/","_0_")
try:
pdfkit.from_file(filename + '.html',filename + '.pdf') #stalls on this line
except:
pass
html 文件:https://gofile.io/d/2sf5SU (如果有更好的文件共享网站,请告诉我)
pdfkit 上的开发好像已经基本结束了,但是有没有什么办法可以避免这个问题呢?如果没有,我可能不得不考虑使用类似 signal.alarm() 之类的东西来尝试跳过它们,如果它花费的时间太长?
Skip loop if a function is taking too long?
谢谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)