未按数字顺序排序时如何获取网站链接

问题描述

使用beautifulsoup,可以很容易地提取遵循一定数字顺序的URL。但是,如何组织URL链接(如https://mongolia.mid.ru/en_US/novosti这样的URL链接,其中有类似

的文章)

https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p_p_lifecycle%3D0%26p_p_state%3Dnormal%26p_p_mode%3Dview%26p_p_col_id%3Dcolumn-1%26p_p_col_count%3D1

像这样的网站很奇怪,因为一旦您第一次打开链接,便有了» Бусад мэдээ 按钮来转到文章的下一页。但是,一旦您单击那里,现在您会看到PreviousNext按钮,它们是如此井井有条。

如何从类似(https://mongolia.mid.ru/en_US/novostihttps://mongolia.mid.ru/ru_RU/)的网站上获取所有新闻报道?

解决方法

似乎» Бусад мэдээ 中的https://mongolia.mid.ru/ru_RU/按钮只是重定向到https://mongolia.mid.ru/en_US/novosti。那么为什么不从后者开始呢?

要抓取所有新闻,只需使用Next按钮中的链接逐页浏览即可。 如果您希望它更具编程性,只需检查查询参数之间的差异,您会发现_101_INSTANCE_hfCjAfLBKGW0_cur设置为实际页面的编号(从1开始)。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...