未按数字顺序排序时如何获取网站链接

问题描述

使用beautifulsoup，可以很容易地提取遵循一定数字顺序的URL。但是，如何组织URL链接（如https://mongolia.mid.ru/en_US/novosti这样的URL链接，其中有类似

的文章）

https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p_p_lifecycle%3D0%26p_p_state%3Dnormal%26p_p_mode%3Dview%26p_p_col_id%3Dcolumn-1%26p_p_col_count%3D1？

像这样的网站很奇怪，因为一旦您第一次打开链接，便有了» Бусад мэдээ 按钮来转到文章的下一页。但是，一旦您单击那里，现在您会看到Previous或Next按钮，它们是如此井井有条。

如何从类似（https://mongolia.mid.ru/en_US/novosti或https://mongolia.mid.ru/ru_RU/）的网站上获取所有新闻报道？

解决方法

似乎» Бусад мэдээ 中的https://mongolia.mid.ru/ru_RU/按钮只是重定向到https://mongolia.mid.ru/en_US/novosti。那么为什么不从后者开始呢？

要抓取所有新闻，只需使用Next按钮中的链接逐页浏览即可。如果您希望它更具编程性，只需检查查询参数之间的差异，您会发现_101_INSTANCE_hfCjAfLBKGW0_cur设置为实际页面的编号（从1开始）。

beautifulsoup python-3.x scrapy

未按数字顺序排序时如何获取网站链接

问题描述

解决方法

相关问答