问题描述
使用beautifulsoup,可以很容易地提取遵循一定数字顺序的URL。但是,如何组织URL链接(如https://mongolia.mid.ru/en_US/novosti
这样的URL链接,其中有类似
https://mongolia.mid.ru/en_US/novosti/-/asset_publisher/hfCjAfLBKGW0/content/24-avgusta-sostoalas-vstreca-crezvycajnogo-i-polnomocnogo-posla-rossijskoj-federacii-v-mongolii-i-k-azizova-s-ministrom-energetiki-mongolii-n-tavinbeh?inheritRedirect=false&redirect=https%3A%2F%2Fmongolia.mid.ru%3A443%2Fen_US%2Fnovosti%3Fp_p_id%3D101_INSTANCE_hfCjAfLBKGW0%26p_p_lifecycle%3D0%26p_p_state%3Dnormal%26p_p_mode%3Dview%26p_p_col_id%3Dcolumn-1%26p_p_col_count%3D1
?
像这样的网站很奇怪,因为一旦您第一次打开链接,便有了» Бусад мэдээ
按钮来转到文章的下一页。但是,一旦您单击那里,现在您会看到Previous
或Next
按钮,它们是如此井井有条。
如何从类似(https://mongolia.mid.ru/en_US/novosti
或https://mongolia.mid.ru/ru_RU/
)的网站上获取所有新闻报道?
解决方法
似乎» Бусад мэдээ
中的https://mongolia.mid.ru/ru_RU/
按钮只是重定向到https://mongolia.mid.ru/en_US/novosti
。那么为什么不从后者开始呢?
要抓取所有新闻,只需使用Next
按钮中的链接逐页浏览即可。
如果您希望它更具编程性,只需检查查询参数之间的差异,您会发现_101_INSTANCE_hfCjAfLBKGW0_cur
设置为实际页面的编号(从1开始)。