在网站上使用jsoup将文字标记在脚本标签内

问题描述

我正在尝试使用Jsoup在网站的js脚本中检索数据。

脚本位于标题中,如下所示:

<head>
  <script1>
    function
  </script1>
  <link>
  <script2>
     var = someJsonData
  </script2>
</head>

我唯一想获得的是第二个脚本中的字符串“ var = someJsonData”。

由于该脚本似乎总是(或几乎)位于head标签的末尾,因此我可以使用它来访问它:

String page = client.get("https://mywebsite.fr);
Element strScript = Jsoup.parse(page).select("head > script").last();

通过使用此代码,我可以检索到我感兴趣的最后一个脚本,但是我得到了:

<script>
   var = someJsonData;
</script>

同时我只想要:

var = someJsonData

有简单的方法吗?还是我必须使用某些功能手动解析它?

是否有比使用Jsoup last函数更好的方法获取最后一个脚本? (该脚本是唯一包含字符串“ window.datalayer”的脚本)?

谢谢!

解决方法

您可以使用strScript.data()获取脚本内容。

供参考https://simplesolution.dev/java-jsoup-extract-javascript-from-script-element/