从文本中刮取数据

问题描述

我正在为 Steam 社区市场开发一个价格检查器应用程序。我使用以下代码从网站中提取源代码，其中包括直到今天的所有销售。你能帮我获取数据，它在“[[”和“]]”符号之间吗？

import requests
sites = [
    "https://steamcommunity.com/market/listings/730/AK-47%20%7C%20Redline%20%28Field-Tested%29"
]
for url in sites:
    r = requests.get(url)
    page_source = r.text
    page_source = page_source.split('\n')
    print("\nURL:",url) 
    
    for row in page_source[:]:
        print(row)

解决方法

我使用正则表达式提取数据

import requests
import re
import json

sites = [
    "https://steamcommunity.com/market/listings/730/AK-47%20%7C%20Redline%20%28Field-Tested%29"
]
for url in sites:
    r = requests.get(url)
    page_source = r.text
    # print(page_source)
    results = re.search(r'var line1=\[.*\]',page_source).group()
    print(results[10:])

python-3.x steambot steamworks-api text web-scraping