multiprocessing.dummy池映射的异常处理

问题描述

免责声明:刚开始学习Python或进行一般的编码。因此,请原谅我问一些愚蠢的问题或无法正确解释问题。

我在做什么?

要请求一些url(以快速异步方式或使用线程/多处理),请保存响应,对其中的某些内容进行grep,然后将其保存到文本文件中。可以使用bash轻松完成,但是我希望它可以扩展以用于将来的添加和学习python,python网络和多线程/处理的概念。

我想到的工作代码

import os
import subprocess
from multiprocessing.dummy import Pool as ThreadPool
import requests


def cit(urls):
        results = pool.map(requests.get,urls)
        pool.close()
        pool.join()
        return [result.text for result in results]
   

def to(urls):
    data = ' '.join(cit(urls))
    p2 = subprocess.run([<external-prog>],text=True,capture_output=True,input=data)
    p3 = subprocess.run([<another-external-prog>],input=p2.stdout)

    with open('xyz.txt','w') as f:
        subprocess.run(['sort','-u'],stdout=f,input=p3.stdout)

    co()


def co():
    with open('final.txt','w') as fs:
        subprocess.run(<external prog>)



if __name__ == '__main__':
    with open('urls.txt','r') as f:
        urls = f.read().splitlines()
    to(urls)
  

问题:

  1. 这是异步/并行请求url的正确方法吗?我了解到multiprocessing.dummy基本上是线程的包装,而python中的线程只是执行上下文切换,由于GIL并不是真正的 parallel 。但是我不知道在其中可以运行该代码的系统中将有多少个内核,因此我认为线程(通过用户控制要运行多少个线程)也许是更好的方法

  2. 某些URL /链接可能不会返回200 OK,或者可能导致某些错误(引发任何异常),因此将不返回任何数据。我想忽略是否遇到任何这样的线程(或进程),而只是跳到文件的下一行。我尝试了一些东西,但是没有添加一些for循环就想不出办法了,这完全与我用于并行性(或并行性,如果考虑线程)的pool.map函数矛盾。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)