如何限制 vaex 使用的内核/线程/进程的数量?某些操作有一个布尔值 parallel 开关,但我看不到有更细粒度控制的方法(这在较大的共享服务器上很重要)。
vaex
parallel
手头的代码片段:
vaex.open("/very/large/file.parquet/")\ .sample(frac=0.01)\ .export_parquet("/slightly/smaller/file.parquet",parallel=True)
关于线程数,可以使用名为 VAEX_NUM_THREADS 的环境变量,默认使用 multiprocessing.cpu_count()
VAEX_NUM_THREADS
multiprocessing.cpu_count()
参见https://github.com/vaexio/vaex/blob/2418d56a1925a82557a8e86493f5e5d117c06049/packages/vaex-core/vaex/multithreading.py#L21