问题描述
每天每6个小时,我必须从网络服务器下载bz2
个文件,将其解压缩并将它们合并为一个文件。这需要尽可能高效和快速,因为在继续进行合并之前,我必须等待下载和解压缩阶段完成。
我已经编写了一些bash函数,这些函数将一些字符串作为输入来构造要下载的文件的URL作为匹配模式。这样,我可以将匹配模式直接传递到wget
,而不必在本地构建服务器的内容列表,然后将其作为带有-i
到wget
的列表传递。我的功能看起来像这样
parallelized_extraction(){
i=0
until [ `ls -1 ${1}.bz2 2>/dev/null | wc -l ` -gt 0 -o $i -ge 30 ]; do
((i++))
sleep 1
done
while [ `ls -1 ${1}.bz2 2>/dev/null | wc -l ` -gt 0 ]; do
ls ${1}.bz2| parallel -j+0 bzip2 -d '{}'
sleep 1
done
}
download_merge_2d_variable()
{
filename="file_${year}${month}${day}${run}_*_${1}.grib2"
wget -b -r -nH -np -nv -nd -A "${filename}.bz2" "url/${run}/${1,}/"
parallelized_extraction ${filename}
# do the merging
rm ${filename}
}
我称为download_merge_2d_variable name_of_variable
通过编写函数parallelized_extraction
可以加快代码的速度,该函数负责在wget
在后台运行时解压缩下载的文件。为此,我首先等待第一个.bz2
文件出现,然后运行并行提取,直到服务器上出现最后一个.bz2
(这是两个until
和{{ 1}}循环正在执行)。
我对这种方法非常满意,但是我认为它可以改进。这是我的问题:
- 如果我的文件列表是作为匹配模式给出的,我如何启动
while
的多个实例来执行并行下载?我是否必须编写多个带有“数据块”内部数据的匹配模式,还是必须从服务器下载内容列表,拆分该列表,然后将其作为输入输入wget
?
如果文件下载速度真的很慢, -
wget
可能会失败,因为它不会找到任何新的parallelized_extraction
文件要提取并在下一次迭代时从循环中退出,尽管{{1} }仍在后台运行。尽管这从未发生在我身上,但这是有可能的。为了解决这一问题,我尝试通过在后台运行bz2
的{{1}}来向第二个条件添加一个条件,以检查它是否仍然存在,但不知何故不起作用
wget
有什么线索为什么这行不通?关于如何改进我的代码的任何建议? 谢谢
更新 如果有人有兴趣,我将根据接受的答案在此发布我的工作解决方案。
PID
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)