如何基于cygwin中的开始和结束行号来裁剪剪切文本文件?

问题描述

| 我几乎没有每个100MB左右的日志文件。 我个人觉得处理这么大的文件很麻烦。我知道对我来说有趣的日志行仅在200到400行之间。 从这些文件提取相关日志行的好方法是什么,即我只想将行号范围传送到另一个文件。 例如,输入为:
filename: MyHugeLogFile.log
Starting line number: 38438
Ending line number:   39276
有没有我可以在cygwin中运行的命令,以使fileg超出该文件中的那个范围?我知道,如果我能以某种方式在stdout中显示该范围,那么我也可以通过管道传输到输出文件。 注意:添加
Linux
标签以提高可见度,但是我需要一个可能在cygwin中有效的解决方案。 (通常linux命令在cygwin中起作用)。     

解决方法

听起来像
sed
的工作:
sed -n \'8,12p\' yourfile
...将发送
yourfile
的第8到12行以标准输出。 如果您想在行号前加行号,则不妨先使用
cat -n
cat -n yourfile | sed -n \'8,12p\'
    ,您可以使用
wc -l
找出总行数。 然后可以将
head
tail
组合起来以达到所需的范围。假设日志为40,000行,您需要最后1562行,然后是您想要的前838行。因此:
tail -1562 MyHugeLogFile.log | head -838 | ....
或者使用
sed
awk
可能是一种更简单的方法。     ,当我尝试将文件拆分为具有10万行的文件时,我看到了该线程。比sed更好的解决方案是:
split -l 100000 database.sql database-
它将提供如下文件:
database-aaa
database-aab
database-aac
...
    ,如果只想剪切文件的一部分-从第26行到142-将其输入到newfile中:
cat file-to-cut.txt | sed -n \'26,142p\' >> new-file.txt
    ,这个怎么样:
$ seq 1 100000 | tail -n +10000 | head -n 10
10000
10001
10002
10003
10004
10005
10006
10007
10008
10009
它使用
tail
从第10,000行开始输出,然后使用
head
仅保留10行。 与
sed
相同(几乎)的结果:
$ seq 1 100000 | sed -n \'10000,10010p\'
10000
10001
10002
10003
10004
10005
10006
10007
10008
10009
10010
这一优点是允许您直接输入行范围。     ,如果只对最后X行感兴趣,可以使用\“ tail \”命令,如下所示。
$ tail -n XXXXX yourlogfile.log >> mycroppedfile.txt
这会将日志文件的最后XXXXX行保存到名为\“ mycroppedfile.txt \”的新文件中     ,这是一个旧线程,但是我很惊讶没有人提到grep。 -A选项允许指定搜索匹配后要打印的行数,-B选项包括匹配之前的行。以下命令将在文件“ mylogfile.log \”中出现“我的搜索字符串”之前的10行和之后的10行: grep -A 10 -B 10 \“我的搜索字符串\” mylogfile.log 如果一个大文件中有多个匹配项,则输出会很快变得笨拙。两个有用的选项是-n,它告诉grep包括行号,而--color则突出显示输出中匹配的文本。 如果要搜索的文件不止一个,则grep允许列出多个文件,并用空格分隔。也可以使用通配符。放在一起: grep -A 10 -B 10 -n --color \“我的搜索字符串\” * .log someOtherFile.txt