grep:从子文件夹中的文件中搜索单词,但从匹配总数中排除给定单词

问题描述

我有一个名为folder文件夹。在folder下,我有两个子文件subfolder1subfolder2

这两个子文件夹都具有相同的文本文件file.txt。 该文本文件包含以下几行:

text
text
line
line
text text
text text

我要使用grep进行的操作是获取text个单词的总数,但从计数中排除text text个单词。

如果我运行grep -ro "text" folder/ | wc -l | xargs echo "total matches :",我得到的计数是12,但是我要查找的结果是4,因为这两个文件只有两个text字,总共是4。

我尝试使用-v运行grep -ro "text" -v "text text" folder/ | wc -l | xargs echo "total matches :"和许多其他语法,以将text text从计数中排除,但没有成功。

解决方法

使用awk更容易实现,简而言之,您只想打印(计数)“文本”仅出现一次的行:

  • 使用“文本”(-F“文本”)作为字段分隔符
  • 当“文本”是字段分隔符时,打印字段数为2的行。
awk -F "text" 'NF==2 { print}' folder/subfolder*/*| wc -l  | xargs echo "total matches :"
total matches : 4

,

如果您有grep -P,则可以使用否定环顾;

grep -Pro '(?<=text )text(?! text)' folder

如果示例数据具有代表性,则可以用-o替换wc -l和到grep -c的管道。

如果您没有grep -P

grep -r 'text' folder | grep -vc 'text.*text'

(感谢@thanasisp)或切换到Perl或sed

find folder -type f -exec sed -n 's/text text//;/text/p' {} +

对于它的价值,-v的{​​{1}}选项为您指定的 all 模式选择反向行为。所以

grep

等同于

grep -e foo -v -e bar files...

grep -v -e foo -e bar files...