linux – 为什么uniq不能处理这个大文件?庆典

我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)

我执行此命令:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

问题是它给了我一个小小的错误:它认为我的语言不同.
例如,第一个条目是:

306 continua 
278 apertura 
211 eventi 
189 murah 
182 giochi 
167 giochi

你可以看到,与giochi重复两次

在文件的底部它变得更糟,它看起来像这样:

1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 win 
  1 winchester 
  1 wind 
  1 wind

对于所有的话

对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟.
我究竟做错了什么?

非常感谢

解决方法

首先尝试排序:
cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt

相关文章

文章浏览阅读1.8k次,点赞63次,收藏54次。Linux下的目录权限...
文章浏览阅读1.6k次,点赞44次,收藏38次。关于Qt的安装、Wi...
本文介绍了使用shell脚本编写一个 Hello
文章浏览阅读1.5k次,点赞37次,收藏43次。【Linux】初识Lin...
文章浏览阅读3k次,点赞34次,收藏156次。Linux超详细笔记,...
文章浏览阅读6.8k次,点赞109次,收藏114次。【Linux】 Open...