用列表理解停止单词清理

问题描述

我的数据是一个嵌套的汉字列表。

text1:

[['沒人','關心','屏東','是否','淹水','了','天龍','新聞台','只','還沒來','的','颱','風'],['不報','沒人','知道','一報','一堆','人去','看然','後','就']]

我想用这个列表理解删除空字符串和停用词:

stopwords('zh')

{'即或','那些','哪','如此','别处','她','这就是说','自打','赶','其二','对比','它',';','乌乎','其','宁','不是','个','来自','啥','么','就要','纵然','俺','二','尽管如此','让','吗','不成','(','依照','的话','过','作为','些','七','要是','各自','这么些','们','总的来看','犹且','或','几','本着','因此','&','故','如是','<','倘或','~','以免','顺着','矣哉','任凭','某个','或者','以为','哟','恰恰相反','今','0','待','或曰','至','若','固然','别说','要不','除非','况且','嘘','嗡','介于','甚且','如果','有','随着','其次','尔尔','那个','他们','曾','只怕','个别','更','可','如下','及','临','故而','一方面','针对','尽管','喔唷','哇','加之','此处','这里','以至','因了','哪些','那时','依','跟','凭','嗳','含','》','通过','还有','倘使','截至','直到','那么些','除外','@','一种','乃至于','纵令','就是说','呜','否则','啦','往','由此可见','继后','嗡嗡','以期','各位','向着','别是','等等','然则','反过来说','呀','某些','〉','经过','共','呕','何以','非但','该','分别','叫','哪年','除开','这个','这儿','处在','竟而','趁','相对而言','比及','后','据此','而','那么样','不问','与其说','假使','呵','比如','打','自从','设或','当地','由于','八','再其次','不','及其','一则','设使','是以','多么','诸','当然','这样','哪儿',':','于是乎','总之','凡是','人们','那儿','咦','向','不至于','大','再有','替','其余','喏','除了','与','却','我','有的','当','鉴于','全部','一个','矣乎','任何','嘻','照','而外','那么','一何','不仅','说','自后','不得','3','望','着','开外','得了','既是','离','余外','自个儿','或是','自','哦','云云','一样','以致','故此','|','不只','而是','前后','[','不过','。','那会儿','来','甚至','者','诸位','借傥然','非特','还要','沿着','非独','称','经','嘿嘿','赖以','管','也','连同','然后','咧','一切','自家','同时','}','内','只有','极了','起见','不尽','莫不然','至若','以故','欤','能','哩','旁人','与否','虽则','首先','无宁','另外','因而','因着','一来','一些','若夫','+','六','说来','总的说来','与其','而况','且不说','反过来','尔后','随时','诚如','再说','不光','结果','这时','别人','之类','从此','人家','难道说','两者','庶几','呼哧','呜呼','叮咚','而已','倘','只是','不若','做','嗬','彼','5','唉','不外乎','这','省得','2','并','越是','且','啐','怎么办','顺','可是','所在','各个','哪样','矣','多','哎哟','哈','还','又及','靠','什么样','照着','般的','另悉','已','譬如','无','例如','一','下','有及','其他','有时','焉','它们','似的',',','再者说','此地','也好','前者','你','因','较','兮','嘛','虽然','呵呵','再者','但凡','从而','哼唷','若非','一般','用来','这么样','抑或','所有','何','呢','所','还是','不特','谁料','正是','第','¥','别','不但','慢说','紧接着','要么','谁','所以','漫说','以便','哪边','哪里','由','对于','类如','假若','可见','那样','怎么','不单','吱','九','大家','除','莫若','、','腾','打从','乃','和','具体地说','咱们','本身','嗯','接着','甚而','有关','他们们','进而','后者','本','不怕','咳','自各儿','起','我们','这么点儿','只限','于','才','谁人','仍','不比','为何','即便','设若','之所以','且说','如上','不管','较之','凭借','反之','小','果真','人','再则','冲','彼此','就算','于是','上','总的来说','既','就是了','1','莫如','为什么','云尔','每当','兼之','4','先不先','要不是','以及','何处','得','为着','或则','不惟','最','以至于','那','即使','彼时','至于','眨眼','但是','在于','贼死','那边','能否','咋','不拘','由此','乃至','嘿','甚么','没奈何','纵','把','他人','哉','吧','自身','五','全体','非','遵照','喽','光是','即令','向使','宁肯','点','继之','岂但','纵使','上下','这边','宁愿','好','!','倘然','︿','不独','她们','喂','开始','甚或','这么','尔','继而','看','何况','中','冒','所幸','〈','啪达','果然','你们','6','给','本人','月','这些','乎','距','怎么样','巴巴','如','替代','用','逐步','可以','尽','如同','$','使','也罢','与此同时','几时','始而','不料','只消','甚至于','正巧','啊','为','此间','不尽然','去','反而','不如','从','关于具体地说','日','而且','都','儿','到','怎样','为了','哪个','综上所述','罢了','哈哈','谁知','什','才能','加以','借','哼','仍旧','而后','别的','等','对','按','其一','#','论','诸如','既往','吧哒','另一方面','再','咚','换言之','年','如其','那里','若果','多少',')','但','9','如若','并且','其它','各','是的','正如','要不然','这次','比方','*','毋宁','《','使得','许多','及至','朝','鄙人','据','何时','出来','其中','7','只当','为此','譬喻','四','来着','咱','简言之','别管','唯有','哪天','而言','各种','之一','依据','随','乘','在','如上所述','之','按照','朝着','不论','每','地','连','此时','已矣','致','很','将','一转眼','基于','关于','吓','巴','换句话说','哎呀','倘若','亦','的确','一旦','8','惟其','即若','具体说来','被','某某','根据','另','受到','就是','万一','尚且','当着','怎奈','像','要','以上','虽说','着呢','哪怕','宁可','不然','孰料','嘎登','除此之外','如何','是','则','沿','来说','等到','对待','这一来','为止','即','本地','拿','此','然而','请','凡',']','哎','您','会','这会儿','这般','三','某','>','总而言之','秒','随后','不妨','虽','庶乎','时候','则甚','又','自己','遵循','什么','时','呸','只要','比','以来','犹自','无论','既然','区','至今','?','对方','呃','同','此外','哗','孰知','他','由是','出于','诚然','若是','因为','那般','己','就','俺们','嘎','{','趁着','便于','非徒','光','在下','假如','边','分','归','即如','%','零','二来','阿','啷当','归齐','有些','呗','正值','此次','以','怎','任','前此'}



text2 = [w for x in text1 for w in x if not w in stopwords('zh') and w != '']

但是对于结果,每个字符都被分开了,内部列表似乎没有了。

text2:

['沒','關','心','屏','東','否','淹','水','天','龍','新','聞','台','還','沒','來','風','央','山','脈','減','輕','勢','遇','初','十','潮','灣','西','部','海','區','樣','給','報','知','道','堆','然','稀','記','前','硬','碟','漲','兩','倍','價','格','結','果','變','旱','災','楊','璨','澤','南','市','毛','雨','乖','班','改','號','公','車','座','拆','拜','託','們','回','家','讀','書','麼','爛','送','國','北','裡','面','會','太','離','譜','個','爽','爆','免','費','錢','付','後']

有没有办法清除停用词,同时仍将其作为单词(而不是字符)和嵌套列表进行维护?

解决方法

您可以混合使用生成器和 for 循环。

text1 = [['沒人','關心','屏東','是否','淹水','了','','天龍','新聞台','只','還沒來','的','颱','風'],['不報','沒人','知道','一報','一堆','人去','看然','後','就']]
for i in range(len(text1)):
    text1[i] = [j for j in text1[i] if j != '']

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...