问题描述
我正在尝试创建一个变量“血栓栓塞死亡”,如果不是死因,则为0,如果不是死因,则为1。
如果在文本行中出现以下关键术语之一(例如DVT,肺栓塞,血栓栓塞),是否可以通过spss / excel对该数据集进行排序以创建新变量?这是我现在的数据。
https://i.stack.imgur.com/WDrBs.png
数据集也很大。 250000多个案例。我是数据分析的新手,谢谢您的帮助!
解决方法
在SPSS中,假设您有一个名为death_cause
且具有详细描述的变量:
COMPUTE thromboembolism_death = (INDEX(UPCASE(death_cause),'DVT') > 0)
OR (INDEX(UPCASE(death_cause),'PULMONARY EMBOLISM') > 0)
OR (INDEX(UPCASE(death_cause),'THROMBOEMBOLISM') > 0).
EXE .
在Excel中,您可以采用类似的方法。假设您的文字详细记录在A列中:
=IF(OR(ISNUMBER(SEARCH("DVT",A1)),ISNUMBER(SEARCH("PULMONARY EMBOLISM",ISNUMBER(SEARCH("THROMBOEMBOLISM",A1))),1,0)
或者,如果您愿意使用SUMPRODUCT()
,则公式会更短一些。假设您在单元格C2:C5中列出了“要搜索的字符串”:
=SUMPRODUCT(--ISNUMBER(SEARCH(C2:C5,A1)))>0
请注意,以上所有选项都不区分大小写。