DeleteDuplicates和Tally中的不稳定

问题描述

| 在准备对“计数” Mathematica中的列表采用多少个不同值的答案时,我遇到了我不理解的
DeleteDuplicates
和I1ѭ的不稳定(由于缺乏更好的术语)。 首先考虑:
a = {2.2000000000000005,2.2,2.1999999999999999};

a // InputForm
DeleteDuplicates@a // InputForm
Union@a // InputForm
Tally@a // InputForm
   {2.2000000000000006`,2.2,2.1999999999999997`}    {2.2000000000000006`,2.2,2.1999999999999997`}    {2.1999999999999997`,2.2,2.2000000000000006`}    {{2.2000000000000006`,3}} 这是我在每种情况下所期望的。
Tally
会补偿微小的数值差异,并将每个元素都视为等效。
Union
DeleteDuplicates
将所有元素视为唯一。 (据我所知,This1的这种行为没有记录,但是我以前已经使用过。) 现在,考虑一下这种复杂性:
a = {11/5,2.2000000000000005,2.1999999999999997};

a // InputForm
DeleteDuplicates@a // InputForm
Union@a // InputForm
Tally@a // InputForm
   {11/5,2.2000000000000006,2.2,2.1999999999999997}    {11/5,2.2000000000000006,2.2}    {2.1999999999999997,2.2,11/5,2.2000000000000006}    {{11/5,1},{2.2000000000000006,1},{2.2,2}}
Union
的输出符合预期,但是,0ѭ和
Tally
的结果令人惊讶。 为什么
DeleteDuplicates
突然将
2.1999999999999997
视为要消除的重复项? 为什么
Tally
突然将
2.2000000000000006
2.2
区别开来? 与此相关,可以看出压缩数组影响affect1ѭ:
a = {2.2000000000000005,2.1999999999999999};
a // InputForm
Tally@a // InputForm
   {2.2000000000000006,2.2,2.1999999999999997}    {{2.2000000000000006`,3}}
a = Developer`ToPackedArray@a;
a // InputForm
Tally@a // InputForm
   {2.2000000000000006,2.2,2.1999999999999997}    {{2.2000000000000006`,1},{2.2,2}}     

解决方法

        表现出的行为似乎是由与浮点算术相关的常见问题加上正在讨论的某些函数中的某些可疑行为导致的。 SameQ不是等价关系 首先,请考虑一下“ 19”不是等价关系,因为它不是可传递的:
In[1]:= $a = {11/5,2.2000000000000005,2.2,2.1999999999999997};

In[2]:= SameQ[$a[[2]],$a[[3]]]
Out[2]= True

In[3]:= SameQ[$a[[3]],$a[[4]]]
Out[3]= True

In[4]:= SameQ[$a[[2]],$a[[4]]]
Out[4]= False                     (* !!! *)
因此,即使在转向其他功能之前,我们也面临着不稳定的行为。 此行为是由于
SameQ
的记录规则所致,该规则规定两个实数如果“在最后一个二进制数中不同”则被视为“等于”:
In[5]:= {# // InputForm,Short@RealDigits[#,2][[1,-10;;]]} & /@ $a[[2;;4]] // TableForm
(* showing only the last ten binary digits for each *)
Out[5]//TableForm= 2.2000000000000006  {0,1,1}
                   2.2                 {0,0}
                   2.1999999999999997  {0,1}
请注意,严格来说,
$a[[3]]
$a[[4]]
在最后两位二进制数中有所不同,但差异的大小是最低位的一位。 DeleteDuplicates并不真正使用SameQ 接下来,考虑文档指出ѭ25等于ѭ26。好吧,这是完全正确的-但可能并非您所期望的那样:
In[6]:= DeleteDuplicates[$a] // InputForm
Out[6]//InputForm= {11/5,2.2000000000000006,2.2}

In[7]:= DeleteDuplicates[$a,SameQ] // InputForm
Out[7]//InputForm= {11/5,2.2}
与所记录的相同...但是呢:
In[8]:= DeleteDuplicates[$a,SameQ[#1,#2]&] // InputForm
Out[8]//InputForm= {11/5,2.1999999999999997}
当比较函数显然是
SameQ
而不是行为与
SameQ
相同的函数时,看来
DeleteDuplicates
会经过不同的逻辑分支。 提示是...困惑
Tally
表现出相似但不相同的不稳定行为:
In[9]:= Tally[$a] // InputForm
Out[9]//InputForm=  {{11/5,1},{2.2000000000000006,{2.2,2}}

In[10]:= Tally[$a,SameQ] // InputForm
Out[10]//InputForm= {{11/5,2}}

In[11]:= Tally[$a,#2]&] // InputForm
Out[11]//InputForm= {{11/5,2}}
最后一个特别令人困惑,因为相同的数字在列表中以不同的计数出现了两次。 平等遭受类似的问题 现在,回到浮点相等的问题。
Equal
的票价比
SameQ
的要好一些-但强调“小”。
Equal
会查看最后七个二进制数字,而不是最后一个二进制数字。但这并不能解决问题,但总是可以找到麻烦的情况:
In[12]:= $x1 = 0.19999999999999823;
         $x2 = 0.2;
         $x3 = 0.2000000000000018;

In[15]:= Equal[$x1,$x2]
Out[15]= True

In[16]:= Equal[$x2,$x3]
Out[16]= True

In[17]:= Equal[$x1,$x3]
Out[17]= False             (* Oops *)
揭露小人 所有这些讨论的罪魁祸首是浮点实数格式。根本不可能使用有限格式完全保真地表示任意实数。这就是为什么Mathematica强调符号形式并尽一切可能尝试尽可能长时间地使用符号形式的表达式。如果发现数字形式是不可避免的,那么就必须涉入那种称为数字分析的沼泽,以理清所有涉及平等和不平等的极端情况。 可怜的
SameQ
Equal
DeleteDuplicates
Tally
和他们的所有朋友都没有机会。     ,我认为,对于
Tally
DeleteDuplicates
带有默认值(基于类似
SameQ
的)的比较函数和数值,一切依赖于实现细节,因为
SameQ
在数值上没有明确定义的语义。您看到的是其他语言中通常称为“未定义行为”的内容。要获得可靠的结果,应该做的是使用
DeleteDuplicates[a,Equal]
要么
Tally[a,Equal]
对于
Union
同样如此(尽管我不会使用
Union
,因为显式测试会导致平方复杂性)。 OTOH,如果您想要因为要使用内部实现细节而希望了解它们,那么我只能说警告这可能造成弊大于利,尤其是因为这些实现可能因版本而异-即使假设您正确获取了某个特定版本的所有详细信息。     

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...