问题描述
条件 CART 中的“权重”和“权重”是什么?
我正在使用 CARTS 通过递归分区来分析一个小数据集 (N=70)。具体来说,ctree 函数形成了 R 中的 party 包。
我对什么是“权重”与“权重”有点困惑。据我所知,他们将每个节点中的最终观察次数称为“权重”。但是,也可以将“权重”设置为条件树模型中的重要性度量,我称之为“统计权重”。
我将一个分类变量设置为“统计权重”,我不确定软件在做什么,但是每个节点的样本大小(N=“权重”)突然大了 5.5 倍(N=400)比最初的一个,总样本大小(N = n1+n2+n3..))取决于最小桶和最大深度。我认为该模型只会考虑此类变量的可重复性并在模型中对其进行权衡。我明白为什么节点在样本大小上会有所不同,但我没想到总 N 是可变的。
我已经阅读了 patry 手册很多次了,还尝试了 partykit 包。我读了又读,可能会解释这些概念,但我对在推理树中添加“统计权重”时获得如此大的样本量(“权重”)感到困惑。