从大量的座标中选择一个较小的“均匀”分布的座标样本

问题描述

我有一套城市不同建筑物的坐标(纬度和经度)。样本数量约为16,000。我计划将这些坐标用作其所在地区/社区的中心点,并对城市的不同社区进行一些分析。到目前为止,每个邻居的“半径/大小”尚未确定。

但是,许多这样的坐标彼此之间太接近了。因此,其中许多实际上代表了相同的地区/社区。 因此,我想选择一个较小的坐标样本(例如3-6k),以更均匀地分布。

示例:-如果其中两个坐标代表两个相邻的建筑物,则我不想包括两者,因为它们几乎代表了同一区域。因此,我们只能选择其中之一。 这样,我希望将人口减少到较小的规模,同时能够通过其余坐标覆盖整个城市。

我想象的解决方案的一种方法是将这些坐标绘制在2D图形上(用于可视化)。然后,我们可以选择不同的“半径”值来查看将保留多少个坐标。但是我不知道如何实现这样的“图形”。

我正在Python中进行此分析。有什么方法可以获取这样的样本,这些样本以最小的重叠均匀地分布?

感谢您的帮助,

解决方法

对于您的用例来说,似乎可能需要聚类而不是抽样以减少分析集。 鉴于您希望将“房屋”数据简化为“邻里”数据,我建议您探索地理空间聚类以聚类在一起的房屋,然后将约3-4K聚类作为数据集。

话虽如此,如果您的目标仍然是移除距离较近的房屋,则可以明显地创建每个房屋与其他房屋之间的地理空间距离的N * N矩阵,并移除(0,X] X是您的阈值。