Rethinking Cluster Quality Evaluation for Large-Scale Geospatial Data

М.В. Арзубов; О.О. Нарушинська

doi:10.36910/6775-2524-0560-2026-62-12

М.В. Арзубов https://orcid.org/0000-0002-4592-0965
О.О. Нарушинська https://orcid.org/0009-0002-2994-6556

DOI: https://doi.org/10.36910/6775-2524-0560-2026-62-12

Ключові слова: оцінювання якості кластеризації, геопросторова кластеризація, великі геопросторові дані, просторова неоднорідність, локальна просторова структура, масштабованість, валідація кластеризації, оцінювання з урахуванням густини, попарні відстані, кластеризація

Анотація

У статті запропоновано новий підхід до оцінювання якості кластеризації великих геопросторових даних, спрямований на подолання обмежень традиційних метрик валідації, що ґрунтуються на глобальних або попарних відстанях. Незважаючи на широке застосування, такі метрики є обчислювально неефективними та недостатньо чутливими до просторової неоднорідності, локальних змін густини та багатомасштабної організації геоданих. Обґрунтовується необхідність переходу від глобального дистанційного аналізу до локально орієнтованого оцінювання, яке краще відображає просторову структуру даних. Запропонований масштабований фреймворк оцінювання базується на використанні локальної просторової структури та передбачає обчислення показників компактності, узгодженості густини та просторової зв’язаності в межах локальних околів із подальшою агрегацією результатів у глобальну оцінку без виконання повного попарного аналізу. Розроблений підхід є незалежним від конкретного алгоритму кластеризації та може застосовуватися до чітких, нечітких ієрархічних кластерних моделей. Експериментальні дослідження на великих наборах геопросторових даних підтверджують стабільність, інтерпретованість і масштабну узгодженість отриманих оцінок при істотному зменшенні обчислювальних витрат. Отримані результати свідчать про підвищену стійкість запропонованого підходу до нерівномірних просторових розподілів і градієнтів густини, що дозволяє розглядати його як більш адекватну парадигму оцінювання кластеризації великих геоданих у сучасних аналітичних і картографічних середовищах.

Посилання

Altieri, F., Pietracaprina, A., Pucci, G., & Vandin, F. (2021). Scalable distributed approximation of internal measures for clustering evaluation. In Proceedings of the 2021 SIAM International Conference on Data Mining (SDM) (pp. 648–656). Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9781611976700.73

Ankerst, M., Breunig, M. M., Kriegel, H.-P., & Sander, J. (1999, June). OPTICS. Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data. SIGMOD/PODS99: International Conference on Management of Data and Symposium on Principles of Database Systems, Philadelphia Pennsylvania USA. https://doi.org/10.1145/304182.304187

Anselin, L. (1995). Local indicators of spatial association—LISA. Geographical Analysis, 27(2), 93–115. https://doi.org/10.1111/j.1538-4632.1995.tb00338.x

Arbelaitz, O., Gurrutxaga, I., Muguerza, J., Pérez, J. M., & Perona, I. (2013). An extensive comparative study of cluster validity indices. Pattern Recognition, 46(1), 243–256. https://doi.org/10.1016/j.patcog.2012.07.021

AssunÇão, R. M., Neves, M. C., Câmara, G., & Da Costa Freitas, C. (2006). Efficient regionalization techniques for socio‐economic geographical units using minimum spanning trees. International Journal of Geographical Information Science, 20(7), 797–811. https://doi.org/10.1080/13658810600665111

Альтернативний підхід до оцінювання якості кластеризації великих геопросторових даних.

Анотація

Посилання