Кластеризация
Суть алгоритма
Использованный метод называется "Метод k средних" (Википедия).
Суть метода:
- Нам дано N точек. Также перед началом метода нужно задать количество кластеров К.
- Случайным образом разбиваем точки на кластеры.
- В каждом кластере ищем среднее арифметическое его точек. В результате для К кластеров имеет К средних точек.
- Для каждой из N точек выясняем, к какой средней точке она ближе, и относим её именно к этому кластеру.
- Для переделанных таким образом кластеров снова ищем средние и повторяем пункты 3 - 4. Останавливаем процесс тогда, когда средние перестают меняться.
Мои мысли:
- Чтобы не быть привязанным к количеству групп, я предлагаю вычислять это количество, исходя из размера населённого пункта. Например, мы зафиксируем, что примерный размер района должен быть 5х5 км, и после этого смотрим: если у нас есть НП размером 10х15 км, значит в таком НП будет 6 районов.