Nature Scientific Data: CMAB: набор данных о зданиях с несколькими атрибутами в Китае
Быстрое получение трёхмерных данных о зданиях, включая геометрические атрибуты, такие как крыша, высота и ориентация, а также показательные атрибуты, такие как функция, качество и возраст, имеет важное значение для точного городского анализа, моделирования и обновления политики. Текущие наборы данных о зданиях страдают от неполного охвата мультиатрибутов зданий. В этой статье представлен первый набор данных о зданиях с несколькими атрибутами (CMAB) национального масштаба, охватывающий 3667 городов, 31 миллион зданий и 23,6 миллиарда м² крыш с F1-оценкой 89,93% при извлечении на основе OCRNet, что в общей сложности составляет 363 миллиарда м³ фонда зданий. Авторы обучили агрегированные модели XGBoost с помощью бутстрапа с административными классификациями городов, включая морфологию, местоположение и функциональные особенности. Используя данные из нескольких источников, включая миллиарды изображений дистанционного зондирования и 60 миллионов изображений с видом на улицу, они сгенерировали атрибуты крыши, высоты, структуры, функции, стиля, возраста и качества для каждого здания с помощью машинного обучения и больших мультимодальных моделей. Точность была подтверждена с помощью эталонных тестов модели, существующих аналогичных продуктов и ручной проверки изображений с видом на улицу, в основном выше 80%. Этот набор данных и результаты имеют решающее значение для глобальных целей устойчивого развития и городского планирования.