Nature Scientific Reports: Оценка начала весеннего повышения уровня воды в питаемых преимущественно таянием снега реках северо-восточной России с использованием машинного обучения
Время начала весеннего подъёма уровня воды является ключевым индикатором сезонного гидрологического перехода в речных системах высоких широт, подверженных воздействию таяния снега. В данном исследовании оценивается способность ансамблевых моделей машинного обучения оценивать дату начала весеннего подъёма уровня воды в арктическо-субарктических реках Анадырско-Колымского бассейна на северо-востоке России с использованием набора данных «станция-год» за период 2008–2022 гг., сочетающего гидрологические наблюдения с метеорологическими и бассейновыми предикторами. Были протестированы пять алгоритмов регрессии с использованием групповой перекрёстной проверки по годам. Модель CatBoost показала наивысшую точность прогнозирования со средней абсолютной ошибкой вне выборки 4,54 дня, среднеквадратичной ошибкой 9,79 дня и коэффициентом детерминации R² = 0,538, немного превзойдя ExtraTrees (средняя абсолютная ошибка 4,66 дня) и RandomForest (средняя абсолютная ошибка 4,70 дня). Пространственный анализ показывает, что на большинстве измерительных станций ошибки прогнозирования находятся в пределах 0,5–3 дней, тогда как ошибки, превышающие 10 дней, встречаются в основном в небольших или топографически сложных бассейнах с ограниченным охватом наблюдений. Интерпретация модели с использованием аддитивных объяснений Шапли (SHapley Additive exPlanations, SHAP) и анализа частичной зависимости (partial dependence, PDP) показывает, что предикторы, описывающие термическое воздействие в конце зимы и начале весны, доминируют в отклике модели, при этом наибольший вклад вносят положительные суммы эффективных температур в марте–апреле, первый день оттепели и индикаторы быстрого повышения уровня воды. Начало весеннего повышения уровня воды в исследуемых арктическо-субарктических речных системах в первую очередь связано с взаимодействием процессов таяния снега, обусловленных температурой, и ранней гидрологической реакцией речной сети, в то время как осадки и пространственные характеристики вносят сравнительно меньший вклад. Эти статистические зависимости относятся к периоду 2008–2022 гг. и могут изменяться в зависимости от климатических условий или более длительных периодов наблюдений, что следует учитывать при применении модели для прогнозирования.
