Климатический центр Росгидромета

Новости партнеров

Nature: Галлюцинаторные ссылки загрязняют научную литературу. Что можно сделать?

 

Анализ, проведённый журналом Nature, предполагает, что десятки тысяч публикаций с 2025 года могут содержать недействительные ссылки, сгенерированные искусственным интеллектом.

В начале этого года специалист по информатике Гийом Кабанак (Guillaume Cabanac) получил уведомление от Google Scholar о том, что одна из его публикаций была процитирована в статье, опубликованной в International Dental Journal1. Это было неожиданно, поскольку его исследования по выявлению сфабрикованных статей обычно не пересекаются со стоматологией. «Я был очень удивлён, увидев, что не могу распознать свою собственную ссылку», — говорит Кабанак, работающий в Университете Тулузы во Франции.

Заголовок в цитируемой статье напоминал препринт2, который он опубликовал в 2021 году и так и не опубликовал официально, но журнал был указан как Nature, а DOI — уникальный идентификатор, присваиваемый издателями и репозиториями препринтов, — не вёл к оригинальному препринту. «Я очень забеспокоился», — добавляет Кабанак, который сразу же заподозрил, что цитирование было сфабриковано искусственным интеллектом.

Это лишь один пример быстро растущей проблемы. Опросы и соответствующие исследования показали, что исследователи всё чаще используют большие языковые модели (Large Language Models, LLM) для проведения поиска литературы, написания рукописей и форматирования библиографий. Иногда эти модели генерируют несуществующие академические ссылки.

В течение последнего года предпринимались попытки выявить подобные фиктивные ссылки в научной литературе. Анализ почти 18 000 статей, принятых на трёх конференциях по информатике, выявил резкое увеличение числа ссылок, которые невозможно отнести к реальным научным публикациям³. Результаты, опубликованные в январе, показали, что в 2025 году как минимум одна потенциально фиктивная ссылка присутствовала в 2,6% статей — по сравнению с примерно 0,3% в 2024 году. Другой анализ, опубликованный в феврале, показал, что в 2–6% статей на четырёх других конференциях по информатике 2025 года содержались ссылки с перефразированными названиями или ссылки на публикации, которые авторы не смогли проверить, просматривая базы данных и архивы журналов⁴.

И хотя масштабы проблемы остаются неопределёнными, ясно, что она затрагивает не только конференции. Эксклюзивный анализ, проведённый новостной командой Nature в сотрудничестве с компанией Grounded AI, расположенной в Стивенейдже, Великобритания, предполагает, что по меньшей мере десятки тысяч публикаций 2025 года, включая статьи в журналах и книги, а также материалы конференций, вероятно, содержат недействительные ссылки, сгенерированные искусственным интеллектом.

Grounded AI входит в число компаний, предлагающих издателям инструменты для проверки представленных материалов на наличие проблемных ссылок. Несколько издателей сообщили журналистам Nature, что они изучают подобные инструменты или разрабатывают собственные версии.

Однако некоторые исследователи опасаются, что проблема вскоре выйдет из-под контроля. «Мы увидим поток фальшивых ссылок», — говорит Элисон Джонстон (Alison Johnston), политолог из Университета штата Орегон в Корваллисе.

Ещё одна проблема — это решение вопроса о том, что делать с вымышленными цитатами, попадающими в опубликованную литературу. С этой проблемой сейчас борются академические издательства.

Источники ошибок

Ошибки в цитировании не являются чем-то новым для академического издательства. «Ещё до появления генеративного искусственного интеллекта у нас уже было так много неточностей в цитировании», — говорит Мохаммад Хоссейни (Mohammad Hosseini), изучающий этику и добросовестность исследований в Медицинской школе Файнберга Северо-Западного университета в Чикаго, штат Иллинойс. Проблемы, как правило, включают в себя неправильное написание имён авторов или ошибки в годе публикации, названии журнала или DOI. Ещё одна проблема — это несоответствия между информацией в цитируемой работе и подробностями, приведёнными в статье, цитирующей её5,6.

«Сейчас проблема не только в неточности, но и в поддельных цитатах. Речь идёт о сфабрикованных цитатах, а это уже совсем другая проблема», — говорит Хоссейни.

Издатели сообщили журналу Nature, что наблюдают рост числа сфабрикованных и неточных цитат в присланных работах и ​​принимают меры для решения этой проблемы.

Джонстон, соредактор журнала Review of International Political Economy (RIPE), издаваемого британской компанией Taylor & Francis, говорит, что в январе она отклонила 25% из примерно 100 представленных работ «из-за поддельных ссылок». Она использует программное обеспечение для обнаружения плагиата iThenticate, чтобы выявлять необычные или частичные совпадения между ссылками в представленных статьях и опубликованными библиографиями. Затем она вручную проверяет подозрительные цитаты. «Сейчас я пытаюсь выявлять вымышленные ссылки, чего не делала до 2025 года», — говорит она.

Компания Frontiers, расположенная в Лозанне, Швейцария, разработала собственный инструмент на основе искусственного интеллекта для выявления проблем с научной этикой на этапе подачи статьи, включая ссылки на нерелевантные или отозванные работы и вымышленные цитаты. «Около 5% [рукописей] демонстрируют потенциальные проблемы, связанные со ссылками, выявленные в ходе наших проверок», — говорит Елена Викарио (Elena Vicario), руководитель отдела научной этики Frontiers. Но «не все отмеченные ссылки в конечном итоге оказываются действительно проблематичными», — добавляет она. По словам Викарио, это затрудняет точное измерение распространённости любого из этих типов проблем с цитированием.

Эксперименты с использованием чат-ботов на основе искусственного интеллекта для генерации статей позволили получить представление о том, как часто LLM допускают ошибки в цитировании и какие типы ошибок они, как правило, допускают. В одном исследовании учёные предложили LLM-установке GPT-4o от OpenAI сгенерировать шесть обзоров литературы по трём психическим расстройствам и проанализировали 176 ссылок в этих синтетических обзорах7. В этих экспериментальных условиях они обнаружили, что почти 20% были сфабрикованными ссылками и не могли быть связаны с реальными исследованиями. А 45% оставшихся ссылок, которые соответствовали подлинным публикациям, содержали ошибки, часто неверные или недействительные DOI.

В некоторых случаях, в том числе в ссылках в опубликованных статьях, все составляющие части вымышлены, говорит Кэтрин Вебер-Боер (Kathryn Weber-Boer), директор по наукометрии лондонской компании Digital Science. (Компания управляется издательской группой Holtzbrinck Publishing Group, которая является мажоритарным акционером Springer Nature, издающей Nature. Редакционная команда Nature независима от издателя.) Искусственный интеллект также создаёт «галлюцинации» DOI как в подлинных, так и в сфабрикованных ссылках, добавляет она.

Сгенерированные искусственным интеллектом ссылки часто объединяют фрагменты подлинных публикаций, говорят исследователи, изучавшие этот вопрос (см. «Как подделки могут выглядеть правдоподобно»). Джо Шокман (Joe Shockman), соучредитель и генеральный директор Grounded AI, называет такие ссылки «цитатами Франкенштейна», сравнивая их создание с созданием вымышленного монстра. «Человеку это кажется реальным, но на самом деле это не ссылка на реальный объект», — говорит Шокман, проживающий в Ашленде, штат Орегон.

 

Хотя некоторые типы ошибок, по-видимому, связаны с искусственным интеллектом, другие менее однозначны, говорят исследователи. «В современных условиях мы должны понимать, что существуют человеческие ошибки и ошибки машин, и они часто могут пересекаться», — говорит Вебер-Боер.

Проблемы с опубликованными работами

Определить, сколько ложных цитирований появляется в опубликованных исследованиях, по-прежнему сложно. Чтобы получить приблизительную оценку, новостная команда Nature объединила усилия с Grounded AI, разработавшей инструмент искусственного интеллекта под названием Veracity, проверяющий цитирования по научным базам данных и в интернете, помечая те, которые являются недействительными, нерелевантными или ссылаются на отозванные работы.

Nature и Grounded AI совместно проанализировали более 4000 публикаций за прошлый год, охватывающих пять ведущих издательств: Elsevier, Sage, Springer Nature, Taylor & Francis и Wiley. Инструмент Grounded AI случайным образом отобрал эти статьи из Europe PMC — репозитория статей по биомедицинским исследованиям в открытом доступе — и библиометрической базы данных Crossref, включив в выборку равное число публикаций в месяц от каждого из пяти издателей. Выборка включала опубликованные статьи, а также главы книг и материалы конференций, и охватывала все предметные области в портфелях этих издателей.

Инструмент Grounded AI ищет точное совпадение со ссылкой или наиболее близкое совпадение, которое он может найти. Затем он отмечает цитаты с серьёзными проблемами, такими как несовпадающие названия или DOI, отсутствующие авторы и неверные журналы, а также более мелкие проблемы. Цитаты, указывающие на статьи, которые не удалось найти, хотя их должно быть легко найти — например, потому что рассматриваемый журнал индексируется научными базами данных, — были отмечены как особенно проблемные.

После проверки публикаций с помощью инструмента Grounded AI присвоила каждой из опубликованных статей оценку риска на основе числа ссылок с серьёзными ошибками и вероятности того, что эти ошибки были сгенерированы искусственным интеллектом. Grounded AI определила эту вероятность, используя данные, полученные в ходе отдельного анализа, в котором две модели искусственного интеллекта сгенерировали 20 000 синтетических статей; это позволило компании выявить наиболее распространённые типы ошибок цитирования, допускаемые искусственным интеллектом.

Nature вручную проверила 100 наиболее подозрительных публикаций и подтвердила, что 65 из них содержали как минимум одну недействительную ссылку, то есть указывали на публикацию, которой, по-видимому, не существовало (см. «Выявление фальсификаций»). Однако 22 из 100 наиболее подозрительных статей содержали ссылки, указывающие на подлинные публикации.

Что касается оставшихся 13 статей, то было неясно, все ли их ссылки указывали на существующие исследования или нет. Эти 13 статей содержали ссылки на статьи, которые, как утверждалось, были опубликованы в региональных журналах на языках, отличных от английского, а также ссылки с несоответствиями в метаданных, которые выглядели как вероятные ошибки, допущенные человеком, например.

Анализ, в котором рассматривались списки литературы из Crossref и полные тексты публикаций Europe PMC, не выявил чёткой тенденции среди издателей. У каждого из выбранных издателей было более пяти публикаций со ссылками, которые не удалось подтвердить при ручной проверке.

В качестве приблизительной оценки, если показатель в 65 публикаций с хотя бы одной недействительной ссылкой из примерно 4000 проанализированных публикаций сохраняется в академической литературе, это означает, что более 110 000 из примерно 7 миллионов научных публикаций с 2025 года содержат недействительные ссылки.

Ник Морли (Nick Morley), соучредитель и директор по продуктам Grounded AI, говорит, что типы проблем с цитированием, наблюдаемые в 2025 году, отличаются от тех, которые обнаружила его команда до распространения программ магистратуры в области права (LLM). Этот факт, по его словам, указывает на использование искусственного интеллекта как на главного виновника.

Вебер-Боер говорит, что истинное число фиктивных ссылок почти наверняка выше, поскольку анализ был сосредоточен на крупных издательствах, которые располагают большими ресурсами для систематической проверки цитирований, чем более мелкие издательства. Такие области, как информатика, где наблюдается всплеск использования программ LLM для подготовки рукописей8, могут быть затронуты сильнее, чем другие области. Более того, анализ Grounded AI выявил на несколько сотен больше публикаций, которые имели некоторый риск фиктивных цитирований, что предполагает, что дополнительная ручная проверка выявила бы больше таких цитирований.

Представители всех пяти издательств заявили, что они проверяют ссылки в рамках своего процесса отбора и редактирования, и они намерены расследовать публикации, отмеченные анализом Nature. Представитель компании Taylor & Francis заявил, что некоторые из отмеченных публикаций уже находятся на рассмотрении отдела по этике и добросовестности.

Что касается фиктивных ссылок, «были случаи, когда авторы могли чётко задокументировать проблемы, возникшие в процессе подготовки рукописи, например, с помощью инструмента перевода, и продемонстрировать, что остальная часть статьи заслуживает доверия, в этом случае статья будет исправлена», — говорит Крис Граф (Chris Graf), директор по вопросам научной этики в Springer Nature. Но чаще всего, по его словам, эти ссылки отражают более широкие проблемы с содержанием.

Шокман отмечает, что количество потенциально проблемных цитирований, отмеченных Veracity, на порядок больше, когда эта система используется в пилотных программах для проверки заявок от имени издателей, чем когда она анализирует сами публикации. Это говорит о том, что издатели выявляют значительную часть таких цитирований до того, как они попадут в научную литературу.

Сотрудничество Nature с Grounded AI также показало, как отмечали многие эксперты, что обнаружение недействительных цитирований с помощью автоматизированных инструментов не лишено ошибок. Одна из проблем заключается в том, что журналы используют различные способы форматирования ссылок, и инструменты искусственного интеллекта могут не распознать ссылки из-за особенностей их оформления. Подобные проблемы возникали среди цитирований, которые при ручной проверке были признаны подлинными, несмотря на то, что были отмечены как таковые инструментом Grounded AI.

Ещё одна проблема, по словам Вебер-Боер, заключается в том, что крупномасштабные библиометрические базы данных могут не индексировать ссылки, которые невозможно проверить, то есть их метаданные могут не совпадать с тем, что указано на веб-сайтах издателей. Некоторые ссылки не содержат соответствующего DOI, что затрудняет автоматизированным инструментам идентификацию цитируемой статьи, добавляет Вебер-Боер. «Мы начинаем понимать характеристики этой проблемы, что является предпосылкой для понимания её масштабов», — говорит она.

Члены команды Grounded AI признают, что не все ссылки, отмеченные их инструментом, будут действительно реальными, но заявляют, что продолжают улучшать его работу. Издательство IOP Publishing, расположенное в Бристоле, Великобритания, теперь использует инструмент Grounded AI для проверки статей на наличие проблемных цитирований во всех своих собственных журналах, говорит Ким Эгглтон (Kim Eggleton), руководитель отдела рецензирования и научной этики. «Мы знаем, что это проблема, мы просто не знаем, насколько она масштабна», — говорит она.

Цитируемая литература
1. Duane, B., Ashley, P. & Larkin, J. Int. Dent. J. 76, 103979 (2026).
2. Cabanac, G., Labbé, C. & Magazinov, A. Preprint at arXiv https://doi.org/10.48550/arXiv.2107.06751 (2021).
3. Sakai, Y., Kamigaito, H. & Watanabe, T. Preprint at arXiv https://doi.org/10.48550/arXiv.2601.18724 (2026).
4. Bienz, A., Pearson, C. & Garcia de Gonzalo, S. Preprint at arXiv https://doi.org/10.48550/arXiv.2602.05867 (2026).
5. Baethge, C. & Jergas, H. Res. Integr. Peer Rev. 10, 13 (2025).
6. Cobb, C. L., Crumly, B., Montero-Zamora, P., Schwartz, S. J. & Martínez, C. R. Jr Am. Psychol. 79, 299–311 (2024).
7. Linardon, J. et al. JMIR Ment. Health 12, e80371 (2025).
8. Liang, W. et al. Nature Hum. Behav. 9, 2599–2609 (2025).
9. Abbonato, D. Preprint at arXiv https://doi.org/10.48550/arXiv.2602.15871 (2026).
10. Resnik, D. B. & Hosseini, M. Account. Res. https://doi.org/10.1080/08989621.2026.2645390 (2026).

Ссылка: https://www.nature.com/articles/d41586-026-00969-z

Печать