18+

 

Номер №2, 2025 - стр. 30-36

Чат-боты на основе искусственного интеллекта в онкоурологии: оценка достоверности и качества медицинской информации DOI: 10.29188/2222-8543-2025-18-2-30-36

Для цитирования: Арутюнян П.А., Васильев А.О., Говоров А.В., Ким Ю.А., Медведев Ф.А., Ходырева Л.А., Пушкарь Д.Ю. Чат-боты на основе искусственного интеллекта в онкоурологии: оценка достоверности и качества медицинской информации. Экспериментальная и клиническая урология 2025;18(2):30-36; https://doi.org/10.29188/2222-8543-2025-18-2-30-36
Арутюнян П.А., Васильев А.О., Говоров А.В., Ким Ю.А., Медведев Ф.А., Ходырева Л.А., Пушкарь Д.Ю.
Сведения об авторах:
  • Арутюнян П.А. – уролог, онколог, научный сотрудник Московского многопрофильного научно-клинический центр им. С.П. Боткина ДЗМ, ведущий специалист ОМО по урологии Научно-исследовательского института организации здравоохранения и медицинского менеджмента ДЗМ, аспирант кафедры урологии Российского университета медицины Минздрава России, Москва, Россия; РИНЦ Author ID 1193661, https://orcid.org/0000-0002-6228-012X
  • Васильев А.О. – к.м.н., уролог, врач-онколог Московского урологического центра многопрофильного научно-клинический центр им. С.П. Боткина ДЗМ, ведущий специалист ОМО по урологии Научно-исследовательского института организации здравоохранения и медицинского менеджмента ДЗМ, ассистент кафедры урологии Российского университета медицины Минздрава России, Москва, Россия; РИНЦ Author ID 832619, https://orcid.org/0000-0001-5468-0011
  • Говоров А.В. – д.м.н., заведующий онкоурологическим отделением Московского урологического центра многопрофильного научно-клинический центр им. С.П. Боткина ДЗМ, профессор кафедры урологии Российского университета медицины Минздрава России, Москва, Россия; РИНЦ Author ID 711844, https://orcid.org/0000-0003-3299-0574
  • Ким Ю.А. – к.м.н., врач-методист Московского территориального научно- практического центра медицины катастроф (ЦЭМП) ДЗМ Москвы, Москва, Россия; РИНЦ Author ID 1068822, https://orcid.org/0000-0001-6390-3408
  • Медведев Ф.А. – ординатор кафедры урологии Российского университета медицины Минздрава России, аналитик ОМО по урологии Научно-исследовательского института организации здравоохранения и медицинского менеджмента ДЗМ, Москва, Россия; РИНЦ Author ID 1288228, https://orcid.org/0000-0003-0460-4816
  • Ходырева Л.А. – д.м.н., заведующая ОМО по урологии Научно-исследовательского института организации здравоохранения и медицинского менеджмента ДЗМ, Москва, Россия; РИНЦ Author ID 467082, https://orcid.org/0000-0002-0751-4982
  • Пушкарь Д. Ю. – д.м.н., профессор, академик РАН, главный внештатный специалист уролог Минздрава России, заведующий кафедрой урологии Российский университет медицины Минздрава России, руководитель Московского урологического центра Московского многопрофильного научно-клинический центр им. С.П. Боткина ДЗМ, Москва, Россия; РИНЦ Author ID 417122, https://orcid.org/0000-0002-6096-5723
991

ВВЕДЕНИЕ

В век цифровизации трудно переоценить возможности и пользу цифровых технологий и социальных сетей для современного человека. Обмен разного рода информацией с помощью интернета между людьми имеет ряд преимуществ. Есть возможность распространять ценную информацию, повышать осведомленность общественности по любым важным вопросам и аспектам. Тем не менее, информационный и технологический прогресс такого масштаба допускает свободное распространение слухов, дезинформации, спекуляций, диффамации. C повсеместным распространением интернета и цифровых технологий по всему миру потребителями цифровой информации, в том числе медицинской, из различных сетевых неавторитетных источников, все чаще становятся пациенты. Ряд авторов из Нью-Йорка в своем исследовании выявили крайне низкое качество медицинской информации и распространенную дезинформацию в интернет-источниках и различных социальных сетях. В то же время информация о злокачественных заболеваниях предстательной железы, мочевого пузыря освещена во многих популярных социальных сетях и Интернетресурсах [1-3].

Активное развитие технологий и алгоритмов искусственного интеллекта (ИИ) стало результатом формирования нового источника альтернативной информации – чат-ботов на основе ИИ. История создания и развития первых виртуальных ассистентов человека связана с введением в практику теста Алана Тьюринга.

Разработанный в 1950 г. тест позволял определить способность машины мыслить. В 1961 г. компания IBM представила первый голосовой (виртуальный) ассистент человека Shoebox. Виртуальный ассистент — это программный агент, который может выполнять задачи для пользователя на основе предоставленной ему информации [4]. Постепенное развитие технологий в этой области сформировало предпосылки для учреждения в 1990 г. премии Лебнера (Loebner prize). Премия присуждается победителям ежегодного конкурса «AI Loebner», в котором алгоритмы и программы на основе ИИ соревнуются в максимально результативном прохождении теста Тьюринга. Термин чат-бот появился в 1994 г., но только за последние 5-10 лет технологический прогресс сформировал чат-боты, как востребованный инструмент поиска информации [4, 5]. Около 1,5 миллиарда человек во всем мире используют чат-боты, причем наибольшая доля приходится на США, Индию, Германию, Великобританию и Бразилию.

Так, у одного из самых популярных чат-ботов на основе ИИ – ChatGPT от компании OpenAI – количество пользователей на конец августа 2023 г. составляет 180,5 миллионов человек. Еще один цифровой инструмент для поиска информации на основе ИИ – Perplexity. Его разработчики не разглашают полную статистику ресурса, однако известно, что 2 миллиона пользователей в месяц активно используют Perplexity в качестве источника информации. Среди основных источников для поиска информации с помощью чат-ботов на основе ИИ также представлены и отечественные разработки: YandexGPT (YaGPT) и GigaChat (Сбербанк). YaGPT интегрирован в виртуальный ассистент Алису, на конец 2023 г. количество пользователей составило более 45 млн. русскоязычных пользователей по всему миру, и с каждым годом это число увеличивается. GigaChat, чат-бот на основе ИИ от компании Сбербанк, был представлен в августе 2023, на сегодняшний день сервис находится в свободном доступе и позиционирует себя как аналог ChatGPT [6].

Современные чат-боты на основе ИИ имеют большой потенциал для предоставления достоверной и исчерпывающей информации на медицинские запросы. Однако качество и точность этой информации, связанной со злокачественными урологическими новообразованиями, полученной при помощи зарубежных и отечественных чат-ботов на основе ИИ, не оценивалась с помощью валидированных инструментов. Кроме того, для оценки качества медицинской информации необходимо выявить статистически значимые поисковые запросы на территории РФ, связанные с наиболее распространенными новообразованиями в урологии: рак предстательной железы (РПЖ), рак мочевого пузыря (РМП). В научной литературе нет данных о качестве и практичности онкоурологической информации, предоставляемой зарубежными и отечественными чат-ботами с ИИ.

На протяжении многих лет основная цель работы коллектива Московского урологического центра на базе ММНКЦ им. С.П. Боткина ДЗМ и кафедры урологии ФГБОУ ВО «Российский университет медицины» Минздрава России была направлена на улучшение результатов диагностики и лечения пациентов с РПЖ и РМП. С этой целью нами проведены собственные клинико-диагностические, эпидемиологические, аутопсийные, экспериментальные и сравнительные исследования, подчеркивающие актуальность заявленной тематики в рамках изучения генерируемой информации чат-ботами на основе ИИ, а также в рамках вопроса осведомленности и информированности населения страны.

МАТЕРИАЛЫ И МЕТОДЫ

Для того, чтобы оценить аналитический сервис поисковых запросов, нами проведено исследование по изучению и анализу данных веб-трафика StatCounter (независимый аналитический портал). Согласно исследованию Интернет-трафика в России, по данным экспертов, более 64% всех поисковых запросов на конец сентября 2023 г. приходилось на поисковой сервис Яндекс (рис. 1).

Учитывая результаты веб-анализа в определении ведущего поискового сервиса среди всего веб-трафика на территории РФ, в своей работе мы использовали данные аналитического сервиса Яндекс Wordstat.

Анализ интернет-трафика в России по данным StatCounter
Рис. 1. Анализ интернет-трафика в России по данным StatCounter, 01.10.2021-30.09.2023
Fig. 1. Analysis of Internet Traffic in Russia According to StatCounter 01.10.2021- 30.09.2023

Мы провели исследование по оценке ответов четырех чат-ботов на основе ИИ, двух зарубежных и двух отечественных, на самые востребованные медицинские запросы, связанные с двумя онкоурологическими заболеваниями с наиболее высокими показателями заболеваемости: РПЖ и РМП. Используя данные аналитического сервиса поисковых запросов, были определены наиболее востребованные Интернет-запросы на территории РФ, связанные с РПЖ и РМП. Также были получены данные о частоте конкретных поисковых запросов в поисковой системе в необходимые периоды времени. Три наиболее часто встречающихся поисковых запроса по каждому онкоурологическому заболеванию были введены с использованием точной формулировки запроса в актуальную общедоступную версию четырех чат-ботов на основе ИИ по состоянию на 9 октября 2023 г.: ChatGPT, Perplexity, YaGPT, GigaChat. Для всех чат-ботов использовались настройки по умолчанию. А история запросов и HTTP-cookie* (* Текстовый файл, содержащий фрагменты данных, которые веб-браузер использует для идентификации устройства и данных о пользователе) были предварительны очищены, чтобы предотвратить искажение результатов на медицинские запросы. По результатам анализа веб-трафика, первое место в статистике поисковых запросов, связанных с РПЖ и РМП, включает в себя одноименные запросы заболеваний, запросы связанные с симптомами РПЖ и РМП, запросы связанные с лечением РПЖ и РМП (табл. 1, рис. 2).

Динамика частотности запросов «рак предстательной железы, рак мочевого пузыря, симптомы рака предстательной железы, симптомы рака мочевого пузыря, лечение рака предстательной железы, лечение рака мочевого пузыря» по месяцам
Рис. 2. Динамика частотности запросов «рак предстательной железы, рак мочевого пузыря, симптомы рака предстательной железы, симптомы рака мочевого пузыря, лечение рака предстательной железы, лечение рака мочевого пузыря» по месяцам, 01.10.2021-30.09.2023
Fig. 2. Dynamics of the frequency of queries «prostate cancer, bladder cancer, prostate cancer symptoms, bladder cancer symptoms, prostate cancer treatment, bladder cancer treatment» by month, 01.10.2021-30.09.2023

Таблица 1. Динамика частотности запросов «рак предстательной железы, рак мочевого пузыря, симптомы рака предстательной железы, симптомы рака мочевого пузыря, лечение рака предстательной железы, лечение рака мочевого пузыря» по месяцам, 01.10.2021-30.09.2023
Table 1. Dynamics of the frequency of queries prostate cancer (Pca), bladder cancer (Bca), prostate cancer symptoms, bladder cancer symptoms, prostate cancer treatment, bladder cancer treatment by month, 01.10.2021-30.09.2023

Период
Period
Число запросов РПЖ
Number of requests for Pca
Число запросов РМП
Number of requests for Вca
Число запросов РПЖ симптомы
Number of requests for Pca symptoms
Число запросов РМП симптомы
Number of requests for Вca symptoms
Число запросов лечение РПЖ
Number of requests for Pca treatment
Число запросов лечение РМП
Number of requests for Вca treatment
Октябрь 21
October 21
31 849 24 668 6 534 3 754 5 737 1 885
Ноябрь 21
November 21
31 442 26 035 6 206 4 159 5 979 2 245
Декабрь 21
December 21
33 347 28 847 6 592 4 308 5 963 2 627
Январь 22
January 22
29 872 25 476 7 069 4 108 5 656 1 885
Февраль 22
February 22
31 294 25 969 6 302 3 879 6 103 2 473
Март 22
March 22
32 314 28 061 6 623 4 028 6 069 2 754
Апрель 22
April 22
34 040 28 224 7 261 4 109 6 086 2 060
Май 22
May 22
29 937 25 480 6 267 4 137 4 747 1 746
Июнь 22
June 22
31 341 25 794 6 014 3 792 5 358 1 856
Июль 22
July 22
29 424 23 838 6 354 4 052 5 523 1 607
Август 22
August 22
29 440 24 289 6 474 3 823 5 249 1 613
Сентябрь 22
September 22
30 213 22 464 5 843 3 409 4 660 1 668
Октябрь 21
October 21
31 605 25 431 6 255 4 203 4 790 1 724
Ноябрь 21
November 21
35 818 27 755 7 052 4 361 5 629 1 854
Декабрь 21
December 21
36 950 27 837 6 743 4 383 5 605 1 939
Январь 22
January 22
33 028 24 199 6 529 4 367 5 563 1 553
Февраль 22
February 22
34 413 27 252 7 001 4 975 6 136 1 622
Март 22
March 22
41 535 30 405 7 767 5 296 6 847 1 891
Апрель 22
April 22
36 607 27 103 6 489 4 316 5 623 1 856
Май 22
May 22
35 004 26 651 6 217 4 418 5 192 1 610
Июнь 22
June 22
34 596 23 783 5 757 3 857 4 912 1 395
Июль 22
July 22
34 640 22 766 5 723 4 041 4 969 1 360
Август 22
August 22
32 555 22 539 5 645 4 003 5 177 1 402
Сентябрь 22
September 22
34 567 24 098 5 750 4 027 5 571 1 566

Для оценки качества медицинской информации, предоставляемой четырьмя чат-ботами на основе ИИ, мы использовали валидированный оценочный инструмент DISCERN. DISCERN – инструмент для оценки качества медицинской информации, разработанный научным коллективом из Оксфордского университета. Система оценки от 1 до 5, где 1 – низкое качество медицинской информации, а 5 – высокое качество [7]. Инструмент был адаптирован нами и переведен на русский язык (рис. 3).

Инструмент для оценки качества письменной медицинской информации DISCERN на русском языке
Рис. 3. Инструмент для оценки качества письменной медицинской информации DISCERN на русском языке (пример)
Fig. 3. DISCERN tool for assessing the quality of written medical information in Russian (example)

Также для качественного анализа данных и экспертной оценки с помощью инструмента DISCERN в нашей работе приняли участие 50 респондентов-онкоурологов со стажем работы на территории РФ ≥10 лет. Участникам экспертной группы было предложено оценить медицинскую информацию, сформированную чат-ботами на основе ИИ в ответ на запросы, связанные с РПЖ и РМП. Полученные ответы от зарубежных и отечественных ИИ-сервисов были анонимизированы, а информация не содержала в себе сведений о том, какой из сервисов сформировал текстовые результаты запросов, для получения объективных и беспристрастных результатов.

РЕЗУЛЬТАТЫ

Нами были получены и проанализированы результаты оценки с помощью шкалы DISCERN (табл. 2, рис. 4). Согласно полученным данным, среднее значение по шкале DISCERN для всех чат-ботов на основе ИИ составило 2,17 [1,1; 3]. В разделах достоверность и качество средние результаты составили 2,57 [1,2; 3,8] и 1,75 [1; 2,2], соответственно. Стоит упомянуть, что все чат-боты при формировании медицинской информации на соответствующие запросы допускали ошибки и неточности в разной степени.

Результаты оценки чат-ботов по шкале DISCERN
Рис. 4. Результаты оценки чат-ботов по шкале DISCERN
Fig. 4. Results of chatbot evaluation according to the DISCERN scale

Лидирующие результаты в общей оценке медицинской информации у чат-бота Perplexity, на втором месте – ChatGPT, GigaCHAT – на третьем месте. YaGPT по результатам анализа занял последнее, четвертое место. Perplexity, согласно средним результатам оценки экспертов, равным 3, занимает первое место в общем рейтинге чат-ботов. По результатам средних значений раздела «качество» оценка сервиса составила 2,2, «достоверность» – 3,8.

Результаты оценки ChatGPT со средними значениями – 2,4; качество – 2; достоверность – 2,8, формируют сервису второе место в общем сравнении.

Таблица 2. Результаты оценки чат-ботов по шкале DISCERN
Table 2. Results of chatbot evaluation according to the DISCERN scale

Среднее значение раздела №1 (достоверность) Среднее значение раздела №1 (качество) Среднее значение
ChatGPT 2,8 2 2,4
Perplexity 3,8 2,2 3
YaGPT 1,2 1 1,1
GigaCHAT 2,5 1,8 2,2

GigaCHAT – отечественный сервис на основе ИИ, по мнению онкоурологов занял третье рейтинговое место с результатами среднего значения – 2,2, оценка качества и достоверности медицинской информации составила 1,8 и 2,5 соответственно.

Наименьшую оценку экспертов получил еще один отечественный сервис YaGPT со средним значением по шкале DISCERN 1,1, оценками качества – 1 и достоверности – 1,2. Общие показатели результатов оценочной шкалы относят чат-бот YaGPT на замыкающую позицию в общем рейтинге с большим отрывом от других чат-ботов.

Также стоит упомянуть о том, что большинство чатботов вне зависимости от оценки по шкале DISCERN призывают пользователей обратиться за консультацией врача.

ОБСУЖДЕНИЕ

Абсолютным большинством экспертов, оценивающих ответы чат-ботов на основе ИИ на самые популярные медицинские запросы по онкоурологии в РФ с помощью шкалы DISCERN, наиболее высоко оценены сервисы Perplexity и ChatGPT. По результатам оценки достоверности и качества медицинской информации, эти чат-боты также сохраняют лидирующие позиции. Оба эти сервиса от двух других конкурирующих чат-ботов на основе ИИ отличает разная программная лингвистическая модель, разные алгоритмы машинного обучения, разный программный код и архитектура работы сервиса. Помимо перечисленных факторов, оба эти сервиса являются зарубежными разработками.

Также большинство экспертов сошлись во мнении, что отечественный чат-бот GigaCHAT формирует, относительно всех чат-ботов, качественную и достоверную медицинскую информацию, сервис не сильно уступает другим по оценкам респондентов и результатам интерпретации оценочных материалов.

YaGPT также является отечественной разработкой среди чат-ботов на основе ИИ. По результатам оценки онкоурологов, сервис занимает последнее место в общем рейтинге. Практически все респонденты отметили отсутствие возможности генерировать медицинскую информацию у данного чат-бота.

Чат-боты на основе ИИ уже сегодня становятся актуальным инструментом для поиска информации, в том числе медицинской. Согласно общей оценке всех сервисов, чат-боты могут стать многообещающим источником медицинской информации. Учитывая специфику статистически значимых онкоурологических запросов на территории РФ, авторы считают важным подчеркнуть, что формирование медицинских ответов должно исключать ошибки и дезинформацию, ответы на такого рода запросы должны быть основаны на принципах доказательной медицины, а вся информация подкреплена ссылками на авторитетные источники. В ходе анализа показано, что для успешной реализации сервиса на основе ИИ, соответствующего вышеперечисленным критериям, важно на этапе создания чат-бота придерживаться следующих основных принципов:

  • наличие экспертных кадров в области машинного обучения и ИИ при создании систем на основе ИИ;
  • поэтапное тестирование сервиса (a и в-релизы) при экспертной поддержке специалистов здравоохранения;
  • стандартизация алгоритмов и генерируемых данных на соответствующие медицинские запросы;
  • строгий отбор информации и критический анализ базы данных обучения работоспособной модели ИИ;
  • непрерывное совершенствование алгоритмов машинного обучения и работы сервисов на основе ИИ.

ЗАКЛЮЧЕНИЕ

На сегодняшний день чат-боты на основе ИИ являются перспективным и востребованным направлением. В связи с развитием технологий и повсеместным распространением программных решений, все больше людей обращается к подобным сервисам в поисках авторитетной информации на медицинское запросы.

Несмотря на бурное развитие технологий на основе ИИ в последние годы, очевидно, что на текущем этапе не все чат-боты могут предоставлять корректную медицинскую информацию, особенно по таким специфическим темам, как урология и онкология. Это является важным вызовом, так как недостоверные данные и дезинформация могут привести к неблагоприятным последствиям для здоровья пациентов, особенно если они полагаются на чат-боты в поисках медицинских рекомендаций.

Авторы полагают, что в ближайшее время ИИ-ассистенты в медицине могут стать надежным поисковым инструментом, но их точность и качество данных должны быть на высоком уровне. Разумеется, необходима дальнейшая работа над совершенствованием архитектуры ИИ и внутренних алгоритмов, особенно в отечественных ИИ-решениях, чтобы они составляли конкуренцию зарубежным решениям и предоставляли надежную информацию. Кроме того, стоит учитывать необходимость строгого регулирования и сертификации подобных технологий в медицинской сфере. Разработка стандартов и рекомендаций для интеграции чат-ботов в медицинские информационные системы определит вектор развития ИИ-решений на ближайшие десятилетия и окажет помощь врачам и пациентам в диагностике и принятии решений.

Таким образом, потенциал чат-ботов на основе ИИ в медицине остается значительным. Безопасное внедрение таких решений в систему здравоохранения требует как технологического прогресса, так и тщательного регулирования предоставляемой информации. Развитие отечественных ИИ-решений также требует особого подхода для создания эффективного и безопасного инструмента для российских пользователей.

ЛИТЕРАТУРА

  1. Xu AJ, Taylor J, Gao T, Mihalcea R, Perez-Rosas V, Loeb S. TikTok and prostate cancer: misinformation and quality of information using validated questionnaires. BJU Int 2021;128:435-7. https://doi.org/10.1111/bju.15403.
  2. Xu AJ, Myrie A, Taylor JI, Matulewicz R, Gao T, Pérez-Rosas V, et al. Instagram and prostate cancer: using validated instruments to assess the quality of information on social media. Prostate Cancer Prostat Dis 2022;25:791-3. https://doi.org/10.1038/s41391-021-00473-7.
  3. Loeb S, Reines K, Abu-Salha Y, French W, Butaney M, Macaluso JN Jr, et al. Quality of bladder cancer information on YouTube. Eur Urol 2021;79:56-9. https://doi.org/10.1016/j.eururo.2020.09.014.
  4. Малыгина Л.Е. Чат-боты и искусственный интеллект: перспективы развития телевизионного промодискурса. Актуальные проблемы филологии и педагогической лингвистики 2018;32(4):47-54. [Malygina L.E. Chatbots and artificial intelligence: prospects for the development of television promotional discourse. Aktualnye problemi filologii i pedagogicheskoi lingvistiki = Current Issues in Philology and Pedagogical Linguistics 2018;32(4):47-54. (In Russian)]. https://doi.org/10.29025/2079-6021-2018-4(32)-47-54.
  5. Floridi L, Taddeo M, Turilli M. Turing’s Imitation Game: Still an Impossible Challenge for All Machines and Some Judges – An Evaluation of the 2008 Loebner Contest. Minds & Machines 2009;19:145-50. https://doi.org/10.1007/s11023-008-9130-6.
  6. Pugachev AA, Kharchenko AV, Sleptsov NA. Transforming the future: a review of artificial intelligence models. RUDN Journal of Studies in Literature and Journalism 2023;28(2):355-367. https://doi.org/10.22363/2312-9220-2023-28-2-355-367.
  7. Charnock D, Shepperd S, Needham G, Gann R. DISCERN: an instrument for judging the quality of written consumer health information on treatment choices. J Epidemiol Community Health 1999;53:105-11. https://doi.org/10.1136/jech.53.2.105.
Прикрепленный файлРазмер
Скачать статью1.3 Мб
искусственный интеллект; чат-боты; онкоурология; медицинская информация; рак предстательной железы; рак мочевого пузыря; качество данных; достоверность

Readera - Социальная платформа публикаций

Crossref makes research outputs easy to find, cite, link, and assess