Д.Г. Альтман, К.Ф. Шульц, Д. Мохер, М. Эггер, Ф. Давидофф, Д. Элбурн, П.К. Гёче, Т. Ланг от группы CONSORT
(Douglas G. Altman, Kenneth F. Schulz, David Moher, Matthias Egger, Frank Davidoff, Diana Elbourne, Peter C. Gøtzsche, Thomas Lang, for the CONSORT Group)
Перевод Н. Чипигиной
В настоящее время существуют многочисленные доказательства, свидетельствующие о недостаточном качестве отчетов о результатах рандомизированных контролируемых испытаний (РКИ). Недавно проведенные методологические исследования указывают на то, что недостатки отчетной документации и дизайна сопряжены с систематическими ошибками при оценке эффектов лечения. Такие систематические ошибки наносят серьезный ущерб РКИ, главным отличительным достоинством которых является именно устранение систематических ошибок. Систематические ошибки при РКИ отражают недостатки научного подхода, а это, в свою очередь, несет угрозу нарушения надлежащих этических норм.
Для улучшения качества представления результатов РКИ группой ученых и редакторов было разработано заявление CONSORT (Consolidated Standards of Reporting Trials — Единые стандарты представления результатов испытаний). В заявлении представлены перечень вопросов и схема проведения РКИ, которые могут быть использованы авторами при составлении отчетов о результатах. Многие ведущие медицинские журналы и крупные международные редакционные группы признали стандарты CONSORT. Эти стандарты облегчают критическую оценку и интерпретацию полученных результатов, обеспечивая авторов руководством, как улучшить отчеты об испытаниях.
Цель этой разъясняющей и уточняющей статьи — способствовать более широкому применению, пониманию и распространению стандартов CONSORT. В ней дается разъяснение смысла и обоснование применения каждого из пунктов, включенных в перечень вопросов. Для большинства пунктов приводится хотя бы один пример правильного представления результатов и, при возможности, библиографические ссылки на соответствующие эмпирические исследования. Также включены несколько примеров блок-схем проведения РКИ.
Заявление CONSORT как разъясняющий и уточняющий документ, а также соответствующий веб-сайт (http://www.consort-statement.org) должны быть полезными источниками для усовершенствования отчетов о результатах рандомизированных испытаний.
Ann Intern Med. 2001;134:663-694 www.annals.org
«Рандомизированные контролируемые испытания (РКИ) — превосходная технология, пригодная для широкого применения, но, как и все остальное, имеющая свои недостатки. Когда людям приходится проводить наблюдения, всегда существует вероятность систематических ошибок» [1].
При хорошем планировании и правильно выполненной рандомизации контролируемые испытания обеспечивают наилучшие доказательства эффективности лечебных вмешательств*, но при неадекватных методологических подходах такие испытания ассоциированы с преувеличенными оценками эффектов лечения [2-5]. Систематическое отклонение* результатов при плохой структуре испытания и недостаточном качестве отчетов может привести к принятию ошибочных решений на всех уровнях оказания медицинской помощи: от лечения конкретного пациента до разработки национальной политики в области здравоохранения.
Критическая оценка качества клинических испытаний возможна только при условии, если в опубликованных отчетах представлены точные и подробные описания структуры, выполнения и анализа данных РКИ. Однако такие отчеты, отнюдь не являясь прозрачными, часто представляют неполную информацию о РКИ [6-9], что усугубляет проблемы, возникающие из-за плохой методологии [10-15].
Неполное и неточное представление результатов в отчетах
Во многих обзорных статьях были отмечены недостатки опубликованных отчетов о результатах клинических испытаний. Например, информация о том, применялся ли слепой метод при оценке исходов, была представлена лишь в 30% из 67 отчетов о РКИ, опубликованных в четырех ведущих медицинских журналах в 1979 и 1980 годах [16]. Аналогично, только в 27% из 45 отчетов, опубликованных в 1985 году, было дано определение первичной конечной точки* испытания [14], и только в 43% из 37 испытаний с отрицательными результатами, опубликованных в 1990 году, сообщалось о расчете размера выборки* [17]. Отчеты о РКИ не только часто бывают неполными, но иногда и неточными. Из 119 сообщений, в которых утверждалось, что данные обо всех участниках* были включены в окончательный анализ в составе тех групп, к которым они были исходно предписаны (анализ «intention to treat» — «анализ, проводимый из допущения, что все больные получили предписанное вмешательство»*), в 15 (13%) пациентов исключали или не анализировали всех пациентов в соответствии с исходным распределением [18]. Во многих обзорах было также показано, что недостатки часто встречаются в отчетах о результатах РКИ, опубликованных в специализированных журналах [19-29], а также в журналах, изданных не на английском языке [30, 31].
Правильная рандомизация* устраняет систематические ошибки* и является ключевым компонентом высококачественных РКИ [32]. Успешная рандомизация возможна при двух условиях: генерации* непредсказуемой последовательности распределения участников и маскировании* этой последовательности от исследователей, которые проводят включение больных (таблица 1) [2, 21]. К сожалению, информация о методах, использованных для распределения больных по группам вмешательства, как правило, представляется недостаточно. Например, анализ 206 сообщений, которые были опубликованы в журналах по акушерству и гинекологии как рандомизированные контролируемые испытания, показал, что по меньшей мере 5% из них не были по-настоящему рандомизированными [21]. По-видимому, эта оценка является заниженной, так как в большинстве современных публикаций не содержится адекватной информации о методе распределения участников [19, 21, 23, 25, 30, 39].
Совершенствование представления результатов рандомизированных контролируемых испытаний: заявление CONSORT
DerSimonian et al. [16] предположили, что "редакторы журналов могли бы значительно улучшить публикации результатов клинических испытаний, предоставив авторам перечень пунктов, строгого изложения которых они ожидают". В начале 90-х годов двумя группами редакторов журналов, исследователей и специалистов по методологии были независимо опубликованы рекомендации по составлению отчетов об испытаниях [40, 41]. Позднее была опубликована редакционная статья D.Rennie [42], в которой он призвал эти две группы встретиться и разработать единые рекомендации. Результатом этого стало заявление CONSORT (Consolidated Standards of Reporting Trials — Единые стандарты представления результатов испытаний) [43].
Заявление CONSORT (или просто CONSORT для удобства изложения) включает в себя перечень основных вопросов, которые должны быть отражены в отчетах о результатах РКИ, и схему документального представления динамики числа участников на разных этапах испытания (схема проведения исследования). Заявление CONSORT ориентировано, в первую очередь, на испытания с двумя параллельными группами сравнения, но большинство его положений также применимы и для исследований с другой структурой, таких как исследования эквивалентности, факторные, кластерные, а также перекрестные испытания. В настоящее время готовятся модификации перечня стандартов CONSORT для представления результатов испытаний с этими и другими вариантами дизайна.
Цель CONSORT — облегчить критическую оценку и интерпретацию РКИ путем обеспечения авторов руководством о том, как улучшить представление результатов их исследований. Кроме того, рецензенты и редакторы журналов могут использовать CONSORT для облегчения выделения исследований, отчеты о которых трудно интерпретировать или в отчетах которых имеется большая вероятность систематических ошибок. Однако это не означает, что стандарты CONSORT должны использоваться в качестве инструмента оценки качества исследований. Скорее, содержание заявления CONSORT нацелено на повышение достоверности* и обобщаемости (применимости)* результатов испытаний (иначе — внутренней и внешней валидности* испытаний). В отчеты также должны быть включены многие разделы, прямо не указанные в перечне CONSORT, например, информация об одобрении исследования этическим комитетом, получении информированного согласия от участников, наличии Комитета по защите данных и мониторингу, а также источниках финансирования. Кроме того, должны быть представлены надлежащим образом и другие аспекты испытаний, такие как информация, необходимая для анализа эффективности затрат [44-46] и оценки качества жизни [47].
Пересмотренное заявление CONSORT: разъяснения и уточнения
С момента публикации в 1996 году стандарты CONSORT признаны большим числом журналов [48-51] и рядом сообществ редакторов, включая Международный комитет редакторов медицинских журналов, известный как Ванкуверская группа (Vancouver Group) [52]. Накапливается все больше доказательств того, что с введением стандартов CONSORT улучшилось качество сообщений о результатах РКИ [53, 54]. Однако CONSORT — это продолжающийся проект, и стандарты периодически пересматривается [3]. Вариант заявления CONSORT 1996 года вызвал много замечаний и некоторую долю критики [43]. Так, C.L. Meinert [55] указал, что в документе недостаточно ясно определены используемые термины, а информация о числе участников, представленная в схеме проведения РКИ, является неполной. Работа по пересмотру стандартов CONSORT началась в 1999 году, обновленный перечень вопросов приведен в таблице 2, а пересмотренная блок-схема проведения РКИ — на рисунке 1 [56 -58].
Во время работы над обновленным вариантом стало очевидным, что разъяснение и уточнение основных принципов CONSORT поможет исследователям и другим лицам при написании или оценке отчетов об испытаниях. В данной статье будут рассмотрены логическое обоснование и научная основа каждого из пунктов перечня (таблица 2) с примерами правильного представления результатов РКИ в ранее опубликованных отчетах (дополнительные примеры см. на сайте www.consort-statement.org). В этих примерах для упрощения были удалены ссылки авторов на другие публикации; однако при необходимости источники информации всегда должны цитироваться, как, например, для поддержки методологических подходов, еще не получивших распространения. При возможности в статье представляются результаты соответствующих тематике эмпирических исследований. Более широкое обсуждение методологических аспектов предлагается во множестве превосходных книг о клинических испытаниях [59-61].
Для удобства изложения в статье используются термины "лечение" и "больной", хотя нельзя не признать, что не все вмешательства, оценивающиеся в РКИ, формально являются лечением, и не все участники испытаний являются больными.
Перечень вопросов
Название и резюме
Пункт 1. Каким способом участники были распределены в группы вмешательства (например, «случайным распределением», «рандомизированно», «в случайном порядке»)
Примеры
Название: «Уменьшение курения с помощью ингаляционной заместительной никотинотерапии: двойное слепое рандомизированное клиническое испытание с оценкой эффективности и безопасности» [62].
Резюме: «Структура исследования: рандомизированное, двойное слепое, плацебо-контролируемое испытание» [63].
Разъяснение
Возможность найти соответствующую публикацию в электронной базе данных зависит в значительной степени от того, как она была проиндексирована. Публикация может быть не внесена в базу данных MEDLINE Национальной медицинской библиотеки как отчет о РКИ, если авторы не сообщают об этом явно. Для обеспечения надлежащей индексации исследования как РКИ авторы должны четко указать в резюме своего сообщения, что участники испытания были распределены в группы сравнения рандомизированно. Возможны следующие формулировки: «участники были случайно распределены в группы…», «выбор лечения был рандомизированным» или «участники были отнесены к группам вмешательства с помощью случайного распределения». Для обеспечения быстрой идентификации публикации как отчета о РКИ также настоятельно рекомендуется использовать термин «рандомизированное» в её названии.
В середине 90-х годов электронный поиск в базе данных MEDLINE позволял получить лишь около половины всех РКИ, имеющих отношение к определенной теме [64]. Этот недостаток был устранен, в частности, благодаря работе Кокрановского сотрудничества, участниками которого к 1999 году было выявлено почти 100 000 РКИ, которые ранее не были проиндексированы в качестве РКИ в MEDLINE. Индексация этих публикаций была соответственно изменена [65]. Следование этим рекомендациям должно улучшить точность индексации медицинских публикаций в будущем.
При необходимости сжато изложить содержание статьи рекомендуется использовать структурированные тезисы, которые обеспечивают читателям стандартизированную информацию по разделам, касающимся структуры, проведения и анализа данных испытания [66]. Некоторые исследования показали, что структурированные тезисы имеют более высокое качество по сравнению с традиционными описательными [67] и облегчают читателям получение информации [68].
Введение
Пункт 2. Научные предпосылки и обоснование целесообразности исследования
Пример
«Туннельный синдром запястного канала обусловлен компрессией срединного нерва в запястном канале и является частой причиной боли в руке, особенно у женщин. Местное введение кортикостероидов является одним из рекомендованных вариантов лечения этого синдрома.
Одна из методик заключается в инъекции кортикостероидов проксимальнее запястного канала (но не в сам канал). Обоснованием для введения препаратов в этом месте служит то, что на ладонной стороне предплечья рядом с запястьем нередко наблюдается отек, который может способствовать сдавливанию срединного нерва. Кроме того, при инъекции кортикостероидов в этом месте риск повреждения срединного нерва меньше, чем при введении в узкий запястный канал. Целесообразность использования лигнокаина (лидокаина) вместе с кортикостероидами имеет двойственное обоснование: инъекция становится безболезненной, а снижение чувствительности после инъекции подтверждает правильность выполнения процедуры.
В ходе двойного слепого рандомизированного испытания было изучено, во-первых, исчезают ли симптомы заболевания после введения кортикостероидов проксимальнее запястного канала, и во-вторых, у какой части больных при последующем наблюдении после такого лечения не было рецидива симптомов заболевания» [69].
Разъяснение
Как правило, раздел «Введение» состоит из свободно изложенного неструктурированного текста, в котором авторы объясняют научные основы или смысл исследования, а также научное обоснование его целесообразности. Обоснованием может быть необходимость разрешения научного медицинского вопроса (например, сравнения биодоступности двух лекарственных форм препарата или оценки возможного влияния препарата на функцию почек) или потребность практической медицины (например, разработка клинических рекомендаций к практическому применению путем сопоставления клинических эффектов двух альтернативных методов лечения). Авторы должны привести все имеющиеся доказательства преимущественного эффекта любого активного вмешательства, включенного в испытание. Кроме того, во введении следует предложить правдоподобное объяснение возможного механизма действия исследуемого вмешательства, особенно если ранее оно применялось редко или вообще не применялось [70].
В Хельсинкской декларации говорится, что биомедицинские исследования с участием людей должны основываться на глубоком знании научной литературы [71]. Это означает, что неэтично подвергать людей неоправданному риску при испытании. Показано, что некоторые клинические испытания были ненужными, поскольку вопросы, которые в них рассматривались, уже были решены или могли быть решены при систематическом обзоре существующей литературы [72]. Таким образом, во введении должна быть обоснована необходимость в проведении нового испытания. В идеале, введение должно содержать ссылку на систематический обзор предыдущих аналогичных испытаний или указание на отсутствие таких испытаний [73].
В первой части введения авторы должны описать проблему, которая вызвала необходимость исследования. Характер, масштаб и серьезность этой проблемы должны обеспечить предпосылки и веские основания для проведения исследования. Такая информация часто отсутствует в отчетах о РКИ. Далее авторы должны кратко описать подходы, которые были предприняты к широкому изучению данной проблемы. Также может быть целесообразным во введении сформулировать цели* испытания (пункт 5).
Методы
Пункт 3a. Критерии включения участников [см. начало, табл.2 РФК 2010;6(4):613]
Пример
«…кандидатами для включения в исследование были женщины в возрасте от 20 до 44 лет с регулярным менструальным циклом, обращавшиеся для установки ВМПУ [внутриматочных противозачаточных устройств] в Центр благополучия семьи Национальной больницы Kenyatta. Они не допускались к включению в исследование при наличии любого из следующих критериев: 1) внематочная беременность в анамнезе, 2) беременность в течение предшествующих 42 дней, 3) лейомиома матки, 4) активное воспалительное заболевание органов малого таза, 5) злокачественные заболевания шейки матки или эндометрия, 6) аллергия на тетрациклины, 7) применение любых антибиотиков в течение предшествующих 14 дней или инъекций длительно действующего пенициллина, 8) нарушенный иммунный ответ на инфекцию или 9) место жительства за пределами города Найроби, невозможность последующего наблюдения из-за отсутствия точного адреса или нежелание являться повторно для последующего наблюдения» [74].
Разъяснение
Каждое РКИ решает вопрос, касающийся определенной популяции людей с определенным заболеванием или состоянием, представляющим интерес для изучения. Исследователи обычно ограничивают эту категорию населения, применяя критерии включения* и проводя испытание в одном или нескольких медицинских центрах. Обычно к критериям включения относятся возраст, пол, клинический диагноз, а также сопутствующие заболевания; критерии исключения часто применяются в целях обеспечения безопасности пациентов. Критерии включения должны быть четко определены. При необходимости должны быть рассмотрены все возможные неточности в диагнозе у пациентов, поскольку они могут отрицательно повлиять на статистическую мощность* испытания [75]. Разделение критериев включения и исключения обычно не является необходимым [76].
Для того чтобы читатели могли оценить внешнюю валидность (обобщаемость) результатов РКИ (пункт 21), должна быть представлена детальная характеристика участников испытания и условий, в которых оно проводилось. Особое значение имеет характеристика метода набора* участников, как, например, обращение по направлению врача или самостоятельное обращение (по рекламным объявлениям). Так как критерии соответствия применяются еще до рандомизации, они не влияют на внутреннюю валидность (достоверность) испытания, но могут сказаться на внешней валидности (обобщаемости).
Несмотря на важность критериев включения, они зачастую не характеризуются должным образом. Например, критерии включения не были указаны в 25% из 364 публикаций результатов РКИ в хирургии [77]. В восьми опубликованных РКИ, результаты которых вызвали публикацию клинических предупреждений Национальными институтами здравоохранения, в среднем применялся 31 критерий включения; однако в журнальных статьях было упомянуто только 63% из этих критериев, а в клинических предупреждениях — только 19% [78]. Число критериев включения, используемых при испытаниях у больных раком, заметно возросло в период с 1970 по 1990 год [76].
Пункт 3b. Условия и место проведения испытания и получения данных
Пример
«Набор добровольцев для участия в испытании проводился на участках четырех врачей общей практики и в оториноларингологическом отделении для амбулаторных больных больницы Northwick Park в Лондоне. Врачи, назначавшие лечение, были знакомы с принципами гомеопатии, но не имели опыта гомеопатической иммунотерапии» [79].
Разъяснение
Условия и место проведения влияют на внешнюю валидность испытания. Лечебно-профилактические учреждения существенно различаются по принципам организации, квалификации персонала, ресурсам и исходному риску исследуемого заболевания в этой местности. На внешнюю валидность исследования могут также воздействовать климат и другие физические влияния, экономические, географические и социально-культурные факторы окружающей среды.
Чтобы читатели могли оценить внешнюю валидность исследования, авторы должны сообщать о количестве и типе учреждений и медицинских работников, участвующих в проведении испытания. Должны быть представлены описания учреждений, в которых проводилось исследование, и их расположение с указанием страны, города и непосредственных условий оказания медицинской помощи (например, территориальная медицинская служба, врачебный кабинет, клиническая больница, стационар). В частности, должно быть указано, проводилось ли испытание в одном или в нескольких центрах ("многоцентровое испытание"). Описание должно содержать достаточно информации, чтобы читатель мог судить о применимости результатов РКИ в условиях его практики. Авторы обязаны представлять любую дополнительную информацию об условиях и месте проведения испытания, относящуюся к факторам, способным воздействовать на результаты наблюдения, например о проблемах транспортировки, которые могли ограничить участие пациентов в испытании.
Пункт 4. Точное описание вмешательств, которые были запланированы в каждой из групп, как и когда они проводились
Пример
«Больные псориатическим артритом рандомизированно получали плацебо или этанерцепт (Enbrel) в дозе 25 мг подкожно два раза в нед в течение 12 нед. Этанерцепт поставлялся в виде стерильного лиофилизированного порошка во флаконах, содержащих 25 мг этанерцепта, 40 мг маннитола, 10 мг сахарозы и
1-2 мг трометамина. Плацебо поставлялось в таком же виде во флаконах с порошком такого же состава, за исключением этанерцепта. Перед инъекцией содержимое флакона растворялось в 1 мл стерильной воды для инъекций» [80].
Разъяснение
Авторы должны подробно описывать каждое вмешательство, в том числе вмешательства, применявшиеся в группе контроля. Необходимо сообщать о характеристиках плацебо и о том, каким образом плацебо было оформлено для маскирования. Особенно важно детально описывать проводившееся в группе контроля "стандартное лечение" и те вмешательства, которые на самом деле являются комбинацией вмешательств.
В некоторых случаях большое значение имеет характеристика лиц, которые осуществляли предписанное вмешательство, поскольку их особенности могут составлять часть вмешательства. Например, при хирургических вмешательствах в дополнение к описанию самой хирургической процедуры может быть необходимым сообщить о числе оперировавших хирургов, их профессиональной подготовке и практическом опыте [81].
При необходимости, особенно в тех случаях, когда проводились многокомпонентные вмешательства, авторы должны указать сроки начала вмешательства и его продолжительности.
Пункт 5. Конкретные цели исследования и проверяемые гипотезы
Пример
«В данном исследовании проверялась гипотеза о том, что тактика активного ведения первых родов: 1) снижает частоту кесарева сечения, 2) снижает частоту затяжных родов; 3) не влияет на ощущение удовлетворения роженицы опытом рождения» [82].
Разъяснение
Цели — это те вопросы, для ответа на которые запланировано испытание. Они часто направлены на оценку эффективности конкретного лечебного или профилактического вмешательства. Гипотезы* являются предположениями, которые проверяются для облегчения решения целей исследования.
Гипотезы более определенны, чем цели, и пригодны для точной статистической оценки. Но на практике цели и гипотезы не всегда легко различимы, как видно из представленного выше примера.
Имеющиеся данные свидетельствуют о том, что в большинстве сообщений о РКИ предоставляется достаточная информация о целях исследования и проверяемых гипотезах [24].
Пункт 6a. Четкое определение первичных и вторичных исходов и критериев их оценки
Пример
«Первичной конечной точкой оценки эффективности лечения псориаза была доля пациентов, у которых за 12 недель было достигнуто уменьшение активности псориаза на 75% от исходного уровня при оценке по индексу PASI [psoriasis area and severity index — индекс распространенности и тяжести псориаза]. Дополнительно проводился анализ изменения оценки по шкале PASI в процентах и улучшения состояния псориатических поражений кожи, на которые проводилось воздействие» [80].
Разъяснение
Все РКИ оценивают «переменные ответа», или иначе исходы, частота возникновения которых сравнивается в группах. В большинстве испытаний учитываются сразу несколько клинических исходов, некоторые из которых представляют больший интерес, чем другие. Мерой оценки первичного исхода является предварительно определенный клинический исход, который имеет наибольшее значение и, как правило, используется для расчета размера выборки (пункт 7). Некоторые испытания могут иметь более одного первичного исхода, однако выделение более одного или двух первичных клинических исходов вызывает проблемы интерпретации данных, связанные с проведением множественных сравнений* (см. пункты 18 и 20), и поэтому не рекомендуется. Первичные исходы должны быть четко перечислены в отчете о результатах РКИ. Другие результаты, также представляющие интерес, относятся к вторичным клиническим исходам. Может быть несколько вторичных клинических исходов, которые часто включают в себя непредвиденные или непредусмотренные эффекты изучаемых вмешательств
(пункт 19).
Все меры оценки исходов, как первичных, так и вторичных, должны быть перечислены и полностью определены. Когда частоту развития клинического исхода оценивают неоднократно в нескольких моментах времени после рандомизации, авторы должны указать предварительно определенный момент времени, представляющий первостепенный интерес. Иногда бывает полезно указать, кто оценивал клинические исходы (например, если для этого требуются специальные навыки) и сколько специалистов проводили оценку исходов.
Многие заболевания имеют множество возможных клинических исходов, для оценки которых можно применить различные шкалы оценки или другие способы измерения. Когда это возможно и необходимо, следует выбирать ранее разработанные и уже проверенные шкалы оценки или согласованные рекомендации экспертов (83, 84) как для повышения качества измерения, так и для облегчения сравнения с аналогичными исследованиями. Например, использование способов оценки качества жизни с подтвержденной достоверностью, скорее всего, может улучшить представление результатов соответствующих исследований [85]. Авторы должны указать источники, в которых описана шкала оценки, и кратко охарактеризовать принципы её применения.
В 196 РКИ, рассматривавших эффективность нестероидных противовоспалительных препаратов при ревматоидном артрите, было оценено более 70 клинических исходов [28]. В 2 000 РКИ, проведенных у больных шизофренией, использовались 640 различных инструментов оценки, 369 из которых применялись впервые [33]. Изучение 149 из этих 2 000 испытаний показало, что использование ранее не описанных в литературе шкал стало источником систематических ошибок. При испытаниях нефармакологических методов лечения около трети всех заключений о превосходстве того или иного метода были сделаны на основании оценки с использованием ранее не опубликованных шкал и не появились бы, если бы авторы применяли опубликованные проверенные шкалы оценки [86]. О подобных фактах сообщается и в других публикациях [87,88].
Пункт 6b. При возможности — определение любых методов, применявшихся для повышения точности оценки (например, многократных измерений, обучения исследователей, оценивающих клинические исходы)
Примеры
«Комитет «клинической оценки исхода», применяя слепой метод, оценил все клинические события и единогласно утвердил конечные точки исследования» [89].
«У больных с фибрилляцией предсердий специально обученные медицинские сестры измеряли артериальное давление (диастолическую фазу 5). Измерение проводилось в положении сидя, после отдыха, в течение как минимум пяти минут, с применением электронных аускультативных аппаратов измерения артериального давления Copal UA-251 или Takeda UA-751 (Andrew Stephens, Brighouse, West Yorkshire — Эндрю Стивенс, Брайхаус, Западный Йоркшир) либо сфигмоманометром автоматической калибровки Hawksley (Hawksley, Lancing, Sussex — Хоксли, Лансинг, Суссекс). Результаты первого измерения не учитывались. В исследовании было использовано среднее значение следующих трех последовательных показаний (при коэффициенте вариации между ними менее 15%) с дополнительными показаниями в случае необходимости» [90].
Разъяснение
Авторы должны предоставить полную информацию о том, как оценивались первичные и вторичные клинические исходы испытания и были ли предприняты какие-либо конкретные шаги для повышения достоверности оценки.
Некоторые клинические исходы оценить легче, чем другие. Оценка частоты летальных исходов (по любой причине), как правило, не представляет затруднений, в то время как оценить изменения артериального давления, проявлений депрессии или качества жизни значительно труднее. Для улучшения качества измерений могут быть использованы специальные стратегии. Например, оценка артериального давления более достоверна при проведении неоднократной регистрации давления и применении сфигмоманометра с функцией автоматической калибровки. Вероятность систематической ошибки, связанной с измерениями, уменьшается при применении слепого метода, когда ни участник, ни исследователь, проводящий оценку клинических исходов, не знают о том, какое вмешательство было назначено (пункт 11а). Если при РКИ требуется использовать редко применяемые необычные методы измерений, может быть полезной предварительная стандартизированная подготовка лиц, которые будут проводить такие измерения.
Пункт 7A. Как был рассчитан размер выборки
Примеры
«Мы исходили из предположения, что комбинированный показатель частоты случаев тромбоза глубоких вен с появлением симптомов тромбоэмболии, легочной эмболии и летальных исходов может составить 4% в группе плацебо и 1,5% в группе адрепарина натрия. На основании того, что для выявления статистически значимых различий (р<0,05, при двухстороннем тесте) необходимая статистическая мощность (чувствительность) исследования должна составлять 0,9, в каждую исследуемую группу было необходимо включить 976 больных. Чтобы компенсировать возможное выбывание пациентов, было запланировано включить в каждую группу 1000 пациентов» [91].
«Для того чтобы исследование с 85% вероятностью выявило разницу между двумя группами сравнения в 5 баллов при оценке общего состояния по шкале SF-36 (Short Form-36) как статистически значимую (р=0,05 при двустороннем тесте) с допущением стандартного отклонения 20 и долей выбывающих из наблюдения участниц 20%, требовалось включить в каждую группу по 360 женщин (всего 720 участниц)» [92].
Разъяснение
Исходя из научных и этических соображений, размер выборки исследования должен быть тщательно спланирован с балансом клинических и статистических соображений. В идеале исследование должно быть достаточно большим, чтобы обеспечить высокую вероятность (статистическую мощность) определения как статистически значимого, клинически важного различия определенного размера (если такое различие существует). Размер эффекта, который считается клинически важным, обратно пропорционален размеру выборки, необходимой для его выявления, то есть чем меньше различия, тем больше должна быть выборка. При расчете размера выборки учитываются: 1) ожидаемая частота исходов в каждой группе (при предполагаемом клинически значимом различии между группами сравнения), 2) уровень α-ошибки (ошибки I типа), 3) статистическая мощность (чувствительность) исследования (или уровень β-ошибки [ошибки II типа]) и 4) стандартное отклонение при регистрации непрерывных результатов [93].
Авторы должны указать, как рассчитывался размер выборки. Если расчет статистической мощности исследования проводился общепринятым методом, авторы должны определить первичный исход, который был взят за основу при расчете (пункт 6а), указать все количественные показатели, используемые при расчетах, и расчетный размер выборки в каждой группе сравнения. Предпочтительно привести ожидаемые результаты для каждой из групп, а не только размер ожидаемых различий между группами. Должна быть представлена подробная информация о поправках, сделанных с учетом выбывания участников в ходе исследования.
В некоторых испытаниях для помощи в принятии решения о целесообразности продления набора участников используются промежуточные анализы (пункт 7b). Если фактический размер выборки по каким-либо другим причинам отличается от первоначально рассчитанного, то причина должна быть объяснена (например, из-за трудностей набора участников или пересмотра целевого размера выборки).
При исследованиях с малым размером выборки нередко делается ошибочный вывод об отсутствии различий между группами, хотя было исследовано слишком мало пациентов для такого заключения [94]. Обзоры литературы однозначно отмечают, что значительная доля РКИ имеет слишком низкую статистическую мощность для выявления клинически значимых эффектов лечения [17, 95]. На самом деле, возможны небольшие, но клинически ценные истинные различия между группами вмешательства, которые могли бы быть статистически подтверждены при более крупных испытаниях [96]. В 196 РКИ при артритах средний размер выборки составлял 54 больных [28], в 73 РКИ при кожных заболеваниях — 46 больных [8], в 2000 РКИ при шизофрении — 65 больных [39]. Как показывают многие обзоры, мало кто из авторов сообщает, как они определяли размер выборки [8, 14, 25, 39].
Мало смысла в расчете статистической мощности после получения результатов исследования, так как её достаточно точно отражают доверительные интервалы* (пункт 17) [97].
Пункт 7B. Обоснование всех промежуточных анализов и правил прекращения исследования при необходимости
Примеры
«Результаты этого исследования анализировались каждые шесть месяцев, чтобы можно было прекратить исследование на ранней стадии, как только будут получены достоверные результаты (как это и произошло в действительности)» [98].
«В ходе исследования были проведены два промежуточных анализа. Уровни статистической значимости в целом соответствовали значению P=0,05 и были рассчитаны в соответствии с правилом прекращения исследований (правило O'Brien-Fleming). При окончательном анализе использовали Z-критерий, равный 1,985, с соответствующим значением р, равным 0,0471» [99].
Разъяснение
Во многих исследованиях набор участников продолжается в течение длительного периода. Если в ходе исследования выявляются особенно хорошие или, напротив, очень плохие результаты при применении какого-либо вмешательства, может возникнуть необходимость досрочного прекращения исследования по этическим соображениям. Такое решение может быть принято на основании промежуточного анализа по мере накопления данных. Однако многократные промежуточные статистические анализы появляющейся информации без соответствующей коррекции могут привести к ошибочным результатам и неправильной их интерпретации [100]. Так, если данные исследования по мере их накопления анализируются в пяти промежуточных анализах, общая частота ложноположительных результатов составляет почти 19%, а при единственном анализе всех данных — около 5%.
Для коррекции множественных промежуточных анализов применяют несколько методов последовательной статистической обработки данных [101-103]; их использование должно быть предварительно оговорено в протоколе испытания. В ходе каждого промежуточного анализа с помощью этих методов проводится сравнение данных в группах, при этом очень низкие значения P свидетельствуют о статистической значимости различий. Некоторые исследователи используют для принятия решений [104] значения P, полученные при промежуточном анализе, тогда как другие рассматривают их в качестве одного из правил прекращения исследований* (имея в виду прекращение исследования, когда наблюдаемое значение P становится меньше определенного критического уровня).
Авторы должны сообщить о промежуточных анализах данных, их количестве, применявшихся статистических методах (включая любые правила прекращения исследования) и времени, когда они были запланированы (до начала испытания или позднее). Эта информация часто отсутствует в опубликованных отчетах о результатах РКИ [14].
Пункт 8. Метод генерации случайной последовательности распределения
Пример
«Независимые фармацевты отпускали ингаляторы с активным веществом или с плацебо рандомизированно в соответствии со случайным списком, который был генерирован компьютером» [62].
Разъяснение
В идеале участники исследования должны быть отнесены в группы сравнения рандомизированно (на основании случайного процесса, характеризующегося непредсказуемостью) (таблица 1). Авторы должны предоставить информацию, необходимую читателям для оценки методов, использованных для генерации случайной последовательности распределения участников в группы сравнения*, и вероятности возникновения систематической ошибки на этом этапе.
Существует много эффективных методов генерации случайной последовательности. Тем не менее, читатели не могут судить об адекватности использованных при РКИ методов только по утверждениям о "случайном распределении" или "рандомизации" без дальнейшего уточнения. Авторы должны указать использованный метод генерации случайной последовательности, например: метод таблицы случайных чисел или компьютерная программа генерации случайных чисел. Последовательность может быть получена также в процессе минимизации* — метода ограниченной рандомизации* (пункт 8б) (таблица 3).
В некоторых исследованиях участников намеренно набирают в группы в неравных количествах, например, чтобы получить больше опыта применения новой процедуры либо ограничить расходы на проведение испытания. В таких случаях авторы должны сообщать о соотношении числа участников в группах при рандомизации (например, 2:1).
Термин «рандомизированный» имеет точное математическое значение. При случайном распределении заранее известна вероятность включения каждого участника в каждую из групп лечения, но фактически назначенное лечение определяется случайным образом и не может быть предсказано. Однако в литературе термин "рандомизированный" часто необоснованно используется для описания испытаний, в которых были использованы неслучайные, "детерминированные" методы распределения* участников на основании очередности, номера истории болезни или даты рождения. Когда исследователи используют такой метод, они должны точно описать его и не применять определение "рандомизированное" или любой его синоним. Даже термин "псевдорандомизированное" является сомнительным для таких испытаний. Эмпирические данные [2-5] свидетельствуют, что такие исследования дают предвзятые результаты. Систематические ошибки при этом возникают, предположительно, из-за невозможности сохранить в тайне принцип распределения участников в группы сравнения (см. пункт 9).
Только в 32% отчетов об исследованиях, опубликованных в специализированных медицинских журналах [21], и в 48% отчетов, опубликованных в общемедицинских журналах [25], сообщается о применении адекватного метода генерации случайных чисел. Почти во всех этих случаях исследователи использовали компьютерную программу генерации случайных чисел или таблицы случайных чисел. Обзор исследований, опубликованных в одном из журналов по дерматологии в течение более 22 лет, показал, что адекватный метод генерации случайных чисел был указан только в 1 из 68 отчетов об испытаниях [8].
Пункт 8b. Детальное определение любых особенностей ограниченной рандомизации (например, рандомизации внутри блоков, стратифицированной рандомизации)
Пример
«Вероятность отнесения участниц к той или иной группе была одинаковой. Был разработан случайный порядок формирования блоков с рандомизацией внутри блоков с использованием компьютерного генератора случайных чисел. Размер блоков составлял 4, 8 и 10 больных и определялся случайным образом…» [74].
Таблица 3. Пункт 8б: Ограниченная рандомизация
Разъяснение
В больших испытаниях простая рандомизация* надежна для формирования двух групп одинакового размера с приблизительно одинаковыми известными (и неизвестными) прогностическими факторами*. «Ограниченная рандомизация» означает применение какого-либо дополнительного метода при рандомизированном распределении, чтобы сбалансировать группы по размеру или характеристикам (таблица 3).
Если дополнительные методы ограничения рандомизации не использовались, целесообразно отметить, что проводилась «простая рандомизация». В остальных случаях следует сообщить о методах ограниченной рандомизации, а также указать метод генерации случайной последовательности (пункт 8а). При использовании блоковой рандомизации авторам следует представить подробную информацию о том, как формировались блоки (например, с помощью выбора соотношения участников, которым назначалось то или иное вмешательство, внутри определенного блока*), каков был размер блоков и использовалось ли случайное изменение размера блоков. Если проводилась стратифицированная рандомизация, следует перечислить принципы составления подгрупп и блоков. Стратифицированная рандомизация является эффективным методом, особенно при небольших исследованиях, но её проведение затруднено при учете большого числа признаков. Авторы должны четко сообщать о применении процесса минимизации (таблица 3), переменных, включенных в схему, и использовании элемента случайности.
Показано, что стратификация повышает статистическую мощность небольших рандомизированных исследований почти на 12%, особенно при выраженном эффекте вмешательства или сильном прогностическом значении переменных, которые учитывались при стратификации [109]. Минимизация не обеспечивает таких преимуществ [110].
Только в 9% из 206 отчетов об испытаниях, опубликованных в специализированных журналах [21], и в 39% из 80 отчетов об испытаниях, опубликованных в общемедицинских журналах, сообщалось об использовании стратификации [25]; о применении ограниченной рандомизации упоминалось примерно в половине отчетов. Этими исследованиями, а также по данным K. Adetugbo и H. Williams [8], установлено, что во многих отчетах о РКИ, авторы которых не упоминают о применении блокирования или стратификации, размеры групп часто одинаковые или почти одинаковые. Возможно, одна из причин такого близкого баланса — неполное предоставление информации об использовании ограниченной рандомизации при РКИ.
Пункт 9. Способ технического обеспечения применения случайной последовательности распределения (например, получение указаний в пронумерованных контейнерах или по централизованной телефонной связи) с уточнением, была ли случайная последовательность скрытой до назначения вмешательств
Пример
«Участницам исследования индивидуально назначались витамины С и Е или оба соответствующих варианта плацебо. Предписанное вмешательство применялось до конца беременности у всех женщин, продолжавших участвовать в испытании. Порядок рандомизации был определен статистиком с помощью компьютерного генератора и затем передан в аптеки. Присвоение последующего номера при включении в испытание беременных, обратившихся в отделение ультразвуковой диагностики или в женскую консультацию, осуществляли исследователи, которые затем наблюдали за участницами; соответствующий набор таблеток участницы получали непосредственно в аптеке. Исследователям было сообщено о порядке рандомизации только после того, как набор участниц, сбор данных и лабораторные исследования были завершены» [111].
Разъяснение
В пункте 8 обсуждается процесс генерации непредсказуемой последовательности распределения участников в группы исследования. Существенное значение имеет способ, каким эта последовательность применяется на этапе включения участников в испытание. В идеале полученная схема распределения должна быть внедрена с применением сокрытия распределения [21] — критически важного механизма, который позволяет сохранять назначенное лечение в тайне от исполнителей и таким образом предупреждает возможное субъективное воздействие на результаты исследования. При принятии решения о включении больного в исследование или отклонении включения, а также при получении информированного согласия пациента нет необходимости учитывать, в какую группу будет отнесен следующий участник [112].
Сокрытие распределения не следует путать с маскированием вмешательства* (применением слепого метода) (пункт 11). Сокрытие распределения, направленное на предотвращение систематической ошибки, связанной с отбором участников, сохраняет в тайне последовательность их отнесения к той или иной группе вплоть до момента распределения и может быть успешно реализовано в любых обстоятельствах [2]. Маскирование вмешательства, напротив, предназначено для предотвращения систематических ошибок, связанных с ходом исследования или с выявлением и подтверждением определенного клинического исхода после распределения в группы и далеко не всегда может быть использовано [21]. Без адекватного сокрытия случайная непредсказуемая последовательность распределения может быть нарушена [2, 113].
Особенно рекомендуется применение децентрализованного распределения или распределения "третьей стороной". Многие успешные подходы к сокрытию распределения включают привлечение независимого внешнего участия. Чаще всего с этой целью используется техника централизованной рандомизации по телефону или через аптеку. Все большую популярность завоевывают автоматизированные системы рандомизации [114]. Когда рандомизированное распределение с внешним участием невозможно, отличным методом сокрытия распределения может быть использование пронумерованных контейнеров. Названия вмешательств (а зачастую непосредственно лекарства) помещаются в идентичные, последовательно пронумерованные согласно порядку рандомизации запечатанные контейнеры. При правильной организации и тщательном контроле хорошим способом сокрытия распределения может быть помещение информации о вмешательстве в последовательно пронумерованные непрозрачные запечатанные конверты, но при плохом качестве выполнения этот метод может оказаться неэффективным. Исследователи должны обеспечить, чтобы конверты вскрывались последовательно и только после того, как на них будут написаны имя участника и другие необходимые данные [106].
В недавно проведенных исследованиях были показаны источники систематических ошибок при РКИ. Была оценена полнота информации о методах рандомизации, представленной в отчетах о 250 РКИ, включенных в 33 мета-анализа по проблемам беременности и родов, а затем была проанализирована взаимосвязь между качеством этих данных и оценкой эффектов вмешательства [2]. Испытания, в которых сокрытие последовательности распределения было недостаточным или не было ясно описано, дали более высокую оценку размера эффекта лечения (отношения шансов были преувеличены в среднем на 30-40%), чем испытания, в которых авторы сообщали об адекватном сокрытии распределения. Три других исследования [3-5] подтвердили эти выводы. Эти наблюдения свидетельствуют о том, что недостаточное сокрытие порядка рандомизации способствует систематическим ошибкам при оценке эффектов лечения.
Несмотря на большое значение методов распределения больных в группы вмешательства, во многих опубликованных отчетах о РКИ они не представлены. Они не были описаны в 89% отчетов о РКИ при ревматоидном артрите [28], в 48% отчетов о РКИ, опубликованных в журналах по акушерству и гинекологии [21], и в 44% отчетов о РКИ, опубликованных в общемедицинских журналах [25]. Только в 5 из 73 отчетов о РКИ, которые были опубликованы в одном из журналов по дерматологии с 1976 по 1997 год, сообщалось методах, применявшихся для распределения больных в группы лечения [8].
Пункт 10. Кто проводил генерацию случайной последовательности распределения, кто включал участников в исследование и кто распределял участников в соответствующие группы
Пример
«При определении того, каким больным будут назначены терапия стрептомицином и постельный режим (группа S) или только постельный режим (контрольная группа C), применялся порядок рандомизации, основанный на результатах процесса генерации случайных чисел, который профессор Бредфорд Хилл проводил отдельно для мужчин и женщин в каждом медицинском центре. Информация о порядке рандомизации не была известна ни одному из исследователей, ни координатору исследования: они получали набор запечатанных конвертов, на внешней стороне каждого из которых были указаны только название больницы и номер. После одобрения специальной комиссией включения пациента, но еще до поступления пациента в центр лечения стрептомицином в центральном офисе вскрывали конверт с соответствующим номером; на карте внутри конверта было указано, в какую группу лечения отнесен больной (группу S или группу C), затем эту информацию передавали главному врачу центра» [33].
Разъяснение
Как было отмечено в пункте 9, на этапе включения участников в исследование особенно важно сохранить в тайне отнесение больных к той или иной группе вмешательства. Для этого помимо методов сокрытия распределения имеет значение, как осуществлялась рандомизация больных, особенно кто создавал случайную последовательность, проводил отбор участников и их распределение по группам вмешательства.
Этап включения участников в исследование состоит из двух различных процессов: генерации случайной последовательности и её применения (таблица 4). Хотя в каждом из этих процессов один исследователь может выполнять несколько задач, следует стремиться к полному разделению людей, участвующих в генерации случайной последовательности и её реализации.
Независимо от методологического качества процесса рандомизации неспособность разделить создание последовательности распределения и собственно процесс распределения пациентов в группы исследования может привести к системным ошибкам. Например, если исследователь, который участвовал в процессе генерации последовательности распределения участников в группы воздействия, может сохранить копию и воспользоваться ею при беседе с потенциальными участниками испытания, это может способствовать возникновению систематической ошибки, связанной с отбором участников или распределением их в группы вмешательства, несмотря на то, что последовательность была непредсказуемой. Иногда один и тот же человек принимает участие в разработке случайной последовательности распределения участников и участвует непосредственно в распределении участников в группы. В таких случаях исследователи должны не только обеспечить непредсказуемость последовательности распределения, но и хранить её недоступно даже для лиц, которые её создали. В отчете об исследовании должно быть указано, где хранился этот документ.
Пункт 11A. Применялся слепой метод или маскирование вмешательств в отношении участников, медицинского персонала, назначавшего лечение, и исследователей, оценивающих клинические исходы
Пример
«В отношении всех лиц, проводивших исследование, и всех его участников на протяжении всего исследования применялся метод маскирования вмешательств. Только статистики, анализировавшие результаты исследования, и члены комитета по мониторингу данных, которые не контактировали с участниками исследования, имели доступ к открытой информации о распределении больных» [115].
Разъяснение
В контролируемых испытаниях термин ослепление (маскирование вмешательств)* означает сохранение в тайне информации о назначенном вмешательстве от участников исследования, медицинских работников, а иногда и от исследователей, которые собирают и анализируют клинические данные, чтобы избежать влияния на них такой информации. Маскирование вмешательств имеет значение для того, чтобы не допустить системных ошибок на разных этапах РКИ, хотя применимость маскирования вмешательств зависит от ряда условий.
Маскирование вмешательств от пациентов важно, потому что информированность о проводимом лечении может привести к изменению ответной реакции больного на лечение. Пациенты, которые знают, что им были назначены новые методы лечения, могут иметь благоприятные ожидания или, напротив, повышенный уровень тревожности. Пациенты, которым назначены стандартные методы лечения, могут чувствовать себя обделенными или быть успокоенными распределением в эту группу. Использование плацебо в контрольной группе в сочетании с маскированием вмешательств от больных предназначено для предотвращения систематической ошибки, связанной с неспецифическим эффектом лечения (эффект плацебо).
Маскирование вмешательства от пациентов и медицинского персонала предотвращает систематические ошибки, связанные с проведением исследования. Этот тип систематической ошибки может возникать, если дополнительные терапевтические вмешательства (так называемое "сопутствующее лечение") применяются или пользуются преимущественным спросом только у участников одной из групп сравнения. Информированность о принадлежности больного к той или иной группе вмешательства может повлиять на решение об исключении участника из исследования или о коррекции дозы лекарства.
Маскирование вмешательства от больных, врачей и других медицинских работников, участвующих в оценке клинических исходов (например, рентгенологов), сводит к минимуму риск возникновения систематической ошибки «выявления», которая иначе называется ошибкой наблюдения, определения или оценки. Этот тип систематической ошибки возникает в тех случаях, когда знание о принадлежности пациента к группе вмешательства влияет на процесс оценки клинических исходов. Например, в ходе плацебо-контролируемого испытания при рассеянном склерозе отсутствие маскирования вмешательства и доступность информации о вмешательстве для неврологов привели к явно завышенной оценке эффективности исследуемого лечения [116].
И, наконец, маскирование вмешательства от лиц, проводящих анализ данных, также может предотвратить систематические ошибки, так как информированность о полученных вмешательствах может оказывать влияние на выбор стратегии и методов анализа [117].
Испытания без маскирования вмешательства известны как «открытые»* или, в случае фармацевтических испытаний, как «open-label» (с открытым ярлыком). Такой подход типичен для раннего этапа оценки эффективности лекарственных препаратов (II фаза испытаний).
В отличие от сокрытия распределения (пункт 10) маскирование вмешательства не всегда может быть целесообразным или возможным. Примером может служить сравнение интенсивности боли при взятии проб крови из пальца или мочки уха [118]. Слепой метод особенно важен, когда критерии оценки исхода включают некоторую субъективность, например при оценке боли или причины смерти, и имеет меньшее значение при использовании объективных критериев оценки, таких как летальность от любой причины, когда вероятность систематической ошибки очень мала. Однако даже в таких случаях отсутствие маскирования вмешательства может привести к проблемам, например, связанным с отсевом данных (Schulz KF, Chalmers I, Altman DG. The landscape and lexicon of blinding. Принято в печать). В некоторых РКИ, особенно хирургического профиля, применение двойного слепого метода затруднено или невозможно. Однако даже в открытых исследованиях может быть достигнуто маскирование вмешательства от лиц, оценивающих клинические исходы. Например, снимки повреждения, сделанные до и после лечения, могут быть оценены специалистом, не участвующим в проведении РКИ [119]. Побочные эффекты некоторых видов лечения настолько специфичны, что при их появлении и больные, и медицинский персонал без сомнения могут определить, какое вмешательство применялось. При вероятности таких ситуаций рекомендуется маскирование вмешательства от лиц, проводящих оценку клинических исходов.
Исследования нередко называют «двойными слепыми». Этот термин подразумевает маскирование вмешательства и от больных, и от медицинского персонала, оно не определяет, применялось ли маскирование вмешательства по отношению к другим лицам, в том числе и к тем, кто оценивал клинические исходы [120]. Авторы должны указать все категории лиц, по отношению к которым проводилось маскирование вмешательства (например, больных, медицинских работников и лиц, оценивающих клинические исходы, наблюдающих за сбором данных и анализирующих клинические исходы), способ маскирования вмешательства (например, использование капсул или таблеток), а также схожесть характеристик вмешательств в группах сравнения (например, внешнего вида, вкуса и способа применения) [40, 121]. Должно быть также объяснено, почему в отношении кого-либо из вышеуказанных лиц не применялось маскирование вмешательства.
Авторы зачастую не сообщают в отчетах о РКИ, применялся ли слепой метод [16], а при сообщении о маскировании вмешательства не приводят необходимые детали. Так, информации о применении слепого метода нет в 51% из 506 отчетов о РКИ при муковисцидозе [122], в 33% из 196 отчетов о РКИ у больных ревматоидным артритом [28] и в 38% из 68 отчетов о РКИ в дерматологии [8]. Среди 31 отчета о РКИ в акушерстве и гинекологии, в которых сообщалось о применении «двойного слепого» метода, только в 14 (45%) говорилось о внешнем сходстве основного и контрольного вмешательств и только в 5 (16%) сообщалось, что ослепление было успешным [121].
Вместо термина «ослепление» лучше использовать термин «маскирование», чтобы не спутать со слепотой; хотя термин «ослепление» в методологическом смысле понятен во всем мире и тоже приемлем для представления отчетов о РКИ [119, 123].
Пункт 11b. Как оценивалась эффективность ослепления
Пример
«Для оценки эффективности маскирования вмешательства от больных им предлагали отметить в анкете, какое лечение, по их мнению, им проводилось (акупунктура, плацебо или «не знаю») в 3 разных периода испытания. Если пациент указывал иглоукалывание или плацебо, ему предлагалось объяснить, почему он так считает» [124].
Разъяснение
Подобно тому, как для уверенности в действительно случайном назначении вмешательства мы стремимся получить доказательства эффективности сокрытия порядка рандомизации, следует убедиться и в успешности ослепления. Хотя описание процедуры маскирования вмешательства может представить гарантии, иногда для оценки успешности маскирования вмешательства участников медицинский персонал или исследователей, оценивающих клинические исходы, просят ответить, какое лечение, по их предположению, применялось.
A.S. Prasad et al. [63] в плацебо-контролируемом испытании оценивали эффект сокращения продолжительности симптомов простуды при применении пастилок с цинком. Они также провели отдельное исследование на здоровых добровольцах, чтобы проверить, насколько отличался вкус пастилок с цинком от плацебо. Кроме того, участников основного РКИ попросили попытаться определить, какое лечение они получают. В конце испытания на этот вопрос правильно ответили 56% больных, получавших пастилки с цинком, и 26% больных, получавших плацебо (P=0,09).
Теоретически, если маскирование вмешательства было эффективным, больной может лишь случайно угадать, какое лечение он получает. Однако, если на практике участники чаще, чем могло бы быть случайным, правильно определяют проводимое лечение, это не еще не означает неэффективности маскирования вмешательства. Хотя чаще всего ключом для догадки бывают характерные побочные эффекты лечения, особенно при испытаниях лекарственных препаратов; клинические исходы также могут давать ключ к определению вмешательств. Так, врачи могут предполагать, хотя и не всегда правильно, что больной с благоприятным исходом, скорее всего, получал активное вмешательство, а не плацебо-контроль. Если активное вмешательство, действительно, эффективнее плацебо, правильные «догадки», скорее всего, могут наблюдаться чаще, чем это возможно случайно [125].
Авторы должны сообщить обо всех недочетах, допущенных при маскировании вмешательства, например таких, как различия внешнего вида плацебо и активного препарата.
Пункт 12A. Статистические методы, применявшиеся при сравнении групп по первичным исходам
Пример
«Анализ всех данных проводился в соответствии с заранее установленным планом. Различные пропорции сравнивали с помощью критерия хи-квадрат с коррекцией непрерывности или точного критерия Фишера при необходимости. Многофакторный анализ проводился с применением логистической регрессии. При сравнении продолжительности заболевания, а также выраженности симптомов использовали регрессионную модель пропорционального риска; при сравнении средних концентраций ретинола в сыворотке — t критерий и анализ ковариации. Во всех случаях были использованы двусторонние тесты оценки статистической значимости» [126].
Разъяснение
Существует много различных методов анализа данных, не все из которых могут быть применимы в конкретной ситуации. Важно указать все методы статистической оценки, использованные при каждом анализе, и затем подробно описать их в разделе «Результаты».
Почти все методы статистического анализа позволяют рассчитать размер эффекта лечения, который определяется различием между исходами в группах сравнения. Кроме того, для оценки эффекта лечения необходимо привести его доверительный интервал, который указывает диапазон неопределенности для истинного эффекта лечения. Доверительный интервал может быть истолкован как диапазон значений эффекта лечения, которые совместимы с данными наблюдений. Обычно принято приводить 95% доверительный интервал, что дает диапазон неопределенности, включающий в себя истинное значение 95 из 100 аналогичных исследований.
Результаты исследований могут быть оценены с точки зрения их статистической значимости. Значение Р отражает вероятность того, что выявленные различия могли возникнуть случайно при отсутствии реальных различий эффекта вмешательств. Предпочтительнее приводить значения P в виде точных (например, P=0,003), а не пороговых величин (P<0,05) [46, 127].
При использовании стандартных статистических методов анализа данных предполагается, что эти данные являются "независимыми". Применительно к контролируемым испытаниям это обычно означает, что у каждого участника зарегистрировано одно значение изучаемого исхода. Будет серьезной ошибкой считать независимыми друг от друга множественные результаты наблюдения у одного больного; это возможно, например, когда исходы оценивают по результатам измерений различных частей тела, что нередко имеет место в стоматологии и ревматологии. При статистическом анализе данных должен учитываться только один результат наблюдения у каждого участника [128, 129], в противном случае необходимо применять сложные статистические расчеты [130]. Некорректный анализ множественных измерений или наблюдений был отмечен в 123 (63%) из 196 РКИ у больных ревматоидным артритом [28].
Пункт 12б. Статистические методы, применявшиеся при вспомогательном анализе данных, например, при анализе в подгруппах или скорректированном анализе
Примеры
«При сравнении долей больных с ответной реакцией на лечение в группах вмешательства применялся критерий хи-квадрат Mantel-Haenszel, скорректированный с учетом такой переменной стратификации, как использование метотрексата» [80].
«…Для оценки сравнительной эффективности схемы лучевой терапии CHART перед началом исследования был запланирован анализ в подгруппах, сформированных в соответствии с возрастом, полом, функциональным состоянием больных, стадией заболевания, локализацией и гистологическим строением опухоли. Чтобы оценить различия в эффекте CHART, использовался критерий хи-квадрат для выявления взаимодействий или при необходимости — критерий хи-квадрат для выявления тренда» [131].
Разъяснение
Как и в случае первичного анализа данных, методы вспомогательного анализа в подгруппах* должны быть четко определены. Наиболее надежными методами такого анализа являются методы, основанные на выявлении доказательств различия размера эффекта лечения при сравнении в дополнительных подгруппах (например, между пожилыми и молодыми участниками); такое сравнение известно как тест для выявления взаимодействий* [132, 133].Часто используемым, но менее надежным подходом считается сравнение значений P, полученных при оценке размера эффекта лечения при отдельном анализе в каждой группе. Такой подход может привести к ошибочному выводу о более выраженном эффекте лечения (взаимодействии) в подгруппе со статистически значимыми различиями по сравнению с подгруппой, где различия были статистически незначимыми [134]. Такие выводы часто бывают ложноположительными.
Из-за высокого риска ошибочных выводов анализ в подгруппах часто вызывает разочарование [14, 135]. Вторичное сравнение (или post hoc — анализ, проводимый после первоначальной статистической обработки данных) в подгруппах особенно часто не находит подтверждения при дальнейших исследованиях и считается ненадежным.
В некоторых исследованиях несбалансированность групп по характеристикам участников (прогностическим переменным) корректируется (см. скорректированный, иначе стандартизованный, анализ*) с помощью той или иной формы множественного регрессионного анализа. Хотя необходимость коррекции при РКИ значительно меньше, чем при эпидемиологических исследованиях, скорректированный анализ может быть оправдан, особенно если одна или несколько прогностических переменных представляются более важными, чем остальные [136]. В идеале методы скорректированного анализа должны быть перечислены в протоколе исследования. Часто рекомендуется корректировка по всем переменным при стратификации (пункт 8b). При РКИ решение о применении скорректированного анализа не должно определяться тем, насколько статистически значимы различия исходных характеристик участников в разных группах [133, 137] (пункт 16). Следует обосновать проведение скорректированного анализа и указать использованные при этом статистические методы.
Авторы отчета должны обосновать выбор переменных, которые были скорректированы; показать, как были обработаны непрерывные данные, и указать, был ли такой анализ запланированным* или решение о его проведении было принято после получения данных (Muller M., Matthews H., Altman D.G. Reporting on statistical methods to adjust for confounding: a cross-sectional survey. Принято в печать). Обзоры опубликованных отчетов о РКИ показывают, что существующая практика представления результатов скорректированного анализа не отвечает всем этим требованиям [138 -140].
Результаты
Пункт 13а. Динамика распределения участников на каждом этапе исследования (рекомендуется представлять в виде схемы проведения исследования) с указанием в каждой группе числа рандомизированно распределенных участников; числа участников, получавших запланированное лечение; числа пациентов, которые завершили исследование согласно протоколу; числа участников, данные о которых были включены в анализ первичных исходов [см. табл.2, РФК 2010;6(4):613].
Примеры
См. рис. 2, 3 и 4.
Разъяснение
Когда структура и проведение РКИ достаточно просты, динамика числа участников на каждом этапе исследования может быть описана в нескольких предложениях. В отчетах о более сложных исследованиях должно быть разъяснено, почему некоторые участники не получали назначенное при распределении лечение, почему некоторые больные выбыли из последующего наблюдения* до завершения исследования или данные о них были исключены из анализа [54]. Эта информация важна по ряду причин. Больные, исключенные из исследования после рандомизации, скорее всего, имели особенности, нехарактерные в целом для участников исследования. Например, больные могут выбыть из дальнейшего наблюдения из-за резкого обострения заболевания или возникновения тяжелых побочных эффектов* лечения [32, 141].
Отсев участников в результате потери контакта с ними, зачастую неизбежный, необходимо отличать от исключения участников исследователем по таким причинам, как несоответствие целям исследования, отказ от лечения и несоблюдение схемы лечения. Исключение участников из анализа может приводить к неправильным выводам, особенно вероятна систематическая ошибка при дисбалансе случаев исключения участников в основной и контрольной группах [141-143]. Поэтому информация о том, все ли данные об участниках, прошедших рандомизацию, были включены в анализ в составе групп, в которые они были изначально распределены (анализ intention-to-treat — анализ, проводимый исходя из допущения, что все больные получили назначенное вмешательство [см. пункт 16]), имеет особое значение. Зная, сколько участников не получали вмешательства соответственно распределению или не завершили полного курса лечения, читатель может оценить степень недооценки эффекта терапии по сравнению с размером эффекта в идеальных условиях. По возможности, следует сообщить о числе больных, которые были обследованы для оценки соответствия целям испытания. Хотя этот показатель имеет отношение только к внешней валидности (обобщаемости результатов) и, возможно, не так важен, как другие [55], он является полезным индикатором репрезентативности выборки.
Недавний обзор отчетов о РКИ, которые были опубликованы в 1998 году в пяти ведущих общемедицинских журналах и журналах по внутренним болезням, показал, что представление информации о динамике числа участников часто не соответствует требованиям, особенно это касается числа участников, получивших назначенное лечение, и числа больных, выбывших из наблюдения [54]. Даже такие совершенно необходимые данные, как число участников, которые прошли рандомизацию, и число участников, данные о которых были исключены из анализа, отсутствовали в 20% отчетов о РКИ [54]. Эта информация была значительно лучше представлена в тех отчетах, в которых приводилась рекомендуемая CONSORT схема проведения испытания. Новый вариант структуры схемы проведения РКИ для последней версии CONSORT был ранее опубликован [56-58], рекомендуемый шаблон схемы показан на рисунке 1, и необходимые подробности описаны в таблице 5.
Некоторые данные, например число лиц, обследованных для оценки соответствия целям испытания, не всегда могут быть известны [14], и актуальность некоторых показателей в зависимости от характера исследования может быть выше, чем других. Поэтому во многих случаях целесообразно или даже необходимо адаптировать структуру представленного шаблона схемы для конкретного исследования. Примером может служить многоцентровое исследование, в котором проводилось сравнение эффективности имплантации стентов, покрытых гепарином, со стандартной чрескожной транслюминальной коронарной ангиопластикой у больных, которым планировалась коронарная ангиопластика [144]. Из-за особенностей этих методов вмешательства относительно большое количество пациентов не получили вмешательства, назначенного в соответствии с рандомизацией. Поэтому в схеме проведения данного РКИ (рисунок 2) раздел, в котором приводятся данные о числе больных, рандомизированно распределенных в группы вмешательства, был расширен с указанием числа и причин отклонений от намеченного плана лечения.
В некоторых случаях в схему проведения РКИ целесообразно включить дополнительную информацию. Например, в схеме исследования, при котором оценивалась эффективность мануальных вмешательств в шейном отделе позвоночника при лечении периодической головной боли напряжения [145], указана подробная информация о числе пациентов, которые наблюдались на разных этапах исследования (рисунок 3). Иногда в схеме проведения РКИ могут быть представлены и основные результаты, такие как частота наблюдения первичных исходов. Так, в схеме испытания ингибитора топоизомеразы I иринотекана при метастазирующем колоректальном раке и неэффективности химиотерапии фторурацилом [146] авторами представлено число наблюдавшихся летальных исходов (рисунок 4).
Эти примеры показывают, что точная форма и содержание схемы проведения РКИ могут меняться в зависимости от особенностей исследования. Например, многие исследования эффективности хирургических вмешательств или вакцинации не предусматривают возможности преждевременного прекращения испытания. Хотя CONSORT настоятельно рекомендует использовать графическую схему проведения РКИ для сообщения о динамике числа участников на протяжении всего исследования, конкретной установленной структуры схемы не существует. Более того, включение такой схемы может оказаться ненужным при отчете о простом РКИ, в котором не было исключения или выбывания участников при дальнейшем наблюдении.
Пункт 13B. Описание отклонений от запланированного протокола исследования с их обоснованием
Примеры
«Было только одно отклонение от протокола исследования в основной группе. Роженице с анатомически узким тазом было запланировано проведение кесарева сечения. Тем не менее, акушер принял решение, что допустима попытка естественных родов; кесарево сечение было сделано лишь при отсутствии прогресса в первом периоде родов» [147].
«В ходе контроля за проведением испытания из него были исключены девять центров, в которых отсутствовали доказательства, подтверждающие наблюдение ряда больных, или имелись другие серьезные нарушения принципов надлежащей практики клинических исследований» [148].
Разъяснение
Авторы должны сообщать обо всех отклонениях от протокола исследования, в том числе незапланированных изменениях применяемых вмешательств, методов обследования участников, сбора данных и методов анализа. Некоторые из этих отклонений от протокола исследования* могут быть отражены в схеме проведения РКИ (пункт 13а): например, в ней может быть указано число участников, которые не получили предписанное вмешательство. Если участников исключали из исследования уже после рандомизации, потому что они были признаны не соответствующими критериям включения (пункт 16) (с нарушением принципа intention-to-treat), информацию о них также можно включать в схему. Упоминание термина «нарушение протокола» в отчетах о РКИ не является достаточным для обоснования исключения участников после рандомизации; должен быть указан характер отклонения от протокола и перечислены точные причины исключения участников после рандомизации.
Пункт 14. Определение дат начала и конца периодов включения и наблюдения больных
Пример
«Включение участников соответствующего критериям возраста проводилось с февраля 1993 по сентябрь 1994 года. Участники посещали клинику во время рандомизации (исходное состояние) и затем через каждые 6 месяцев в течение 3 лет» [115].
Разъяснение
Читатель должен знать, когда проводилось исследование и в течение какого периода были набраны участники исследования. Методы лекарственной терапии и хирургическое лечение, в том числе сопутствующее лечение, постоянно совершенствуются, что может влиять на стандартную терапию сравнения в период проведения исследования. Информация о скорости включения участников также может представлять интерес, особенно для других исследователей.
Продолжительность наблюдения после рандомизации не всегда фиксированная. Во многих РКИ при использовании такого критерия оценки, как время до развития определенного клинического исхода, наблюдение всех участников заканчивается после регистрации этого исхода. Эта дата должна быть указана в отчете, также целесообразно привести значение медианы продолжительности наблюдения [149, 150].
Если исследование было прекращено на основании результатов промежуточного анализа данных (пункт 7b), об этом должно быть обязательно сообщено. Досрочное прекращение РКИ может привести к несоответствию между запланированным и фактическим размером выборки. Кроме того, при досрочном прекращении РКИ часто завышается размер эффекта лечения [102].
В обзоре отчетов об исследованиях, опубликованных в журналах по онкологии, в которых использовался анализ выживаемости и большинство из которых не являлись РКИ, D.G. Altman et al. [150] показали, что почти в 80% (104 из 132) отчетов были указаны даты начала и окончания включения больных, но лишь в 24% (32 из 132) отчетов сообщалось о дате окончания периода наблюдения.
Пункт 15. Исходные демографические и клинические характеристики участников в каждой из групп
Пример
См. таблицу 6.
Разъяснение
Хотя описание критериев включения (пункт 3) позволяет судить о том, какие больные соответствуют целям исследования, также важно знать исходные характеристики фактических участников исследования. Эта информация позволяет читателям, особенно врачам, решать, насколько значимыми могут быть результаты исследования для конкретного больного.
Цель рандомизированных контролируемых испытаний — сравнение групп участников, которые должны отличаться друг от друга только в отношении применяемого вмешательства (лечения). Хотя рандомизация предотвращает систематическую ошибку, связанную с отбором участников, её проведение не гарантирует однородности групп по исходным характеристикам участников. Однако при этом различия исходных характеристик участников в группах носят случайный характер, а не отражают систематическую ошибку [25]. Чтобы оценить, насколько группы исследования сопоставимы, нужно сравнить важные исходные демографические и клинические характеристики их участников. Эти параметры особенно ценны, когда критерии оценки исхода применяются с начала испытания.
Исходные демографические и клинические характеристики участников удобно представить в виде таблицы (таблица 6). Для непрерывных переменных, таких как масса тела и артериальное давление, наряду со средними значениями следует указывать показатели вариабельности. В каждой группе непрерывные переменные могут быть представлены средним значением и стандартным отклонением. При асимметричном распределении непрерывных данных предпочтительнее привести значение медианы и диапазона в перцентилях (например, с 25-го по 75-й перцентили) [127]. Стандартные ошибки средних и доверительных интервалов не подходят для описания вариабельности данных, эти показатели относятся к проверке гипотез, а не к описательной статистике. Переменные, составляющие небольшое число упорядоченных категорий (например, стадии болезни с I по IV), нельзя рассматривать как непрерывные переменные, вместо этого необходимо указать, сколько участников (в абсолютных числах и долях) было в каждой категории [46, 127].
Несмотря на многочисленные предупреждения о неуместности оценки статистической значимости различий исходных характеристик участников, такие подходы все еще применяются [21, 25, 151]. Так, в ходе недавнего анализа 50 РКИ такие недостатки выявлены в половине исследований [133]. В идеале в протоколе испытания должно быть определено, учитывались ли определенные исходные переменные при коррекции с помощью ковариационного анализа [137]. При коррекции с учетом исходно существенно различавшихся переменных повышается вероятность смещения оценки размера эффекта лечения [137].
Пункт 16. Число участников в каждой из групп, данные о которых были включены в анализ любого вида (в знаменателе), а также информация о том, проводился ли анализ в соответствии со случайным распределением в группы лечения всех больных, прошедших рандомизацию («intention to treat»). По возможности, следует представлять абсолютное число участников (т.е. 10 из 20 больных, а не 50% больных)
Примеры
«Первичный анализ был проведен исходя из допущения, что все больные получили лечение в соответствии с распределением в группы («intention-to-treat» анализ), в анализ были включены данные обо всех участниках, прошедших рандомизированное распределение в группы вмешательства» [91].
«В группе лечения алендронатом один больной выбыл из последующего наблюдения, поэтому в анализ, проводимый исходя из допущения, что все больные получили назначенное лечение (intention-to-treat), были включены данные 31 больного. В пяти случаях были отмечены нарушения протокола исследования, таким образом, осталось 26 пациентов, данные которых в соответствии с протоколом были включены в окончательный анализ» [152].
Разъяснение
Обязательным элементом оценки результатов исследования является число участников в каждой группе. Схема проведения исследования может включать информацию о числе участников, у которых зарегистрированы те или иные клинические исходы; эти показатели могут варьироваться в зависимости от различных критериев оценки исходов. При представлении итоговой информации в каждой группе должен быть указан размер выборки, использованный как знаменатель при расчете частоты исходов. Эта информация особенно важна для бинарных результатов, так как такие оценки размера эффекта, как, например, отношение рисков и разность рисков, следует рассматривать в сопоставлении с частотой анализируемого исхода. Представление результатов в виде дробей также помогает читателю оценить, все ли случайным образом распределенные участники были включены в анализ, и если нет, то сколько участников было исключено. Таким образом, результаты не должны быть представлены исключительно в виде итоговых показателей, таких как относительные риски.
Включение в анализ данных не обо всех участниках может привести к возникновению систематической ошибки при оценке результатов исследования. Однако в большинстве исследований не все данные могут соответствовать требованиям для включения в окончательный анализ. Это связано с нарушениями протокола, например, с получением назначенного вмешательства не в полном объеме, назначением неправильного вмешательства или ошибочной рандомизацией участников, не соответствующих критериям включения. Для решения этих проблем широко рекомендуется включать в анализ данные всех участников в соответствии с их первоначальным распределением в группы вмешательства независимо от последующих изменений. Однако такой анализ «intention-to-treat» не всегда легко осуществим. Нередко отдельные больные досрочно выбывают из исследования или им приходится отменять назначенное вмешательство, и, следовательно, в конце исследования исходы у этих больных не оцениваются. Хотя данные таких участников не могут быть включены в анализ, в публикациях все еще принято определять анализ с включением всех имеющихся участников как анализ «intention-to-treat». Этот термин нередко неправомерно используется и в тех случаях, когда до конца исследования наблюдались все участники, но данные о некоторых из них не были включены в анализ, например из-за того, что в действительности лечение не было получено в связи с несоблюдением назначений. С другой стороны, анализ может быть ограничен включением только тех участников, которые соответствуют требованиям протокола с точки зрения целей исследования, полноты проведения предписанного лечения, а также оценки исходов. Такой анализ называют анализом в зависимости от реально полученного вмешательства («on-treatment») или анализом в соответствии с протоколом («per protocol»). В некоторых РКИ приведены результаты анализов обоих типов.
Исключение из анализа данных об участниках может привести к ошибочным выводам. Например, в РКИ, посвященном сравнительной оценке эффективности консервативного и хирургического лечения стеноза сонных артерий, анализ, ограниченный данными участников, которые наблюдались до конца исследования, показал, что оперативное лечение снижает риск развития преходящего нарушения мозгового кровообращения, инсульта и смерти. Но анализ «intention-to-treat», основанный на включении всех первоначально распределенных в группы вмешательств участников, не подтвердил преимуществ хирургического лечения [153]. В большинстве случаев предпочтительнее проводить анализ «intention-to-treat», поскольку он предотвращает появление систематической ошибки, связанной с неслучайным выбыванием участников из исследования [154-156]. Независимо от того, каким термином называют проведенные анализы авторы статьи, они должны пояснить, данные о каких участниках были при этом использованы (см. пункт 13). Анализ «intention-to-treat» не подходит для изучения побочных эффектов вмешательств.
При несоблюдении некоторыми участниками назначений врача анализ «intention-to-treat» может привести к недооценке реальной эффективности вмешательства; в таких случаях могут потребоваться дополнительные анализы [157, 158].
В обзоре отчетов о РКИ, опубликованных в ведущих общемедицинских журналах в 1997 году, было показано, что почти в половине отчетов (119 из 249) упоминался анализ «intention-to-treat», но лишь в пяти из них четко сообщалось, что были проанализированы все участники, которые прошли случайное распределение по группам вмешательства [18]. Кроме того, в 89 (75%) из этих испытаний отсутствовали некоторые данные об основном показателе исхода. K.F. Schulz et al. [121] установили, что испытания, в которых не сообщалось обо всех случаях исключения данных из анализа, были методологически более слабыми и в других отношениях, чем те исследования, в которых указаны все случаи исключения; это наглядно свидетельствует о сокрытии некоторыми авторами важной информации об исключении данных из анализа. M. Ruiz-Canela et al. [159] пришли к выводу, что отчеты, в которых сообщается о проведении анализа «intention-to-treat», имеют и другие признаки соответствия добросовестной практике научных исследований и публикаций, в частности в них описывается процедура расчета размера выборки.
Пункт 17. Итоговый результат для каждого из основных и дополнительных клинических исходов в каждой группе, а также рассчитанный размер эффекта и точность его оценки (например, 95% доверительный интервал)
Пример
См. таблицу 7.
Разъяснение
Для каждого из оцениваемых исходов исследования в каждой группе должны быть представлены итоговые показатели (например, доли случаев с возникновением или без возникновения исхода или среднее значение и стандартное отклонение измерений), а также различие результатов в группе лечения и контроля (размер эффекта*). Для бинарных исходов размер эффекта может быть выражен как отношение рисков (относительный риск — ОР), отношение шансов или разность рисков; для данных о выживаемости за период времени — как отношение шансов выживания или отношение риска смерти или разность медиан продолжительности жизни; для непрерывных данных — обычно как различия средних показателей. При сравнении групп должны указываться также доверительные интервалы перечисленных показателей. К распространенным ошибкам относится представление доверительного интервала для результатов в каждой группе, а не для их разницы [160]. Зачастую представление результатов в виде таблицы может быть более наглядным, чем в виде текста, как показано в таблице 7.
Для всех показателей оценки исходов с целью характеристики их точности (прецизионности)* авторы должны привести доверительный интервал [46, 161]. Обычно используют 95% доверительный интервал, хотя в ряде случаев можно применить другие его диапазоны. Редакции многих журналов требуют или настоятельно рекомендуют использовать доверительные интервалы [162]. Доверительные интервалы особенно важны для оценки результатов со статистически несущественными различиями, для которых они часто указывают, что результат не исключает важных клинически значимых различий. В последние годы доверительные интервалы применяются заметно чаще, хотя и не при всех медицинских специальностях [160]. Доверительные интервалы в отчете могут быть дополнены значением P, но, в любом случае, результаты не должны представляться только в виде значения P [163, 164].
Результаты следует представлять для всех запланированных первичных и вторичных конечных точек исследования, а не только для тех сравнений, при которых были получены статистически значимые различия. Хотя существует мало эмпирических доказательств избирательного представления результатов в отчетах РКИ [28], но это, вероятно, широко распространенная и серьезная проблема [165, 166]. В тех случаях, когда проводился промежуточный анализ, интерпретировать следует данные, полученные в конце исследования, а не результаты промежуточного анализа [167].
Как при анализе бинарных исходов, так и при анализе выживаемости результаты можно представить также в виде числа больных, которых необходимо лечить определенным методом в течение определенного времени, чтобы достичь определенного благоприятного исхода или предотвратить определенный неблагоприятный исход у 1 больного (ЧБНЛ) или индекса потенциального вреда (ИПВ) — числа больных, которые должны получить лечение, чтобы у 1 больного развился неблагоприятный исход (см. пункт 21) [168, 169].
Пункт 18. Разрешение вопросов, связанных с множественностью влияний путем представления любых других (кроме основного) видов проведенного анализа, включая анализ в подгруппах и скорректированный анализ, с указанием, какие виды вспомогательного анализа были запланированы, а какие было решено провести уже в ходе исследования.
Пример
«Интересно также отметить некоторую взаимосвязь между применением витамина А и тяжестью заболевания при амбулаторном или стационарном лечении больных: при стационарном лечении его результаты в группе витамина А были несколько лучше, чем в контрольной группе, а при амбулаторном лечении — наоборот. Хотя этот вывод был сделан в ходе запланированного анализа в подгруппах, ни при одном из сравнений выявленные различия не достигли уровня статистической значимости (5%)» [126].
Разъяснение
Множественные анализы одних и тех же данных существенно повышают риск получения ложноположительных результатов [170]. Авторам особенно не следует поддаваться искушению проведения большого числа анализов в подгруппах [133, 135, 171]. Результаты анализов, запланированных в протоколе РКИ, значительно надежнее результатов тех анализов, решение о проведении которых было обусловлено полученными данными. Авторы должны указать, какие анализы были заранее запланированы. Если проводились анализы данных в подгруппах, необходимо описать эти подгруппы и обосновать их выбор, хотя приводить подробные разъяснения не всегда обязательно. Избирательное представление результатов этих анализов может способствовать возникновению систематической ошибки [172]. Для правильной оценки взаимодействия (см. пункт 12б) данные следует представлять в виде различия оценок эффекта вмешательства между каждой из подгрупп (вместе с диапазоном доверительного интервала), не ограничиваясь только значением р.
По данным S.F. Assmann et al. [133], о проведении анализа в подгруппах сообщалось в 35 из 50 отчетов об РКИ, только в 42% из которых использовался тест для оценки взаимодействия. Авторы обзора отметили, что во многих отчетах было трудно определить, какой из анализов был запланирован в протоколе.
Подобные рекомендации применимы к анализу, скорректированному с учетом исходных характеристик. Следует сообщать обо всех анализах независимо от того, были они скорректированными или нет, и указывать, было ли проведение скорректированного анализа запланировано в протоколе и какие показатели были для этого выбраны.
Пункт 19. Все неблагоприятные или побочные эффекты, зарегистрированные в каждой из групп вмешательства
Пример
«Доли пациентов, у которых было отмечено возникновение любых неблагоприятных эффектов, в группе rBPI21 (рекомбинантный бактерицидный белок, повышающий проницаемость мембран) и группе плацебо были одинаковыми: 168 (88,4%) из 190 и 180 (88,7%) из 203 больных, соответственно; при раздельной оценке неблагоприятных эффектов, классифицированных по 12 системам органов, доля побочных эффектов, относящихся к 11 системам органов, была несколько ниже в группе rBPI21. Доля больных, у которых развились тяжелые неблагоприятные эффекты, в группе rBPI21 была ниже, чем в группе плацебо: 53 (27,9%) из 190 и 74 (36,5%) из 203 больных, соответственно. Только в 3 случаях возникновения тяжелых побочных эффектов сообщалось об их связи с применявшимся вмешательством; все они отмечались в группе плацебо» [173].
Разъяснение
Кроме ожидаемых положительных эффектов для большинства лечебных вмешательств характерны также побочные, часто нежелательные эффекты. Чтобы принимать обоснованные взвешенные решения, читатель должен иметь информацию как о преимуществах, так и о недостатках различных вмешательств. От частоты развития и характера побочных эффектов конкретного метода лечения во многом зависит, будет ли он признан полезным и приемлемым. Не все отмеченные в ходе РКИ побочные эффекты * являются следствием тех или иных лечебных вмешательств; некоторые из них обусловлены самим заболеванием. Рандомизированные контролируемые исследования — лучший подход для обеспечения данных о безопасности и об эффективности лечебного вмешательства, хотя при РКИ не всегда могут быть выявлены редкие побочные эффекты.
По крайней мере, авторы должны сообщить о частоте главных тяжелых побочных реакций и причинах досрочного прекращения лечения отдельно в каждой из групп сравнения. Если неблагоприятный эффект возникал у участников РКИ неоднократно, следует указать, у какого числа больных и с какой частотой он наблюдался. Кроме того, авторы должны указать, каким образом оценивалась тяжесть неблагоприятных эффектов [174].
Во многих отчетах информация о неблагоприятных реакциях отсутствует или недостаточна. Только в 39% из 192 отчетов об испытаниях лекарственных препаратов были должным образом представлены данные о клинических проявлениях неблагоприятных эффектов, и лишь в 29% отчетов сообщалось о лабораторном определении токсичности препаратов [174]. Более того, при анализе 52 отчетов об исследованиях (преимущественно РКИ), опубликованных в одном томе ведущего общемедицинского журнала в 1998 году, оказалось, что в 30 (58%) отчетах никаких деталей о неблагоприятных эффектах вмешательств не было приведено (Hasford J., личное сообщение).
Обсуждение
Пункт 20. Интерпретация полученных результатов с учетом выдвинутой гипотезы исследования, источников потенциальных систематических ошибок или погрешностей или проблем, ассоциированных с множественностью анализов или исходов
Разъяснение
Существует мнение, что в отчетах о научных исследованиях раздел "Обсуждение" переполнен риторикой, с помощью которой авторы пытаются оправдать свои выводы [175], и содержит мало обоснованных аргументов «за» и «против» полученных данных и самого исследования. Редакции некоторых журналов пытаются решить эту проблему, поощряя более структурированное обсуждение результатов в отчетах об РКИ [176, 177]. Например, журнал «Annals of Internal Medicine» [176] рекомендует авторам следующую структуру раздела «Обсуждение»: 1) краткое резюме основных результатов, 2) перечень и объяснение возможных механизмов действия вмешательства, 3) сравнение результатов данного и других опубликованных исследований (по возможности включая систематический обзор, объединяющий результаты данного и всех предыдущих соответствующих исследований), 4) описание ограничений настоящего исследования (и методов, использованных в целях минимизации и компенсации этих ограничений) и 5) краткую итоговую характеристику исследования с точки зрения его практической и научной ценности. Авторам рекомендуется придерживаться этих разумных предложений, при необходимости используя в разделе «Обсуждение» дополнительные подзаголовки.
Хотя в отчетах оригинальных клинических исследований обсуждение ограничений испытания встречается редко [178], эта информация имеет особое значение. Например, недавно группа хирургов сообщила, что при выполнении технически сложной лапароскопической холецистэктомии при лечении острого холецистита частота развития осложнений (первичного исхода) была ниже, чем при традиционной открытой холецистэктомии [179]. В этом сообщении авторы даже не обсуждали вероятность систематической ошибки, хотя все эндоскопические процедуры выполняли квалифицированные врачи-исследователи, а открытую холецистэктомию в 80% случаев выполняли стажеры. Выявленные преимущества лапароскопической холецистэктомии могут целиком зависеть от опыта хирурга, что повышает вероятность наличия систематической ошибки. Для читателей было бы лучше, если бы результаты исследования оценивались в свете этого методологического недостатка.
Возможно, именно при обсуждении недостатков исследования следует представить данные о любых погрешностях* результатов. Погрешности могут быть связаны с рядом аспектов исследования, например, оценкой первичного исхода (см. пункт 6) или диагностикой (см. пункт 3а). Например, в исследовании у детей могла быть использована шкала, обоснованность которой была подтверждена при проверке только у взрослых, или один из исследователей, оценивающих клинические исходы, мог не пройти необходимую подготовку. Такие моменты могут привести к неточным результатам и должны быть обсуждены авторами.
Всегда нужно иметь в виду различие между статистической значимостью и клиническим значением. Авторам особенно следует избегать распространенной ошибочной интерпретации статистически незначимых различий как доказательства эквивалентности сравниваемых вмешательств. Независимо от значения р только диапазон доверительного интервала (см. пункт 17) позволяет определить наличие клинически значимого эффекта лечения [94].
Авторы должны проявлять особую осторожность при трактовке результатов испытаний с множественными сравнениями*. Такие множественные сравнения неизбежны при использовании нескольких вмешательств или критериев оценки, разных периодов времени оценки, анализа в подгруппах и других факторов. В таких условиях некоторые статистически значимые различия, скорее всего, имеют только случайную причину.
Пункт 21. Обобщаемость (внешняя валидность, применимость) результатов испытания
Пример
«Это испытание было достаточно крупным и продолжительным, но популяции пациентов с ОА (остеоартритом) и РА (ревматоидным артритом) намного шире, а реальная продолжительность лечения значительно больше, чем 6 мес. Кроме того, у многих пациентов с ОА и РА имеются сопутствующие заболевания (например, активные заболевания желудочно-кишечного тракта), которые в данном исследовании относились к критериям исключения. Таким образом, результаты этого исследования не отражают частоту возникновения редких побочных эффектов и не могут быть экстраполированы на всех больных этими заболеваниями, встречающихся в общей клинической практике» [180].
Разъяснение
Внешняя валидность, называемая также обобщаемостью или применимостью, — это степень, с которой результаты исследования могут быть применимы в других обстоятельствах [181]. Необходимым условием для внешней валидности результатов является их внутренняя валидность (достоверность): когда результаты несовершенного испытания недостоверны, вопрос о его внешней валидности просто неуместен. Не существует внешней валидности как таковой: этот термин обретает смысл только в связи с конкретными условиями, которые не изучались в ходе конкретного испытания. Например, применимы ли результаты данного РКИ к данному больному или к группам больных определенного возраста, пола, с определенной стадией заболевания или с сопутствующими заболеваниями? Применимы ли результаты данного РКИ при использовании других препаратов того же фармакологического класса (группы), других дозировок, схем и путей введения, а также сопутствующей терапии? Можно ли ожидать одинаковых результатов при использовании вмешательства в системах первичной, квалифицированной и специализированной медицинской помощи? Как влияет вмешательство на другие клинические исходы, которые не оценивались в данном испытании, и как повлияло бы на результаты изменение продолжительности лечения и наблюдения?
Внешняя валидность — предмет субъективной оценки, которая зависит от характеристик участников, клинической базы, применявшихся схем лечения и оцениваемых клинических исходов [182]. Поэтому очень важно, чтобы в отчете была представлена полная информация о критериях включения участников, клинической базе исследования и ее местонахождении (см. пункт 3), вмешательствах и схемах их применения (см. пункт 4), определении клинических исходов (см. пункт 6), начале и конце периодов включения и наблюдения (см. пункт 14). Важно также сообщать о доле больных в контрольной группе, у которых развился тот или иной клинический исход (что позволяет оценить степень риска его возникновения в контрольной группе).
Несколько соображений имеют значение, когда результаты испытания нужно применить к конкретному больному [183-185]. Эффективность лечения может быть разной у отдельных больных, участников одного РКИ или нескольких исследований, включенных в систематический обзор, однако такие различия, как правило, имеют, скорее, количественный, чем качественный характер. За редким исключением [185] лечение, которое оказалось полезным для узкого круга пациентов, имеет гораздо более широкую применимость на практике. При оценке соотношения пользы и риска определенного вмешательства у отдельного больного или группы больных с характеристиками, отличающимися от характеристик участников РКИ, полезно ориентироваться на рассчитанные авторами отчета показатели, учитывающие исходный риск и размер эффекта, как, например, число больных, которых необходимо лечить в течение определенного времени для получения еще одного благоприятного исхода, или число больных, которые должны получить лечение, чтобы развился еще один неблагоприятный исход [185-187]. Наконец, убедившись, что в конкретном случае вмешательство приемлемо по соображениям эффективности и безопасности, врач обязан учесть мнение и предпочтения больного. Логика рассуждений врача при оценке применимости результатов РКИ в других условиях оказания медицинской помощи и при использовании других вмешательств должна быть аналогичной.
Пункт 22. Общая интерпретация результатов в связи с имеющимися современными доказательствами
Пример
«Результаты исследований, опубликованных до 1990 г, указывали на то, что профилактическая иммунотерапия также снижает частоту внутрибольничных инфекций у младенцев с очень низкой массой тела при рождении. Однако эти исследования включали малое число больных, проводились в различных популяциях больных, имели различную структуру, в них применялись разные препараты и дозы препаратов. В данном крупном многоцентровом РКИ повторное внутривенное введение иммуноглобулина не сопровождалось статистически значимым снижением частоты внутрибольничных инфекций у недоношенных детей с массой тела при рождении от 501 до 1500 г» [188].
Разъяснение
Результаты РКИ важны независимо от того, какое вмешательство оказалось лучше, каков размер эффекта или насколько точны результаты. Читателям интересно знать, как эти результаты соотносятся с результатами других ранее опубликованных рандомизированных контролируемых испытаний. В идеале это может быть достигнуто путем включения формального систематического обзора (мета-анализа) в раздел «Результаты» или «Обсуждение» [82, 189, 190]. Но такое обобщение доступно только при наличии опубликованных результатов предыдущих РКИ (например, в базе данных Cochrane Controlled Trials Register [191]) и часто практически невыполнимо.
Включение систематического обзора в разделе «Обсуждение» позволяет читателю интерпретировать результаты испытания в свете всей совокупности доказательств, имеющихся на данный момент в литературе. Эта информация может помочь читателям оценить, насколько данные, полученные в ходе этого РКИ, схожи с результатами других исследований на эту тему, а также дать ценную информацию о степени сходства между участниками разных исследований. Последние данные свидетельствуют о том, что в настоящее время такая информация в отчетах о РКИ должным образом не рассматривается [192]. Для статистического объединения результатов данного РКИ и предшествующих исследований можно использовать методы Байеса [193].
Мы рекомендуем авторам обсуждать результаты РКИ, по крайней мере, в рамках уже имеющихся доказательств. Это обсуждение должно быть систематическим и не должно ограничиваться цитированием работ, подтверждающих результаты представляемого РКИ [194]. Рекомендуется включить в этот раздел систематический обзор или указать на недостаток информации, если полноценное обсуждение невозможно.
Заключение
Оценка эффективности медицинских вмешательств может быть ошибочной, если исследователями не будет сведена к минимуму вероятность возникновения систематических ошибок при сравнении. Рандомизированное распределение в группы исследования остается единственным методом, который исключает систематические ошибки, связанные с отбором и влиянием других факторов. Действительно, во многих методологических обзорах [195-197], хотя и не во всех [198, 199], отмечены закономерные различия при сравнении рандомизированных и нерандомизированных исследований.
Однако систематические ошибки ставят под угрозу даже РКИ, если такие исследования проводятся неправильно [200]. Результаты недавних анализов свидетельствуют о наличии в некоторых РКИ систематических ошибок, которые приводят к ошибочным результатам. В четырех независимых исследованиях было показано, что в РКИ с неправильно организованным или недостаточным сокрытием порядка распределения участников в группы размер эффекта был завышен в среднем на 30—40% по сравнению с теми исследованиями, где этот процесс был правильным [2, 4, 5, 201]. В целом, плохо выполненные РКИ преувеличивают эффект лечения и характеризуются значимыми систематическими ошибками.
Только в высококачественных исследованиях с правильно выбранной структурой вероятность возникновения систематических ошибок сведена к минимуму. Разработка и внедрение РКИ требуют от исследователей методологического и клинического опыта, тщательности при выполнении [22, 106] и постоянной готовности к непредвиденным трудностям, не замеченным ранее проблемам и методологическим недостаткам. При написании отчета об РКИ также следует стремиться свести к минимуму возможность систематических ошибок. Читатели не должны теряться в догадках относительно применявшихся методов исследования, пытаясь разграничить исследования с достоверными и сомнительными результатами. Этика проведения клинических испытаний опирается на принципы добросовестной практики научных исследований, а результаты любых научных исследований следует представлять в соответствии с принципами добросовестной практики научных публикаций [202].
Эта пояснительная статья написана, чтобы облегчить авторам использование принципов CONSORT при написании отчетов об РКИ и объяснить в целом важность правильного представления их результатов. Заявление CONSORT может помочь исследователям при разработке новых испытаний и служить ориентиром рецензентам и редакторам при оценке рукописей. Материалы CONSORT находятся в непрерывном развитии, подвергаются динамичному процессу непрерывной оценки, уточнению и, при необходимости, изменению. Таким образом, изложенные в этой статье принципы CONSORT и контрольный перечень вопросов, которые рекомендуется рассмотреть при представлении отчета о РКИ [56-58], открыты для изменений по мере накопления новых данных и критических замечаний.
Использование первой версии заявления CONSORT, несмотря на ее несовершенство, по-видимому, привело к некоторому улучшению качества отчетов об РКИ в тех журналах, которые признали принципы CONSORT [54, 56-58]. Другие группы используют принципы CONSORT для улучшения качества отчетов исследований с другой структурой, например, испытаний диагностических тестов (Lijmer J., личное общение), мета-анализов РКИ [203] и мета-анализов обсервационных исследований [204]. Есть надежда, что этот дух сотрудничества будет сохранен и впредь.
На веб-сайте группы CONSORT (http://www.consort-statement.org) представлены обучающие материалы и база данных, в которой хранятся другие материалы, необходимые при составлении отчета об РКИ. Сайт включает множество примеров из реальных испытаний, в том числе все примеры, приведенные в этой статье. База данных будет пополняться новыми образцами правильного и неправильного представления результатов РКИ; дополнительные предложения можно направлять координатору CONSORT (Leah Lepage; llepage@uottawa.ca). Будут приложены все усилия к тому, чтобы сделать эти примеры легкодоступными и распространить их для повышения квалификации клинических исследователей сейчас и в будущем.
Принципы CONSORT будут периодически переоцениваться до тех пор, пока не появятся прямые доказательства важности каждого пункта из перечня вопросов и схемы проведения РКИ. Члены группы CONSORT продолжат поиск в литературе статей, посвященных различным аспектам улучшения качества отчетов об РКИ, и призывают авторов этих статей сообщать о них координатору группы. Вся эта информация будет размещена на сайте группы и будет регулярно обновляться.
Усилия группы CONSORT не прошли незамеченными. Редакционные коллективы многих журналов, включая Lancet, British Medical Journal, Journal of the American Medical Association и Annals of Internal Medicine, различные объединения редакторов биомедицинских периодических изданий, в том числе Международный комитет редакторов медицинских журналов (Ванкуверская группа) и Совет редакторов научных журналов, официально поддержали CONSORT. Другие издания, также обеспокоенные качеством отчетов о клинических испытаниях, могут присоединиться к их числу и сообщить о своей поддержке принципов CONSORT, зарегистрировавшись на сайте группы. В конечном счете, эти совместные усилия должны помочь людям, нуждающимся в любых видах медицинской помощи.
Словарь терминов
Скорректированный (стандартизованный) анализ (Adjusted analysis): обычно применяется для устранения (коррекции) исходной неоднородности важных характеристик участников между группами; иногда используется для коррекции значения P с учетом множественных измерений. См. Множественные сравнения.
Неблагоприятный эффект (Adverse event): нежелательный эффект, выявленный у участников РКИ; этот термин используется независимо от того, связан ли эффект с изучаемым вмешательством. См. также Побочный эффект.
Сокрытие распределения (порядка отнесения) участников РКИ в группы вмешательства (Allocation concealment): метод предотвращения систематической ошибки, связанной с отбором участников, за счет сохранения в тайне последовательности распределения участников в группы вмешательства от лиц, осуществляющих включение участников в РКИ, непосредственно до момента их отнесения к той или иной группе. Сокрытие распределения предотвращает влияние исследователей (неосознанное или сознательное) на распределение участников в группы вмешательства.
Соотношение распределения (порядка отнесения, рандомизации) (Allocation ratio): соотношение предполагаемого количества участников в каждой из групп сравнения. В РКИ с двумя группами это соотношение, как правило, равно 1:1, но иногда используется неравное распределение (например, в соотношении 1:2).
Последовательность (порядок) распределения (рандомизации) (Allocation sequence): перечень вмешательств, составленный с использованием методов генерации случайной последовательности, применяемый для отнесения последовательно включаемых участников к той или иной группе вмешательства. Также называется "список распределения", "список рандомизации" или "случайный список".
Систематическая ошибка, связанная с выявлением и подтверждением определенного клинического исхода (Ascertainment bias): систематическое искажение результатов РКИ при оценке клинических исходов исследователем или самим участником, знающим о применяемом вмешательстве.
Отнесение (распределение) (Assignment): См. Рандомизация (случайный порядок отнесения участников испытания к той или иной группе) (Random assignment).
Исходные характеристики (Baseline characteristics): демографические, клинические и другие особенности, отмечаемые у каждого участника в начале исследования, т.е. до применения вмешательства. См. также Прогностический признак (прогностически значимая переменная).
Систематическая ошибка (систематическое отклонение) (Bias): систематическое искажение оценки "истинного" эффекта вмешательства, связанное с неправильным выбором структуры РКИ, его проведением или анализом данных.
Слепой метод (маскирование вмешательства) (Blinding, masking): практика сохранения в тайне назначенного вмешательства от участников, медицинского персонала и лиц, осуществляющих сбор данных или оценку клинических исходов, а иногда и от лиц, проводящих анализ результатов. Слепой метод предназначен для предотвращения систематических ошибок, связанных с воздействием персонала, участвующего в проведении исследования. Чаще всего применяется двойной слепой метод (doubleblinding) — маскирование вмешательства от участников, медицинского персонала и лиц, осуществляющих сбор данных или оценку клинических исходов. Термин «маскирование» может быть использован вместо «ослепление».
Блоковая рандомизация (Block randomization): см. Рандомизация внутри блоков (Permuted block design).
Блок (Blocking): см. Рандомизация внутри блоков (Permuted block design).
Группы сравнения (Comparison groups): группы, в которых сравнивается эффективность различных вмешательств при рандомизированном исследовании; применяются также термины «группы исследования», «группы лечения/вмешательства» или отдельно «основная группа» и «контрольная группа».
Сокрытие (Concealment): см. Сокрытие распределения (порядка отнесения) участников РКИ в группы вмешательства (Allocation concealment).
Доверительный интервал (Confidence interval): мера точности оценки показателя. Интервал представляет собой диапазон значений, в пределах которого «истинная» величина этого показателя находится с определенной степенью вероятности (обычно 95%). Доверительный интервал измеряется в тех же единицах, что и показатель. Чем шире диапазон доверительного интервала, тем меньше точность оценки, и наоборот.
Влияние сопутствующих факторов (Confounding): искаженная оценка эффекта вмешательства в тех случаях, когда группы сравнения различаются не только по применяемым вмешательствам, но и по другим факторам (например, исходным характеристикам участников, прогностическим факторам или сопутствующей терапии). Чтобы сопутствующий фактор мог повлиять на изучаемый исход, он должен иметь прогностическое значение для этого исхода и должен быть неравномерно распределен в группах сравнения. См. также Скорректированный (стандартизованный) анализ (Adjusted analysis).
Детерминистский метод формирования групп (Deterministic method of allocation): метод отнесения участников к той или иной группе в заранее определенном порядке, не содержащем элемент случайности (например, поочередно в зависимости от дня недели, номера больницы или даты рождения больного). Так как о порядке отнесения известно заранее, это позволяет заинтересованным лицам вмешиваться в процесс формирования групп, способствуя систематической ошибке, связанной с отбором участников. См. также Систематическая ошибка, связанная с отбором участников, и Сокрытие порядка отнесения участников к той или иной группе (Selection bias; Allocation concealment).
Размер эффекта (Effect size): см. Эффект вмешательства (Treatment effect).
Критерии включения (Eligibility criteria): клинико-демографические характеристики, которые должны определяться у участников исследования.
Клинический исход (конечная точка исследования) (End point): см. Критерий оценки (Outcome measure).
Включение (Enrollment): акт допуска к участию в исследовании, осуществляемый только после обследования потенциальных кандидатов для оценки соответствия целям РКИ перед проведением рандомизации.
Внешняя валидность (обобщаемость, применимость) (External validity): степень применимости результатов данного РКИ при других обстоятельствах.
Наблюдение (Follow-up): периодические контакты исследователей с участниками в ходе рандомизированного исследования для выполнения назначенных вмешательств, их изменения, регистрации эффекта вмешательств и сбора данных. См. также Наблюдение не до конца исследования (преждевременное прерывание наблюдения)(Loss to follow-up).
Генерация последовательности распределения (отнесения участников к той или иной группе) (Generation of allocation sequence): процедура выработки случайной последовательности отнесения участников к той или иной группе с помощью таблицы случайных чисел или компьютерной программы генерации случайных чисел. Применяется при простой, блоковой или стратифицированной рандомизации.
Гипотеза (Hypothesis): предположение о том, что сравниваемые вмешательства по-разному влияют на клинический исход. Нулевая гипотеза об отсутствии этого различия требует проверки с помощью специальных статистических тестов, в ходе которых рассчитывают значение р.
Погрешность (Imprecision): количественное выражение неопределенности при оценке таких показателей, как размер эффекта; как правило, представляется в виде 95% доверительного интервала. Кроме того, в более общем плане означает все источники неопределенности, например ошибки измерения.
Анализ, проводимый из допущения, что все больные получили назначенное вмешательство (анализ в соответствии с назначенным вмешательством) (Intention-to-treat analysis): стратегия анализа данных, подразумевающая, что данные обо всех участниках анализируются в соответствии с тем, к какой группе вмешательства они были отнесены первоначально (вне зависимости от того, применялось ли в действительности это вмешательство). Такой анализ предотвращает систематическую ошибку, связанную с выбыванием или исключением участников при несоблюдении предписанных назначений и возможным из-за этого нарушением исходной однородности групп сравнения достигнутой в результате рандомизации.
Взаимодействие (Interaction): ситуация, в которой сила воздействия одной независимой переменной на исход изменяется под влиянием второй независимой переменной. В ходе РКИ проведение теста на взаимодействие позволяет выявить различие в размере эффекта между подгруппами. См. также Анализ в подгруппах (Subgroup analysis).
Промежуточный анализ (Interim analysis): сравнительный анализ групп вмешательства в любое время до формального завершения испытания; как правило, до окончания периода включения. Такой анализ часто используется вместе с правилами прекращения исследования, чтобы испытание могло быть остановлено, если его участники подвергаются неоправданному риску. Сроки и периодичность промежуточного анализа должны быть указаны в протоколе РКИ.
Внутренняя валидность (достоверность, обоснованность) (Internal validity): степень свободы исследования от систематических ошибок, обеспеченная выбором структуры и правильностью проведения РКИ.
Вмешательство (Intervention): лечение или другой метод изучаемого медицинского воздействия. Эффекты вмешательств количественно выражают с помощью критериев оценки исходов.
Наблюдение не до конца исследования (преждевременное прерывание наблюдения)(Loss to follow-up): потеря контакта с некоторыми из участников с невозможностью полного сбора всех запланированных данных. Преждевременное прерывание наблюдения является распространенной причиной отсутствия данных, особенно при долгосрочных исследованиях. См. также Наблюдение (Follow-up).
Минимизация (Minimization): метод формирования групп сравнения, который преследует те же цели, что и стратификация, и обеспечивает однородность групп вмешательства по конкретным прогностическим факторам. Рандомизированно относят к той или иной группе лишь первого больного, а всех последующих распределяют таким образом, чтобы свести к минимуму имеющуюся в этот момент неоднородность по конкретным прогностическим факторам. Минимизация является приемлемой альтернативой рандомизации (табл. 3).
Множественные сравнения (Multiple comparisons): многочисленные статистические анализы одних и тех же данных. Множественные статистические сравнения повышают вероятность возникновения ошибки первого типа: то есть выявляемое различие приписывается действию вмешательства, хотя оно имеет случайный характер.
Множественность результатов (Multiplicity): проведение в ходе РКИ большого числа сравнений, часто в связи с использованием множества критериев оценки исходов, многократной оценкой исходов в разные периоды времени после применения вмешательства, анализом в подгруппах или наличием нескольких групп сравнения.
Цели исследования (Objectives): общие вопросы, для ответа на которые проводится исследование. Цель может быть связана с проверкой одной или нескольких гипотез, которые помогают ответить на поставленные вопросы. См. также Гипотеза (Hypothesis).
Открытое испытание (Open trial): рандомизированное исследование, в котором не применялся слепой метод.
Критерий оценки исхода (Outcome measure): показатель, позволяющий оценить изучаемый клинический исход (так называемая конечная точка исследования). Предполагается, что различия этих показателей в группах сравнения обусловлены применением разных вмешательств. Основной (первичный) клинический исход представляет наибольший интерес для исследователей. Данные о дополнительных (вторичных) клинических исходах позволяют оценить дополнительные эффекты изучаемого вмешательства.
Участник (Participant): человек, принимающий участие в испытании, который, как правило, должен отвечать определенным критериям соответствия. См. также Включение и Набор потенциальных участников (Recruitment, Enrollment).
Систематическая ошибка, связанная с ходом исследования (Performance bias): систематические различия в лечении, которое проводится у больных в группах сравнения помимо изучаемого вмешательства.
Рандомизация внутри блоков (Permuted block design): способ рандомизации, который гарантирует постоянное соотношение (например, 1:1 или 2:1) между числом участников, отнесенных в группы сравнения: генерируется последовательность распределения, в которой число отнесений участников в группы вмешательства удовлетворяет определенному соотношению в каждом «блоке» с заранее определенным размером. Так, в блоке из 12 участников соотношение рандомизации может составлять 1:1 (6 участникам будет назначено вмешательство А, другим 6 участникам — вмешательство В) или 2:1 (в этом случае 8 участникам будет назначено вмешательство А, 4 участникам — вмешательство В). Генерация порядка отнесения участников к той или иной группе включает в себя случайный выбор из числа всех перестановок при соблюдении заданного соотношения рандомизации.
Запланированный анализ (Planned analyses): статистический анализ данных, указанный в протоколе испытания (то есть запланированный до сбора данных). Иначе называется априорным анализом и противопоставляется незапланированным анализам: исследовательским (exploratory), обусловленным полученными данными (data-derived) или вторичным (post hoc analyses). См. также. Анализ в подгруппах (Subgroup analyses).
Статистическая мощность (чувствительность) (Power): вероятность (как правило, рассчитываемая до начала испытания), что при испытании будет выявлен статистически значимый эффект вмешательства заданного размера. Зачастую, чтобы придать исследованию желаемую силу, подбирается определенный размер выборки. См. Размер выборки (Sample size).
Точность (Precision): см. Погрешность (Imprecision).
Прогностически значимая переменная (прогностический показатель) (Prognostic variable): исходная характеристика, которая влияет на исход в отсутствие вмешательства. Простая (неограниченная) рандомизация может привести к исходной неоднородности групп сравнения по прогностически значимым переменным, что искажает результаты и снижает достоверность исследования. Избежать этого позволяет применение методов стратификации и минимизации. См. также Скорректированный анализ, Ограниченная рандомизация.
Нарушение протокола (Protocol deviation): несоблюдение заданного протокола исследования как в целом, так и в отношении отдельных участников. Примерами могут быть ошибочное включение в РКИ участников, не отвечающих критериям включения, или применение у участников вмешательств, которые отличаются от указанных в протоколе.
Рандомизация; случайное распределение; случайный порядок отнесения участников в группы (Random allocation; random assignment; randomization): процесс отнесения участников в группы таким образом, что все из участников рандомизированного исследования имеют известные и, как правило, равные шансы быть отнесенными к данной группе. Рандомизация предназначена для того, чтобы невозможно было предвидеть заранее, в какую группу будет отнесен конкретный участник.
Набор участников (Recruitment): процесс подбора участников рандомизированного исследования. См. также Включение (Enrollment).
Ограниченная рандомизация (Restricted randomization): применение при рандомизации любого дополнительного метода, позволяющего уравновесить группы по размеру или исходным характеристикам участников. Блоковая рандомизация используется, чтобы обеспечить примерно одинаковый размер групп сравнения. При стратификации для обеспечения однородности исходных характеристик участников в группах вмешательства ограниченная рандомизация проводится отдельно в каждой из двух или более подгрупп участников (например, среди лиц с определенной тяжестью заболевания или при многоцентровых РКИ — в каждом медицинском центре) (таблица 3).
Размер выборки (Sample size): число участников РКИ. Планируемый размер выборки — это число участников, которое рассчитывают заранее с учетом статистической чувствительности, которой должно обладать исследование. Размер выборки должен быть достаточен для того, чтобы с высокой вероятностью выявить статистически значимый эффект заданного размера (если таковой существует на самом деле). Реальный размер выборки — это число участников испытания, прошедших рандомизацию, получивших предписанное вмешательство в ходе исследования или включенных в анализ.
Систематическая ошибка, связанная с отбором участников (Selection bias): систематические ошибки, возникающие при формировании групп вмешательства, приводящие к различиям в прогнозе между группами сравнения из-за явного и скрытого несоответствия исходных характеристик участников вследствие неправильного отбора и отнесения участников к той или иной группе. Термин используется также в значении нерепрезентативности выборки участников исследования по отношению ко всей популяции потенциальных участников. См. также Сокрытие отнесения участников к той или иной группе (Allocation concealment) и Внешняя валидность, обобщаемость (External validity).
Побочный эффект (Side effect): непреднамеренный, неожиданный или нежелательный эффект вмешательства. См. также Неблагоприятный эффект (Adverse event).
Простая рандомизация (Simple randomization): рандомизация, при проведении которой не использовались какие-либо дополнительные методы ограничения. При РКИ с 2 группами сравнения такой порядок рандомизации можно сравнить с подбрасыванием монеты. См. Ограниченная рандомизация (Restricted randomization).
Правило прекращения исследования (Stopping rule): статистический критерий, используемый в некоторых РКИ в ходе запланированного и указанного в протоколе промежуточного анализа данных для того, чтобы определить момент, когда исследование может или должно быть досрочно прекращено в связи с явными преимуществами или недостатками одного из вмешательств, когда нет необходимости в дальнейшем сборе данных или чтобы не подвергать участников неоправданному риску. См. также Промежуточный анализ (Interim analysis).
Стратифицированная рандомизация (Stratified randomization): проведение рандомизации в подгруппах, выделенных в соответствии с характеристиками участников, такими как возраст или тяжесть заболевания, призвано обеспечить при формировании групп сравнения оптимальный баланс этих характеристик в группах вмешательства. См. также Ограниченная рандомизация (Restricted randomization).
Анализ в подгруппах (Subgroup analysis): анализ, в котором эффект вмешательства оценивается в определенных подгруппах участников испытания либо в дополнительных подгруппах, выделенных, например, по полу или по возрастным категориям. Размер выборки при анализе в подгруппах обычно очень мал, поэтому его статистическая чувствительность низка. При проведении анализа в подгруппах исследователи сталкиваются с проблемами, характерными для множественных сравнений. См. также Множественные сравнения (Multiple comparisons).
Эффект вмешательства (Treatment effect): показатель, отражающий различия в клинических исходах между группами сравнения. Обычно выражается как отношение рисков (относительный риск), отношение шансов, разница рисков для бинарных результатов и разница средних для непрерывных данных. Часто обозначается как «размер эффекта».
Со списком литературы можно ознакомиться на сайте
http://www.consort-statement.org
или запросить в издательстве по адресу: rpc@sticom.ru