0,05. Доказательная медицина от магии до поисков бессмертия Талантов Петр

Впрочем, справедливо ли считать, что, в отличие от наблюдательных исследований, любая находка рандомизированного клинического эксперимента – непреложная истина? Да, двойные слепые рандомизированные эксперименты по праву считаются золотым стандартом доказательности в медицине. Но было бы наивно полагать, что они всегда дают верные и объективные ответы. Реальность клинических испытаний, в которой сталкиваются интересы производителей, ученых, регулирующих органов и пациентов, намного сложнее.

Часть пятая

Мошенники и исследователи

Глава 13

Как разрабатывают лекарства

Клинические испытания – лишь одно из последних звеньев большого и трудоемкого процесса создания и вывода нового лекарства на рынок. Процесс может растягиваться на десятилетия и стоить до миллиарда долларов, а положительный результат в конце этого пути проб и ошибок не гарантирован.

Многие представляют процесс примерно так: ученые размышляют о механизмах болезни, а потом предлагают способ повлиять на них, прервав патологический процесс или запустив недостающий. Однако для создания лекарств таким образом нашего понимания работы организма пока недостаточно. Организм сложен, и любая субстанция может подействовать не там и не так, как ожидали разработчики, не вылечив пациента или вызвав неожиданные побочные эффекты.

Доклинический поиск

Исследования, не предполагающие участия людей, называют доклиническими (или неклиническими). С них начинается разработка препарата. Ее первый этап – поиск биологической мишени. Так называют присутствующую в организме молекулу, на которую будет нацелено еще не созданное лекарство. Лекарство может влиять на течение болезни, связываясь с биологической мишенью или изменяя ее. Известно несколько сотен биологических мишеней, в большинстве случаев это белки. Например, зная, что фермент циклоксигеназа обеспечивает синтез необходимых для воспалительной реакции простагландинов, мы можем выбрать его в качестве мишени для будущего противовоспалительного препарата. Если мы найдем вещество, которое будет подавлять циклоксигеназу, то можем рассчитывать уменьшить выработку простагландинов, а значит, и воспаление.

Выбор мишени – решение важное и непростое. Оно основано на представлении о механизмах болезни, которое может быть ошибочным или неполным. И всегда есть риск, что разработчики узнают об этом лишь на самых поздних этапах. Нельзя также исключать, что выбранная мишень участвует не только в патологическом процессе, на который мы хотим повлиять, но и в реализации каких-либо важных функций. Тогда, влияя на нее, мы можем вызвать нежелательные эффекты, которые перевесят любую пользу.

Когда биологическая мишень выбрана, начинается поиск молекулы, способной на нее влиять. Молекулы лекарственных веществ делят на две основные группы. Большинство представленных на рынке лекарств относится к малым молекулам (или низкомолекулярным). Это молекулы небольшого размера, вес которых не превышает 900 дальтон[185]. Такая граница выбрана, поскольку молекулы с размерами в пределах этого порога могут легко проникать через клеточную мембрану и действовать на мишени не только снаружи, но и внутри клетки. Пример такого вещества – состоящий всего из 21 атома аспирин. Биологическими молекулами называют вещества, размер молекул которых превышает порог в 900 дальтон, большинство из них – белки. Они не могут проникать в клетку и действуют только на мишени вне ее или на ее поверхности, скажем, на клеточные рецепторы. Пример – состоящее из 25 тысяч атомов антитело. В процессах поиска малых и биологических молекул есть некоторые отличия.

Поиск малых молекул, способных влиять на биологическую мишень, ведут путем перебора огромного количества химических веществ. Сейчас этот процесс в значительной степени автоматизирован и компьютеризован. Те компании, которые могут себе это позволить, используют роботизированные системы высокопроизводительного скрининга, позволяющие тестировать целые библиотеки веществ, содержащие до сотен тысяч компонентов. Библиотеки создают как путем случайных модификаций, так и с помощью компьютерных систем, которые просчитывают, какие свойства вещества повысят вероятность его взаимодействия с мишенью. Для этого же в последнее время пытаются применять и трехмерное моделирование.

Поиск с помощью высокопроизводительных скрининговых систем представляет собой полноценный контролируемый эксперимент. Вещества из библиотеки находятся в растворе в ячейках микротитрационных планшетов – пластиковых контейнеров с нанесенными в виде сетки небольшими углублениями. Информацию о содержимом ячеек хранит компьютерная система. Часть ячеек играет роль контрольной группы. Роботизированная система вводит в ячейки биологическую мишень – белок или культуру клеток, оценивает реакцию и определяет, какие ячейки дают статистически значимые отличия от контроля. Сейчас существуют системы, позволяющие оценивать до десяти миллионов реакций в час. Предполагается, что системы высокопроизводительного скрининга со временем сократят время разработки лекарств по сравнению с перебором веществ по старинке, вручную.

Поиск биологических молекул предполагает перебор меньшего количества вариантов на начальном этапе, поскольку разработчик примерно знает, что хочет получить. Биологические молекулы, как правило, синтезируются живыми системами – микроорганизмами, клетками животных или растений. Для того чтобы клетки синтезировали нужные молекулы, часто используют технологию рекомбинантной ДНК. Это последовательность ДНК, искусственно созданная человеком путем объединения генетического материала из разных источников – как синтезированного химическим путем, так и скопированного из разных организмов. При поиске тоже могут быть использованы библиотеки биологических молекул, например антител.

Когда наиболее вероятные вещества-кандидаты выбраны, начинается их оптимизация. Разработчики синтезируют варианты молекул, имеющие некоторые структурные отличия от исходного, тестируют их и выбирают те, что лучше всего взаимодействуют с биологической мишенью. Этот процесс может повторяться многократно. Шансы отдельно взятой молекулы, изученной на этапе скрининга, когда-нибудь стать лекарством могут составлять тысячные доли процента. Увы, сцены из фильмов, в которых гениальный ученый после некоторых раздумий рисует на доске формулу искомого вещества, очень далеки от реальности.

Помимо способности взаимодействовать с мишенью при отборе учитывают еще несколько факторов, например вероятность побочных эффектов. Для этого нужно понимать, будет ли вещество взаимодействовать с другими схожими мишенями человеческого организма. Например, в нашем теле содержится несколько сотен ферментов, относящихся к классу киназ. Если одна киназа выбрана в качестве мишени, в процессе скрининга стоит проверить взаимодействие веществ не только с ней, но и с другими похожими киназами. Если оно есть, риск нежелательных эффектов велик. В случае биологических молекул также важно минимизировать риск иммунного ответа со стороны организма пациента. Этого можно добиться, “очеловечивая” выработанные клетками других видов белки – при этом их фрагменты меняют так, чтобы они меньше отличались от человеческих.

Важно понимать, как вещество будет всасываться, распространяться и изменяться в организме. Хотя окончательный ответ дадут только исследования на животных и людях, уже на раннем этапе оптимизации веществ можно отсечь те, свойства которых помешают им стать лекарством. Например, если мы ищем лекарство от распространенного хронического заболевания, его желательно выпускать в форме таблетки для перорального применения[186]: лекарство, которое нужно вводить внутривенно, сложнее применять самостоятельно, и это может затруднить массовые продажи.

Биологические молекулы не всасываются в кишечнике и вводятся внутривенно. Если они вызывают в организме пациента выраженный иммунный ответ, то будут быстро удалены из кровотока. Если же удается создать препарат, циркулирующий в крови дни, недели и даже месяцы, редкий прием может вполне компенсировать необходимость делать инъекцию.

Нужно также учитывать производственные, экономические и юридические моменты. Желательно, чтобы вещество было стабильным при хранении: если оно быстро разрушается, срок годности будет невелик. Нужна возможность производить его в промышленных масштабах, и процесс производства не должен быть слишком дорогим. Важно учитывать и патентные риски: если что-то может помешать защите патента, лучше не начинать длительный и дорогостоящий процесс: риск слишком велик.

Поскольку каждый последующий этап разработки дольше и дороже предыдущего, в интересах фармкомпании (именно они в большинстве случаев и разрабатывают лекарства) обнаружить бесперспективность проекта как можно раньше и остановить его до того, как вложения, которые не удастся вернуть, станут чрезмерными.

Поскольку организм не является простой суммой частей, исследования на отдельных белках-мишенях или клетках не могут заменить экспериментов на целых организмах. Поэтому на более поздних этапах доклинического поиска тесты нескольких типов на лабораторных животных неизбежны.

Фармакодинамическими называют исследования, задача которых изучить, как вещество влияет на тело. Очень желательно еще до начала долгих и дорогих исследований на людях показать на животных моделях, что лекарство может работать. Также во время фармакодинамических исследований определяют дозу, необходимую для получения эффекта. С помощью этих данных позже определят, с какой дозы начинать испытания на людях.

Иногда в качестве моделей получается использовать животных с той же болезнью, для которой разрабатывается лекарство, но на практике заболевания, абсолютно идентичные человеческим, встречаются у животных нечасто. Поэтому в качестве модельных выступают животные с похожими, на взгляд исследователей, состояниями. Так, например, моделью инсульта могут стать животные, чье мозговое кровообращение было искусственно нарушено. Симптомы при этом возникают те же, что при инсульте, вызванном закупоркой сосуда головного мозга тромбом. Для имитации остеоартрита кроликам вводят в суставы йодацетат натрия – через 2–4 месяца у них развивается похожее состояние. В некоторых случаях сходство очень условно. Непросто подбирать модели психических заболеваний: непреодолимый коммуникационный барьер между нами и животными не позволяет найти у них аналоги, например, шизофрении. Поэтому в качестве модели этой болезни используют животных с изменением поведения, напоминающим исследователям симптомы этой болезни. Конечно, полезность таких моделей сомнительна.

Другая важная группа исследований – фармакокинетические. Их задача – определить, как тело влияет на вещество. Важно понимать, как оно всасывается, изменяется в организме и выводится из него. Нужно убедиться, что, с одной стороны, вещество сохраняется в крови достаточно долго и успеет подействовать, с другой – вовремя разрушится и не будет накапливаться. Кроме того, в процессе метаболизма – преобразования вещества в теле – не должны возникать ядовитые субстанции.

Одна из основных задач исследований на животных – показать, что начинать испытания на людях относительно безопасно. Для этого проводят обязательные тесты на общую токсичность, включающие изучение общетоксических, канцерогенных, генотоксических свойств, влияние на репродуктивную функцию и развитие плода, а также при необходимости дополнительные тесты на специфическую токсичность – например, глазной препарат будут отдельно исследовать на токсичность для глаза[187]. При этом обязательно используют не менее двух видов животных, один из которых – не грызуны.

Если на этом этапе вы не наблюдали слишком опасных эффектов, если достаточная для лечения доза намного ниже той, которая вызывает опасные эффекты, и если выполнены все остальные условия, поздравляю – у вас есть вещество для клинических испытаний.

Клинические испытания I фазы

Регулирующие организации выдают разрешение на проведение экспериментов на людях, изучив данные об эффективности и безопасности вещества, полученные на доклинической стадии. Выделяют до четырех этапов клинических испытаний, три из которых проводят до выхода препарата на рынок – их называют испытаниями I, II и III фазы (далее КИ I, II и III фазы). Испытания IV фазы проводятся уже после начала широкого применения препарата.

Задача клинических испытаний I фазы – убедиться, что вещество-кандидат безопасно для человека. В них участвуют до нескольких десятков человек. Участников могут разделить на группы, которые получают разные дозы. Иногда может быть выделена контрольная группа, получающая плацебо. В КИ I фазы определяют максимально переносимую дозу – наибольшую дозу, не приводящую к токсическим эффектам, а также описывают эти эффекты (данные пригодятся при планировании следующих фаз). Исследование начинают с минимальной дозы, рассчитанной по результатам тестов на животных. Если все в порядке, дозу увеличивают. Вторая задача I фазы – изучить фармакокинетику и фармакодинамику вещества, теперь уже на людях.

Большинство испытаний I фазы проводят на здоровых людях. Хотя их называют добровольцами, а на сайтах рекрутирующих организаций обычно можно найти призывы принести пользу обществу, участие – платное. В экономически развитых странах доброволец может получить до нескольких тысяч долларов за одно исследование[188]. Это работа, не всегда приятная и всегда рискованная. Нетрудно догадаться, кто за нее берется. Это необеспеченные студенты, социально неустроенные люди, бедные эмигранты и безработные.

В 2015 году в газете The Atlantic Daily вышло журналистское расследование “Жизнь профессиональной подопытной свинки”. Статья рассказала о том, что в США в КИ I фазы участвуют, как правило, одни и те же люди из небольшого и сплоченного сообщества. Они делятся информацией о новых клинических испытаниях в sms-рассылках, вместе ездят по стране, чтобы попасть в как можно большее количество исследований, обучают новичков, в том числе и тому, как обмануть рекрутеров и пройти отбор, даже если не соответствуешь требованиям. Многие в течение жизни участвуют в нескольких десятках экспериментов. Один из них поделился с журналистом историей “профессиональной подопытной свинки”:

Я узнал об этом от незнакомого чувака в баре. Тот уже хорошо выпил и болтал про место, где ему платили 2500 долларов за то, что он принимал обезболивающие и пил алкоголь. Все смеялись над ним типа: “Да ну, ты п…шь”.

Однако это оказалось правдой. Не имея постоянной работы и соблазнившись обещанием больших денег, он записался участником в четырехнедельное исследование взаимодействия обезболивающего и алкоголя.

Это было довольно жестко. Многим было очень плохо, я блевал. Персонал велел нам использовать ведра, а не туалет, чтобы они могли изучить блевотину и определить, какая часть таблетки переварилась до того, как выйти наружу. После первого раунда я придумал бегать в туалет сразу после каждой таблетки и блевать, чтобы избежать тяжелой побочки. Персонал ни о чем не догадался.

Использование нуждающихся людей может вызвать этические вопросы, но они хотя бы понимают, что происходит и каковы возможные риски. Более спорно использование в испытаниях I фазы пациентов, потерявших надежду на исцеление. Это может быть оправдано, если разрабатывается лекарство против опасного, неизлечимого заболевания. Или если вероятность побочных эффектов так высока, что его можно применять только на людях, которым оно дает шанс на спасение. Увы, иногда больных приглашают в исследование и для того, чтобы быстрее набрать нужное число участников или сэкономить: в отличие от добровольцев им не нужно платить.

Опрос показал, что более половины из таких пациентов не понимают смысла того, в чем участвуют, и считают, что это эксперимент по оценке эффективности лекарства. Большинство надеется на улучшение здоровья, хотя шансы на это ничтожны: дизайн исследований I фазы не предполагает лечение пациента, и вероятность, что вещество-кандидат работает, на этом этапе очень мала[189].

Воспроизводятся ли на людях результаты испытаний на животных

Не более трети проектов по поиску вещества-кандидата доходят до стадии клинических испытаний, и только один из десяти дошедших завершается регистрацией лекарства. В некоторых областях медицины шансы еще меньше: в онкологии все этапы клинических испытаний проходит менее чем каждый двадцатый проект[190]. Значительную их часть закрывают на ранних стадиях. Это происходит потому, что вещество не демонстрирует на людях эффективность, какой от него ожидали по результатам доклинических исследований, или оказалось опасным, хотя не причиняло лабораторным животным никакого вреда в тех же или даже бльших дозах.

В 2006 году шестеро молодых людей были госпитализированы в отделение интенсивной терапии в тяжелом состоянии. Все они были добровольцами в испытании I фазы препарата TGN1412 – такие коды обычно используют до присвоения лекарствам названия. Вещество TGN1412, разработанное германской компанией TeGenero, казалось многообещающим. Оно представляет собой антитело, связывающееся с рецепторами Т-клеток, которые играют центральную роль в работе иммунной системы. Предполагалось применять TGN1412 для лечения некоторых типов рака крови, ревматоидных артритов и других заболеваний, связанных с нарушением работы иммунной системы. Доклинические исследования, в том числе на макаках, не выявили никакой опасности.

Для проходившего в Великобритании испытания I фазы нашли восемь человек, каждому из которых заплатили по 2 тысячи фунтов стерлингов. Шестерых распределили в экспериментальную группу, двоих – в группу плацебо. Почти сразу после внутривенного введения все, кто получил препарат, ощутили сильный жар и боль во всем теле. Лица добровольцев распухли, пальцы рук и ног почернели и начали отмирать – одному из пострадавших пришлось их впоследствии ампутировать. Один из участников рассказал:

Я чувствовал, как моя голова распухает и становится размером со слоновью. Я боялся, что глаза выскочат из орбит. Внезапно меня охватила жуткая боль, которую я даже не могу описать. Затем она еще усилилась, а давление в голове было такое, как будто на ней припарковался грузовик.

TGN1412 вызвал у добровольцев так называемый цитокиновый шторм – массовый выброс иммунными клетками белков, запускающих воспалительную реакцию. Это приводит к повсеместному отеку, похожему на острейшую аллергическую реакцию, и другим проявлениям острого воспаления во всем теле. Через некоторое время к уже описанным симптомам добавился отказ внутренних органов, двое оказались в угрожающем жизни состоянии. У одного добровольца отказали сердце, печень и почки, и он больше двух недель пролежал в коме.

К счастью, всех шестерых удалось спасти. Создавшая препарат компания TeGenero разорилась, а права на TGN1412 были выкуплены московским стартапом “Терамаб”, который переименовал препарат в TAB08 и приступил к проведению новых клинических испытаний, на этот раз в России. Доза препарата была значительно уменьшена, и теперь, по словам исследователей, езопасна. Но обнаружится ли у препарата в столь малой дозе терапевтический потенциал – большой вопрос. TGN1412 вызвал цитокиновый шторм в дозе в пятьсот раз меньшей, чем та, которую испытания на животных определили как максимальную безопасную. Позже были найдены не известные в момент драматического эксперимента тонкие различия в работе иммунных систем человека и макаки.

Пример TGN1412 учит нас тому, что любые исследования на животных не гарантируют безопасность людей, поэтому новый препарат как минимум не нужно вводить всем добровольцам одновременно. Увы, уже 2016 год показал, что урок выучили не все. На сей раз клиническое испытание I фазы закончилось трагедией: у одного из добровольцев констатировали смерть мозга, еще шестеро оказались в критическом состоянии, но выжили, хотя нервной системе троих был причинен необратимый ущерб. Вещество BIA 10–2474 должно было стать действующим на каннабиноидную систему обезболивающим. В доклинических исследованиях оно было обстоятельно и без осложнений проверено на разных животных, включая шимпанзе.

Одна из самых известных трагедий в истории фармакологии – история успокоительного препарата талидомид. Парадоксальным образом ее часто используют, чтобы обосновать важность доклинических испытаний на животных. Хотя скорее это яркая иллюстрация того, что те не дают никаких гарантий безопасности.

Талидомид оказался в поле зрения фармакологов из-за структурного сходства с уже зарегистрированными успокоительными препаратами. В 1957 году компания Chemie Grnenthal выпустила его на рынок как успокоительное. Среди показаний к применению была так называемая утренняя тошнота беременных. Под разными торговыми марками он успешно продавался в Германии, Великобритании, Австралии, Новой Зеландии и еще сорока странах. Первый тревожный звонок раздался в конце 1959 года. Было замечено, что при длительном приеме талидомид вызывает периферический неврит. Чуть позже стало ясно, что это мелочи по сравнению с постепенно открывающейся картиной глобальной катастрофы.

В декабре 1961 года журнал The Lancet опубликовал письмо австралийского гинеколога Уильяма Макбрайда, обратившего внимание на появление на свет сразу нескольких новорожденных с необычным дефектом конечностей (все матери принимали талидомид). Его опасения вскоре подтвердились: выяснилось, что талидомид обладает сильнейшим тератогенным эффектом, то есть вызывает нарушение внутриутробного развития плода, а именно недоразвитие глаз, деформацию ушей, внутренних органов. Самым распространенным дефектом была фокомелия (от греч. “тюленьи конечности”) – полное отсутствие или значительное недоразвитие рук и ног. К тому моменту, как продажи препарата были остановлены, у принимавших талидомид матерей уже родилось как минимум 10 тысяч детей с дефектами. Почти половина из них умерли в течение нескольких месяцев после рождения[191].

В результате этой трагедии требование испытывать препарат на беременных животных стало во многих странах обязательным. Но лучше бы это было не единственным последствием. Сейчас принято говорить, что трагедия стала возможной, поскольку производитель не проверил талидомид на беременных животных. Но мы не знаем наверняка, так ли это: сотрудники Chemie Grnenthal уничтожили значительную часть документов. Упоминание о таких исследованиях есть, и к тому времени в столь крупных фармкомпаниях они были обычной практикой. Однако важно здесь то, что эти испытания в любом случае не могли предотвратить проблему.

После обнародования информации о связи талидомида и фокомелии сразу несколько исследовательских групп провели эксперименты на животных. В большинстве случаев обнаружить тератогенный эффект не удалось. У мышей он не наступает даже при дозировках порядка 4000 мг/кг[192], хотя у человека проявляется уже при 0,5 мг/кг. Лишь у некоторых грызунов обнаружили влияние на развитие плода очень больших доз талидомида, причем сами эффекты были другими, фокомелия появлялась только у приматов. Причина в сложности метаболического пути, который талидомид проходит в организме. Он расщепляется с образованием более ста метаболитов, при этом разные виды животных расщепляют талидомид по-разному. Настолько по-разному, что при разработке лекарства у лабораторных животных не наблюдали успокоительного эффекта, ярко выраженного для человека.

Разное действие вещества на разные виды животных не редкость. Обзор 38 лекарств, тератогенных для человека, показал, что для плода мышей, крыс, кроликов, хомяков и обезьян опасны соответственно 85%, 80%, 60%, 45% и 30% из них. Любопытно, что в этой выборке обезьяны показали даже меньше сходства с людьми, чем грызуны[193]. Например, лекарство от рака аминоптерин тератогенно для человека, но два исследования на обезьянах не выявили проблем. Хотя разброс результатов для конкретных видов в разных обзорах велик и зависит от выбранного метода, обычно авторы приходят к выводу, что верно предсказать тератогенный эффект у человека с помощью экспериментов на животных можно лишь чуть больше чем в половине случаев.

С другой стороны, известно более тысячи веществ, вызывающих аномалии плода у грызунов и других лабораторных животных, но не у человека. Можно предположить, что некоторое количество безопасных лекарств не доходит до рынка из-за того, что показывает на доклиническом этапе опасные эффекты, которые не проявились бы на клиническом. Показателен пример аспирина: сотни тысяч беременных женщин принимают его без негативных последствий, а для плода макак-резусов он опасен. Если бы производству аспирина предшествовали эксперименты на беременных макаках, его никогда не разрешили бы беременным женщинам. Это справедливо и для таких широко применяемых лекарств, как фуросемид, фенобарбитал, дигоксин и метронидазол, которые для некоторых животных исключительно токсичны в очень небольших по нашим меркам дозах. Согласно анализу FDA 1980 года, эксперименты на приматах правильно предсказывают безопасность для плода лишь в 80% случаев, на мышах и хомяках – в 35% случаев. Средний результат для разных видов и в этом случае был около 50%.

Вышеизложенное касается не только тератогенности. Исследование 1990 года показало, что лишь 62% побочных эффектов выявили в доклинических испытаниях. Другой обзор – что 22 побочных эффекта были предсказаны верно, а 48 – неверно, то есть наблюдались у животных, но не у человека, а 20 наблюдались у человека, но не были предсказаны на животных. Несмотря на то что корреляция между результатами токсических тестов на животных и побочным действием у человека есть и отказываться от этих тестов ни в коем случае нельзя, они ненадежны и не гарантируют безопасности препарата.

Лишь 60% препаратов, дошедших до I фазы, переходят к следующей. На этом этапе проект может закрыться по разным причинам: из-за токсических эффектов, или потому, что максимально допустимая доза слишком мала для лечения, или потому, что фармакокинетика вещества у человека, например слишком быстрое выведение из организма, ставит возможность его применения под сомнение.

Клинические испытания II фазы

Цель испытаний II фазы – показать, что вещество может лечить людей. Здесь уже участвуют не здоровые добровольцы, а от 100 до 300 пациентов с целевым заболеванием, которых тщательно отбирают, чтобы получить достаточно однородную группу и не пропустить полезный эффект. Также в клинических испытаниях II фазы определяют оптимальные схемы лечения, на основе которых будет планироваться следующий этап. Для этого пациентов делят на несколько групп, получающих разные дозировки, и сравнивают результат.

Хотя результаты в разных областях отличаются, в среднем не более 30% проектов переходят от этой фазы к следующей. Самая распространенная проблема II фазы в том, что вещество впервые с начала разработки должно показать эффективность при лечении настоящей болезни у человека и это получается далеко не всегда. Вторая причина – проблемы с безопасностью не выявленные на предыдущей стадии. Решение переходить к III фазе очень рискованно для компании-производителя, поскольку влечет за собой значительное удорожание проекта. Иногда проект закрывают из экономических соображений. Например, за время, прошедшее с начала разработки, на рынок мог выйти более дешевый и не менее эффективный препарат конкурента. В этом случае шансы нового лекарства на коммерческий успех снижаются, и дальнейшее увеличение затрат может быть сочтено неоправданным.

Иногда провал испытаний II фазы может неожиданно обернуться большой удачей. В 1992 году компания Pfizer начала испытания вещества-кандидата под кодовым номером UK-92,480. Разработчики надеялись, что ингибитор фермента PDE5 будет расслаблять сосуды сердца и помогать от стенокардии[194]. Увы, эффект оказался ничтожно мал.

Заполняя по окончании испытания анкеты, некоторые добровольцы отметили в графе побочных эффектов невероятно сильную и длительную эрекцию. Никакого энтузиазма у исследователей это не вызвало, и UK-92,480 наверняка канул бы в небытие, если бы одному из членов команды не попалась на глаза статья, где обсуждалась роль PDE5 в механизме возникновения эрекции. В Pfizer поняли, что могли случайно наткнуться на золотую жилу. Было организовано масштабное испытание III фазы при участии 3700 пациентов с эректильной дисфункцией. UK-92,480 оказался эффективным в 63% случаев. Исследователи вспоминают, что хотя исследование было двойным слепым, понять, что пациент попал в экспериментальную группу, не составляло труда: многие категорически отказывались возвращать неиспользованные остатки препарата. Выведенный на рынок как “Виагра”, он стал одним из блокбастеров современной фармакологии с годовыми продажами, достигавшими на пике 1,88 миллиарда долларов США.

К причинам провала, характерным для предыдущей фазы, во II фазе добавляется отсутствие лечебного эффекта, которого ожидали по результатам доклинических исследований. Часто проблема вызвана недостаточным качеством последних. Все, что мы говорили о правильном дизайне РКИ, справедливо и для доклинического поиска. Отсутствие рандомизации, ослепления, двойного ослепления приводит к ошибочным результатам, которые не подтверждаются в исследованиях клинического этапа[195].

Помимо того, есть специфические проблемы, связанные с использованием животных и клеточных культур. Невоспроизводимость лечебных эффектов, как и побочных, может быть вызвана слишком большими отличиями между организмами разных видов. Плюс мы редко можем проверить вещество на животном с той же болезнью, что у людей, и вынуждены использовать животные модели – аналогию слишком приблизительную, чтобы целиком на нее полагаться.

Еще меньше шансов воспроизвести на человеке эффект, который наблюдался только in vitro, например на культуре клеток. Наши представления о механизмах болезни настолько неполны, что такие изолированные находки не гарантируют пользы для пациента. В целом организме есть много факторов, отсутствующих в лабораторных условиях и способных кардинально изменить эффект. А недавно мы начали осознавать масштаб еще одной проблемы, которая ставит под сомнения результаты многих исследований на клеточных культурах.

Первого февраля 1950 года в гинекологическое отделение госпиталя Джонса Хопкинса поступила тридцатилетняя темнокожая женщина по имени Генриетта Лакс. Осмотр шейки матки выявил опухоль двух-трех сантиметров в диаметре. Биопсия подтвердила ее злокачественный характер: это была карцинома, по виду несколько отличавшаяся от большинства опухолей такого типа. Опухоль оказалась очень агрессивной. Несмотря на курс радиотерапии, состояние Генриетты стремительно ухудшалось, и в октябре того же года она скончалась. Вскрытие показало множественные метастазы практически во всех органах.

Полученная в ходе биопсии опухолевая ткань была передана для исследовательских целей в Лабораторию тканевых культур, созданную в том же госпитале. Руководитель лаборатории Джордж Ги собирал образцы тканей, поскольку преследовал амбициозную цель – создать и поддерживать коллекцию здоровых и патологических клеточных линий[196], которые можно было бы использовать в качестве стандартных моделей для исследовательской работы. Сложность заключалась в недолговечности клеток. После определенного количества циклов деления они переставали размножаться и в течение нескольких дней умирали, а значит, требовались новые образцы. Конечно, иметь клеточные культуры, которые живут очень долго, было бы удобнее. Все клетки в такой культуре – одинаковые[197] потомки одной исходной клетки, поэтому эксперименты можно было бы проводить длительно, неоднократно и результаты их были бы сравнимы.

Клетки Генриетты Лакс отличались от полученных ранее образцов. Они были невероятно агрессивны – прежде сама возможность столь стремительного развития карциномы шейки матки ставилась под сомнение[198]. Когда лаборант поместил клетки Генриетты Лакс в питательную среду, они стали интенсивно размножаться. Более того, со временем их размножение не прекращалось. Шли дни, недели, месяцы, а невероятно живучая клеточная культура продолжала существовать. Так появилась первая бессмертная линия человеческих клеток. По первым буквам имени и фамилии Генриетты Лакс (англ. Henrietta Lacks) она была названа HeLa.

HeLa стала самой используемой и распространенной клеточной линией. По некоторым оценкам, всего исследователи произвели 50 тонн HeLa, и все это потомки одной единственной клетки опухоли Генриетты Лакс. За ней последовали другие бессмертные линии, которые применяли в качестве стандартных моделей как здоровых, так и патологических тканей, в первую очередь раковых. Поскольку сравнимость исследований важна, ученые активно обменивались образцами друг с другом и могли, работая над одной проблемой в разных частях света, использовать одни и те же клетки. Мечта Джорджа Ги стала реальностью. Клеточные культуры помогали в изучении механизмов болезни и, конечно, при создании лекарств.

Первые признаки проблемы появились в начале шестидесятых годов прошлого века. Как выяснилось, если при малейшем нарушении процедуры агрессивные и живучие клетки HeLa попадают в другие клеточные культуры, они начинают там размножаться, постепенно вытесняя и заменяя собой исходную линию. В 1967 году были изучены 19 распространенных линий человеческих клеток. Хотя про некоторые было известно, что они получены от людей европеоидной расы, анализ показал, что все они с высокой вероятностью принадлежали темнокожей женщине.

К 1974 году стало понятно, что HeLa проникла в лаборатории по всему миру: пять клеточных линий, присланных в США из СССР, были идентифицированы как HeLa. Примерно в то же время прозвучало предположение, что они заменили собой от 10 до 20% используемых учеными клеточных культур. HeLa явно вышла из-под контроля и зажила своей жизнью. Это позволило некоторым специалистам утверждать, что HeLa – новый биологический вид и, более того, первая форма жизни, достигшая бессмертия.

Проблема была не только в HeLa: проверка двух распространенных клеточных линий, которые считали раком молочной железы, показала, что одна из них – HeLa, а вторая принадлежала крысе. Другие стандартные человеческие линии оказались клетками хомяка, крысы, мыши, мангуста и норки. Клетки гиббона оказались человеческими, а лошадиные – собачьими.

Оценить масштаб проблемы можно благодаря анализу, проведенному Кристофером Корчем, генетиком из Колорадского университета. Он собрал исследования, в которых использовали две клеточные линии: HEp-2, считавшуюся раком гортани, и модель клеток кишечника INT 407. Еще в 1967 году стало известно, что обе линии на самом деле являются HeLa. Но это не помешало многим исследователям продолжать их использовать. Корч обнаружил, что HEp-2 фигурировали в качестве клеток гортани минимум в 5789 научных публикациях, а INT 407 как клетки кишечника – в 1336. На эти исследования было потрачено не менее 713 миллионов долларов США, а если считать и последующие, основанные на результатах этих, цена игнорирования проблемы достигает 4 миллиардов.

Какова реакция исследователей? Легко представить, что они без восторга встречают информацию о том, что клетки, на которых основаны их работы, на самом деле являются чем-то другим. Поскольку это ставит под сомнения результаты их труда и дальнейшие исследования, многие предпочитают делать вид, будто проблемы просто нет. Лишь очень немногие публикации были отозваны или исправлены на основе информации о неверной идентификации клеточных линий. Типична судьба ECV304, которую использовали как модель клеток, выстилающих кровеносные сосуды. В 1999 году было установлено, что на самом деле это рак мочевого пузыря. После чего вышли еще более тысячи статей, описывавших исследования, где ECV304 использовалась ошибочно. Авторы одной из них откровенно написали, что поскольку идеальной модели все равно не существует, они не видят проблемы в использовании тех культур, которые так или иначе оказались в их распоряжении.

Лишь недавно ситуация начала медленно, но меняться в лучшую сторону. Во многом это происходит благодаря двадцати ученым, создавшим группу, названную Международным комитетом идентификации клеточных линий (англ. International Cell Line Authentication Committee, ICLAC). Их усилиями некоторые научные журналы начинают в качестве обязательного условия публикации требовать информацию об идентификации использованной клеточной линии. На своем сайте ICLAC поддерживает актуальную информацию об ошибочно идентифицированных линиях. На момент написания этой книги их 488, из них 113 – HeLa.

Клинические испытания III фазы

В клиническом испытании III фазы обычно участвуют до нескольких тысяч пациентов (современные кардиологические исследования могут включать до 10–20 тысяч участников), и продолжаться оно может от двух до 10–15 лет. Особенно длительны и дороги исследования препаратов, предназначенных для лечения хронических заболеваний. В некоторых странах, например в США и Евросоюзе, для регистрации лекарства необходимо, чтобы III фаза содержала как минимум два отдельных успешных исследования. Поэтому некоторые производители организуют сразу три, на случай если органы, регистрирующее лекарственные препараты, FDA[199] или EMA[200], сочтут одно из них неудовлетворительным. Важно отметить, что в некоторых странах требования к количеству участников в клинических испытаниях отличаются или вообще отсутствуют. В частности, их нет в России. Например, применяемый для лечения острого инфаркта миокарда “Фортелизин” зарегистрирован на основании клинического испытания, в котором участвовало всего 54 пациента.

Задача III фазы – подтвердить, что выбранный в КИ II фазы режим лечения эффективен для большой и разнообразной группы пациентов и может реально применяться на практике. Последнее время клинические испытания III фазы обычно бывают многоцентровыми, то есть их проводят не в одной клинике. Это позволяет увеличить количество участников, добавить в выборку людей разного этнического состава и уровня жизни, а также сравнить результаты между центрами.

После завершения фазы III можно подавать документы на регистрацию лекарства, и, если регистрирующую организацию устроят предоставленные данные, оно будет зарегистрировано. С этого момента его можно продавать. Регистрационные документы содержат перечень разрешенных показаний к применению. Факт регистрации не означает, что препарат можно применять при любом заболевании, каждое новое показание требует новых клинических испытаний.

С подачей документов на регистрацию клинические испытания не завершаются. Иногда, если новый препарат оказался эффективнее, чем созданные ранее, испытания могут еще некоторое время продолжаться. Это делается, чтобы не лишать больных лекарства до тех пор, пока оно не появится в продаже. После выхода препарата на рынок могут начаться испытания IV фазы, в которых тоже участвуют несколько тысяч человек. Регистратор может потребовать их проведения, чтобы отслеживать редкие и поздние побочные эффекты, которые могли пропустить на предыдущих стадиях, или чтобы внимательнее изучить отдельные группы пациентов, например беременных женщин. Эти испытания тоже продолжаются не менее двух лет. Неоднократно случалось, что опасные побочные эффекты обнаруживались лишь через несколько лет после выхода лекарства на рынок. В таких случаях препарат может быть отозван и его регистрация приостановлена, как это произошло с талидомидом. О другом известном эпизоде мы поговорим в следующей главе.

Шансы, что испытания III фазы завершатся регистрацией, варьируются в зависимости от страны. По данным агентства FDA, известного своей требовательностью, после KИ III фазы на рынок выходят не более 25–30% препаратов. Надо полагать, в других странах эта доля несколько выше. Как и на других этапах, шансы испытаний III фазы на успех различны для разных областей, и ниже всего они в онкологии. В последнее время доля успешных испытаний снижается. Это связано с ужесточением требований к доказательствам эффективности и безопасности.

Важно понимать, насколько долог, дорог и сложен путь к выводу лекарственного препарата на рынок, какие риски несут производители и как малы шансы на успех в каждом отдельном случае. Поэтому завершают главу несколько примеров заметных фармацевтических провалов 2017 года, их причин и последствий.

В марте компания Juno Therapeutics прекратила разработку иммунной терапии острого B-клеточного лимфобластного лейкоза после гибели еще двух пациентов в ходе испытаний II фазы. С учетом трех предшествующих смертей количество погибших от отека мозга составило пять человек, и FDA остановило исследование.

В апреле компания OncoMed Pharmaceuticals объявила о прекращении набора пациентов для клинических испытаний I фазы. Бронтиктузумаб (полученное с помощью стволовых клеток противораковое антитело) оказался в сочетании с традиционной химиотерапией “непереносимым для данной популяции пациентов”. Незадолго до этого компания уже сообщала о провале КИ II фазы похожего препарата тарекстумаб. Из-за двух неудач подряд OncoMed Pharmaceuticals была вынуждена уволить половину персонала.

В июне Seattle Genetics проанализировала данные КИ III фазы и обнаружила, что в группе пациентов с острым лейкозом, получавших вадастуксимаб талирин, смертность выше, чем в контрольной. Клинические испытания этого и других похожих препаратов были остановлены.

В сентябре Matheon Therapeutics сократила 60% рабочей силы, после того как вещество-кандидат CA4P не продемонстрировало эффективности против рака яичников, не поддающегося традиционной терапии.

В октябре Alexion Pharmaceuticals прекратила разработку SBC-103, лекарства от мукополисахаридоза, и объявила об убытках и увольнении части сотрудников.

В ноябре стало известно, что компания Thenax Therapeutix не смогла показать в ходе клинических испытаний III фазы эффективность левосимендана в лечении сердечной недостаточности. В результате ее акции подешевели на 76%, а руководство стало рассматривать возможность продажи компании.

В том же месяце Acorda Therapeutics сообщила, что у семи пациентов с болезнью Паркинсона в ходе испытаний тозаденанта развился сепсис, пятеро погибли. Сначала компания остановила набор новых пациентов для участия в испытании III фазы, а затем объявила о прекращении разработки препарата.

Глава 14

Золотой стандарт

Эта глава может показаться чуть сложнее, чем остальные, но она очень важна. Без нее может сложиться ошибочное впечатление, что мы живем в эпоху триумфа доказательной медицины, ее инструменты повсеместно приняты и используются по назначению, а двойное слепое рандомизированное клиническое исследование – гарант эффективности и безопасности лекарства. Кроме того, прочитав эту главу, вы сможете самостоятельно находить в научных статьях наиболее очевидные случаи манипуляции данными.

Кризис воспроизводимости

Двойные слепые рандомизированные исследования не зря называют золотым стандартом. Именно такие эксперименты лучше всего отвечают на вопрос о полезности и безопасности метода лечения. Их проведение – обязательное условие для рассмотрения заявок на регистрацию новых лекарств в большинстве стран.

С 2000 по 2017 год только зарегистрированных клинических испытаний[201] было проведено 250 тысяч. Добавим к ним как минимум еще столько же незарегистрированных. Конечно, не всегда исследователи приходили к выводу, что изучаемый метод лечения эффективен. Но даже если считать, что результат был положителен лишь в каждом десятом случае, 50 тысяч успешных клинических испытаний, проведенных только за эти 17 лет, уже должны были переполнить мир эффективными лекарствами от всех возможных болезней. Однако этого не происходит. Несмотря на отдельные успехи медицины, большинство болезней пока неизлечимо. За всю историю человечества лишь одно заболевание было уничтожено полностью[202].

Причин несоответствия объемов результативных исследований и реальных успехов медицины несколько. Одна из них в том, что существуют сотни способов провести клиническое испытание неправильно и сделать неверный вывод. И намного чаще это ложноположительные, а не ложноотрицательные результаты. Организаторы исследований, как правило, заинтересованы обнаружить эффект, и это приносит свои плоды. В первую очередь речь о финансовых интересах: разрабатывая лекарство, фармацевтическая компания рассчитывает получить разрешение на продажу препарата и вернуть вложенные в разработку деньги.

Конечно, исследования проходят не только за счет производителей лекарств. Но возможных источников денег не так много. Клинические испытания могут финансироваться специальными государственными структурами, такими как Национальные институты здравоохранения США или изучавший стрептомицин и патулин Совет по медицинским исследованиям Великобритании. Иногда деньги могут поступать от пациентских организаций. Но большинство КИ оплачивают именно фармацевтические компании. Даже в США, где традиционно развиты некоммерческие исследования, производители лекарств спонсируют не менее 75% клинических испытаний. В России – почти 100%.

Результаты исследований, оплаченных фармацевтическим бизнесом и проведенных за счет государственных или некоммерческих организаций, не раз сравнивали. Итог неизменен: исследования, спонсированные индустрией, чаще приходят к выводу об эффективности и безопасности вещества. Разница огромна – анализ 2003 года показал, что это происходит в пять раз чаще, чем при других источниках финансирования. Эта разница постепенно уменьшается, что можно объяснить ужесточением требований к клиническим испытаниям и более пристальным контролем. Но до полного ее исчезновения еще далеко.

Заинтересованность исследователей играет не меньшую роль, чем заинтересованность инвестора. Как много вы видели новостных заголовков, сообщающих, что ученые исследовали новое лекарство от рака и не нашли эффекта? Как много Нобелевских премий выдано тем, кто всю жизнь проверял различные гипотезы и все их опроверг? Как много вошло в историю ученых, которые ничего не открыли? К сожалению, наше общество признает только положительные результаты. Именно они могут дать славу, признание, карьеру и деньги.

Кроме того, работать без положительных результатов непросто психологически. Поставьте себя на место исследователя, тратящего годы на поиски лекарства от неизлечимой болезни. Как бы осторожны и скептически настроены вы ни были, неужели в глубине души вы не будете мечтать о том, чтобы тяжкий труд, волнения, споры и бессонные ночи оказались не зря и когда-нибудь у вас получилось? А если очень хотеть, то рано или поздно обязательно получится, даже там, где “получаться” абсолютно нечему.

Что с медицинскими исследованиями не все ладно, понятно давно. Но о масштабе бедствия стали говорить относительно недавно. В 2011 году работающие на фармацевтическую компанию Bayer ученые сообщили, что их попытки повторить результаты ранее опубликованных доклинических исследований в онкологии и кардиологии завершились успехом лишь в 20–25% случаев. В остальных результат повторных экспериментов был иным, чем в исходных. Годом позже о такой же проблеме сообщил сотрудник компании Amgen. Там пытались воспроизвести результаты пятидесяти трех важных исследований, но удалось это сделать лишь для шести.

Затем последовали пересмотры результатов ряда очень влиятельных клинических испытаний. В 2013 году был проведен повторный анализ РКИ, которое рекомендовало людям с невысоким риском сердечно-сосудистых заболеваний принимать с целью увеличения продолжительности жизни снижающие уровень холестерина статины. Пересмотр показал, что эффект статинов незначителен и его с лихвой перекрывают тяжелые побочные эффекты – статины увеличивают риск диабета и миопатии[203]. А в 2014 году увенчались успехом три с половиной года попыток получить от компании Roche полные данные по исследованиям противовирусного препарата озельтамивир, а от компании GlaxoSmithKline – по зенамивиру[204]. После анализа данных независимыми исследователями выводы о некотором сокращении продолжительности гриппа остались в силе. Но вывод о снижении смертности от гриппа, на основе которого делались массовые закупки этих препаратов, был пересмотрен.

Растущее количество свидетельств того, что качество многих медицинских исследований не дотягивает до минимально приемлемого уровня, а результаты не воспроизводятся при повторении независимыми исследователями, побудило описать сложившуюся ситуацию как кризис воспроизводимости. Хотя дело не столько в невозможности воспроизвести эти работы, сколько в понимании, что значительной их части нельзя доверять по причине некорректного дизайна, анализа или интерпретации результатов. По оценкам некоторых скептиков, доля таких исследований достигает 85%.

Рыцари халата и ланцета

Существует множество способов “слегка поправить” результаты исследования, и большинство из них грозит манипулятору лишь репутационными рисками. Поэтому откровенный прямой подлог встречается относительно нечасто. Но уж если встречается, масштаб и наглость поражают воображение. С явного криминала мы и начнем.

Профессор анестезиологии университета Тафтса в Бостоне Скотт Рюбен считался одним из ведущих исследователей боли до тех пор, пока не получил девять месяцев тюрьмы за мошенничество. Хотя опубликованные им работы повлияли на то, как лечили миллионы пациентов, исследований, описанных им в двадцать одной научной статье, просто никогда не было. В качестве соавторов Рюбен указывал других ученых, которые даже не догадывались об этом. Статьи Рюбена сообщали об эффективности производимых компанией Pfizer обезболивающих “Бекстра”, “Целебрекс” и “Лирика”, а также выпускаемого Merck препарата “Виокс”. С 2002 по 2007 год Рюбен получил от Pfizer пять исследовательских грантов, а также был хорошо оплачиваемым спикером компании – он выступал перед другими врачами с докладами о ее лекарствах. К тому моменту, когда коллеги насторожились, афера Рюбена продолжалась уже почти тринадцать лет.

Доктор Роберт Фиддес, директор компании Southern California Research Institute, выполнявшей клинические испытания по заказу фармацевтических компаний, был известен умением быстро найти нужное количество пациентов. Однако за невероятной продуктивностью скрывалось мошенничество длиною в десять лет. Фиддес включал в исследования не только пациентов, не соответствовавших критериям отбора, но и тех, кто никогда не рождался на свет. Рутинной практикой была фальсификация результатов лабораторных анализов, показателей артериального давления и данных ЭКГ. Образцы мочи и крови могли не принадлежать больным – например, один из сотрудников с протеинурией[205] получал за образцы своей мочи, которую затем выдавали за мочу пациентов, по 25 долларов за порцию.

Мошенничеству не мешали многочисленные проверки. Оно вскрылось лишь после доноса одного из сотрудников, знавшего о махинациях. Опубликованная в New York Times статья рассказывает:

Согласившись признать свою вину, др. Фиддес во время допросов выставлял себя человеком, попавшим в ловушку окружающих его нечестных людей. Он уверял, что большинство исследователей вынуждены мошенничать, поскольку фармацевтические компании предъявляют к участникам экспериментов требования, которые будут хорошо смотреться в маркетинговых материалах, но в реальной жизни невыполнимы. Не предъявляя доказательств, он утверждал, что все, кто преуспевает в этом бизнесе, вынуждены обходить правила.

Известный дерматолог Гарри Снайдер руководил спонсируемым компанией BioCryst Pharmaceutical клиническим исследованием, в то время как его жена Рене Пежо была в нем координатором. Они исследовали вещество BCX-34, которое предполагали использовать для лечения псориаза и кожной Т-клеточной лимфомы, опасного онкологического заболевания. По завершении РКИ пресс-релиз компании сообщил о высокой эффективности вещества. Однако новый директор BioCryst засомневался в достоверности результатов. Последовавший аудит выявил манипуляции в ходе рандомизации, которые помогли выставить BCX-34 в незаслуженно выгодном свете.

Результаты исследования были отозваны с пометкой “лекарственный эффект не обнаружен”, а Снайдер и Пежо получили по 3 и 2,5 года тюремного заключения соответственно. Снайдер опубликовал письмо, в котором писал, что “вроде бы и понимал, зачем нужны правила проведения исследований, но считал, что на них надо ориентироваться, а не следовать им слепо”. Как акционеры BioCryst и Снайдер, и его жена были напрямую заинтересованы в положительном результате.

В 2005 году медицинский журнал The Lancet опубликовал наблюдательное исследование норвежского врача Йона Субдё, где на основании данных о 454 больных анализировалось влияние разных факторов риска на заболеваемость раком ротовой полости. Выводы делались сенсационные: нестероидные противовоспалительные препараты снижают заболеваемость этим видом рака, в том числе и у курильщиков. Однако вскоре статья была отозвана. В ходе проверки выяснилось, что все до единого участники исследования были плодом фантазии Субдё. Причем фантазии настолько ленивой, что у 250 из них были указаны одинаковые даты рождения. Позже признаки фальсификации были обнаружены в других его статьях и в диссертации. В отличие от России, где ни один диссертационный скандал не привел к серьезному наказанию[206], в Норвегии фальсификация диссертаций воспринимается как тяжелейший проступок: статьи и ученая степень Субдё были отозваны, а самому ему запретили заниматься медициной.

Японский анестезиолог Ёситака Фудзии за двадцать лет работы опубликовал более двух сотен статей с результатами 168 проведенных им исследований. Внимание на себя обратили одинаковые цифры в разных исследованиях. Результаты проверки ошеломляли: из 212 изученных статей признаки мошенничества обнаружились в 172. Данные 126 работ были сфабрикованы от первого слова до последнего.

Из-за мошенничества в сфере медицинских исследований печальную известность также получили: онколог Вернер Бесвода, сфальсифицировавший результаты применения комбинации химиотерапии и стволовых клеток, якобы показавшего высокую эффективность при раке молочной железы; анестезиолог Йоким Болдт, подделавший данные об эффективности применения гидроксиэтилкрахмала у пациентов в критическом состоянии; британский врач Эндрю Уэйкфилд, опубликовавший в The Lancet статью о якобы найденной им связи между вакциной MMR[207] и аутизмом и впоследствии уличенный в том, что получил более 400 тысяч фунтов стерлингов от адвокатов, пытавшихся отсудить у производителей вакцин астрономические суммы за якобы нанесенный детям ущерб; американский исследователь Донг Пью Хан, чья команда получила грант в 19 миллионов долларов, после того как сфальсифицировала успешное применение вакцины против ВИЧ; и многие, многие другие.

Насколько распространена явная, масштабная и осознанная фальсификация научных исследований? С одной стороны, собранная в США статистика показывает, что за двадцать лет правительство объявило лишь о 200 таких эпизодах. С учетом сотен тысяч работающих в этой сфере людей – выглядит неплохо. Однако выявляют далеко не каждый случай. Судя по тому, что подобные преступления не замечают десятилетиями, мы можем иметь дело лишь с верхушкой айсберга.

Регулярный аудит исследовательской работы – явление нечастое, но в тех случаях, когда он проводится, частота мошенничества уже ощутима. Группа, которая проводит аудит исследований, финансируемых Национальным институтом рака в США, находит мошенничество в 0,25% случаев. Похожие проверки в Великобритании – в 0,4%. Притом следует помнить, что эта статистика основана на доказанных случаях злого умысла и реальная частота мошенничества наверняка выше.

Если же говорить обо всех серьезных нарушениях, по данным FDA, их частота достигает 10%. Печальную картину дополняют многочисленные анонимные опросы. Так, 27% ученых сообщили Американской ассоциации развития науки, что сталкивались с теми или иными нарушениями при проведении клинических испытаний. О том же сообщили 19% координаторов исследований, добавив, что в трети случаев информация о нарушениях осталась тайной. При опросе сотрудников британских медицинских учреждений о нарушениях упомянул каждый второй.

В некоторых странах ситуация еще хуже. В Китае, где качество медицинских исследований до недавнего времени практически не контролировалось, случился скандал. В 2016 году Управление по контролю за качеством пищевых продуктов и лекарств попыталось навести порядок и устроило массовую проверку клинических испытаний, на основании которых регистрировали препараты. Результаты оказались катастрофическими. Из 1622 заявок на регистрацию 1308 содержали либо явно сфабрикованные, либо глубоко ошибочные и неадекватные данные. Открытой статистики такого рода по России просто не существует, но стоит ожидать, что она ближе к китайской, чем к британской или американской. Россия относится к странам, где аудит клинических исследований почти не проводится, а требования к их качеству низки. По сообщениям экспертов и косвенным признакам манипуляция данными клинических испытаний российских препаратов – массовое явление.

Лучше, чем что?

Если выполнить эксперимент абсолютно правильно и предельно честно, он все равно будет бесполезен, если отвечает на бессмысленный с точки зрения интересов пациента вопрос. Один из способов провести такое исследование – выбрать неподходящее контрольное вмешательство.

Мы много говорили об использовании в качестве контроля плацебо, но это допустимо лишь тогда, когда нет эффективного и безопасного лечения. Если оно существует, то сравнивать новое лекарство нужно именно с ним, а не с плацебо. Это требование четко сформулировано в Хельсинкской декларации.

Польза, риски, неудобства и эффективность нового вмешательства должны оцениваться в сравнении с лучшими из проверенных вмешательств…

Новое лечение отвечает интересам пациентов, только если оно более эффективно, более безопасно, более дешево или более удобно, чем созданное ранее. Однако оценка новых регистрируемых в США препаратов показала, что только 70% имели на момент регистрации информацию об эффективности по сравнению с существующими методами, а 30% сравнивались только с пустышкой-плацебо. Препараты от заболеваний, для которых не существовало другого эффективного лекарства, были из этого анализа исключены.

Но даже при сравнении с лучшей альтернативой на рынке есть способы подать свой препарат в выгодном свете. Например, используя недостаточную дозу контрольного препарата. В разгар эпидемии менингококковой инфекции[208] в Нигерии, убившей 12 тысяч человек, фармацевтическая компания Pfizer организовала РКИ нового антибиотика тровафлоксацина. Контрольная группа получала уже ставший стандартным лечением цефтриаксон. Из двухсот детей погибли пятеро в группе тровафлоксацина и шестеро в группе цефтриаксона. Расследование показало, что цефтриаксон давали в дозе 33 мг/кг, в то время как рекомендованная доза равна 50–100 мг/кг. Последовало судебное разбирательство в США и крупные выплаты семьям пострадавших.

В зависимости от стратегии создателей препарата лекарство в контрольной группе могут применять и в дозах, сильно превышающих необходимую. Это позволяет усилить побочные эффекты, и на этом фоне новый препарат будет выглядеть более безопасно. Так поступали с некоторыми антипсихотическими[209] препаратами, которые сравнивали с высокими дозами галоперидола, гарантированно дающими тяжелые побочные эффекты.

Эффективно для кого?

Один из самых важных вопросов, который мы должны задавать в отношении каждого клинического эксперимента: какие пациенты в нем участвовали? Исследователи далеко не всегда описывают, как проводили отбор, что чревато ошибочным распространением выводов на другие группы пациентов.

В надежде получить положительный результат на этапе отбора из исследования могут исключить самых старых, страдающих самой тяжелой формой или находящихся на самой поздней стадии заболевания. Понятно, что полученные на такой выборке результаты могут быть неприменимы ко всей популяции. Часто отбирают только тех, у кого нет сопутствующих патологий, кто не получает лечение от других болезней и не имеет серьезных вредных привычек. Но как много таких людей среди реальных больных?

Масштаб проблемы довольно велик. Исследования показывают, что в клинические испытания включают в среднем 15–30% тех, кого рассматривали. В некоторых случаях отбор еще более жесткий и доля отобранных падает до 6–10%. Оставшиеся отличаются от тех, кого отбраковали, не только по среднему возрасту, но и полу, национальному составу и социальному статусу. Так, обзор клинических испытаний нестероидных противовоспалительных препаратов показал, что в среднем в них участвовали лишь 2,1% людей в возрасте 65 лет и старше, хотя эти лекарства часто назначают именно пожилым.

Стерильные условия клинических испытаний предполагают не только идеальных пациентов, но и идеальных врачей. Клинические испытания эндартерэктомии[210] при бессимптомном сужении каротидной артерии показали пятипроцентное снижение смертности по сравнению с контрольной группой. Однако стало известно, что во время клинического испытания 40% хирургов не подпускали к операционному столу. Это были врачи, имевшие неоптимальную статистику неудачных исходов и побочных эффектов. Впоследствии было показано, что без строгого отбора хирургов смертность от этого метода в восемь, а риск инсульта в три раза выше, чем в контрольной группе, что ставит целесообразность каротидной эндартерэктомии при бессимптомном течении болезни под сомнение.

Доверять ли биомаркерам?

Одно из самых важных решений, принимаемых перед началом клинических испытаний, – выбор исходов (или конечных точек), по которым будет оценен результат. Здесь возможны два подхода. Первый – использовать клинически значимые исходы (еще их называют твердыми конечными точками). Это то, что важно для пациента: продолжительность жизни, ее качество, отсутствие тяжелых осложнений.

Но многие РКИ ориентируется на суррогатные исходы (их также называют биомаркерами или мягкими конечными точками) – это результаты анализов или приборных исследований, которые предсказывают изменения клинически значимых исходов. Например, изучая лекарственный препарат от сердечно-сосудистых заболеваний, мы можем ориентироваться на продолжительность жизни пациентов или частоту инфарктов миокарда – это клинически значимые исходы. Но такое исследование будет очень долгим, а значит, дорогим. Альтернатива – ориентироваться на изменения уровня холестерина или результатов ЭКГ, это суррогатные исходы. Конечно, пациенту без разницы, как лечение повлияло на уровень его холестерина: от этого он не испытает никаких изменений самочувствия. Но мы предполагаем, что уровень холестерина предсказывает частоту инфарктов или продолжительность жизни.

Как бы хорошо это ни звучало в теории, на практике суррогатные результаты часто разочаровывают. Показательна история эзетимиба, препарата, который должен был уменьшать смертность от сердечно-сосудистых заболеваний, влияя как раз на уровень холестерина в крови: известно, что высокий холестерин липопротеидов низкой плотности коррелирует с сердечно-сосудистыми заболеваниями и смертью от них. Эзетимиб подавляет всасывание холестерина в кишечнике. Действительно, прием препарата снижал уровень холестерина, что и было продемонстрировано в регистрационных РКИ. Однако последующие исследования не обнаружили ни уменьшения риска развития атеросклероза, ни снижения частоты сердечных приступов или смертности от болезней сердца и сосудов.

Объяснений может быть несколько. Хотя согласно данным наблюдательных исследований уровень холестерина и частота сердечно-сосудистых заболеваний коррелируют, первое не обязательно является причиной второго. Или же на развитие заболевания влияет множество причин, а не только уровень холестерина, и наш препарат меняет уровень холестерина в благоприятную сторону, а другие факторы – в неблагоприятную. Или у него есть побочные эффекты, которые могут увеличивать смертность по другим причинам, и этот отрицательный эффект перевешивает положительный либо сводит его на нет. Последнее как раз и происходит в случае применения статинов у людей без повышенного риска сердечно-сосудистых заболеваний.

Еще один классический пример ошибки, спровоцированной суррогатными исходами, – применение антиаритмических препаратов[211] у пациентов с инфарктом миокарда. Только в США четверть миллиона пациентов с инфарктом ежегодно получали энкаинид и флекаинид, исходя из простой логики: у таких больных высока вероятность внезапной смерти от аритмии. Электрокардиография подтверждала нормализацию сердечного ритма, поэтому врачи считали, что приносят пациентам безусловную пользу. Тем сильнее был шок, когда четырехлетнее клиническое исследование показало, что прием антиаритмических препаратов при инфаркте увеличивает смертность в три раза. Вероятно, эти препараты стимулировали неизвестный опасный процесс. При этом не факт, что они вообще приносили какую-либо пользу, – аритмия могла быть не причиной смерти, а побочным следствием приводящего к гибели процесса.

Еще один показательный пример – применение фторида натрия для профилактики переломов. Известно, что вероятность переломов тем выше, чем ниже плотность костей. Остеопороз, уменьшение плотности костей, – серьезная проблема пожилых людей, особенно женщин. Для ее решения было предложено использовать фторид натрия. Клинический эксперимент показал, что его прием значительно увеличивает плотность костей. Но в следующем трехлетнем РКИ оценили не только изменение плотности костей, но и частоту переломов. Прием фторида натрия действительно увеличивал плотность костной ткани. Но частота переломов не снижалась, а увеличивалась на 30% для переломов позвоночника и почти в три раза для всех остальных. Судя по всему, при приеме фторида натрия образовывалась более хрупкая костная ткань.

Полностью отказаться от суррогатных исходов невозможно. Они могут значительно уменьшить количество участников, продолжительность эксперимента, а значит, и его стоимость. Однако полагаться на единичные суррогатные исходы опасно, и к их выбору нужно относиться очень серьезно. Нельзя использовать биомаркер лишь на основании обнаруженной в наблюдательных исследованиях статистической корреляции c важным для пациента исходом и биологически правдоподобной связи между ними. Нужно, чтобы надежность суррогатного исхода подтверждалась и данными многочисленных клинических экспериментов.

P < 0,05

Предложенный Рональдом Фишером критерий статистической значимости p < 0,05[212] надежно закрепился в качестве порога, разделяющего результаты научных исследований на положительные и отрицательные. Практически во всех медицинских исследованиях используют тот или иной метод расчета p, и в большинстве 0,05 выбрано как пороговое значение. Однако недавно эта практика, которой скоро исполнится уже сто лет, была подвергнута жесткой критике и названа одной из главных причин кризиса воспроизводимости.

В 2017 году несколько ведущих статистиков опубликовали в журнале Nature манифест “Пересмотреть статистическую значимость”, в котором призвали отказаться от критерия p < 0,05 и заменить его на p < 0,005. Авторы пообещали, что этот простой шаг немедленно приведет к улучшению ситуации с воспроизводимостью научных исследований во многих областях. В чем же проблема с проверенным десятилетиями и привычным большинству ученых и врачей p < 0,05?

Многие из тех, кто читает и даже пишет научные статьи, неправильно понимают смысл p-значения. Распространена ошибочная интерпретация p как вероятности ложноположительного результата. А значит, при p < 0,05 вероятность, что нулевая теория верна и отклонена ошибочно, не превышает 5%. Ошибка в том, что p-значение – это не вероятность правильности нулевой теории при условии получения наблюдаемых данных. Это вероятность наблюдать такие данные при условии, что нулевая теория верна. Разница принципиальная. Так, вероятность, что вы беременны, если вы женщина, не равна вероятности того, что вы женщина, если вы беременны. В первом случае она равна 3%[213], во втором же стремится к 100%.

Так какова же реальная вероятность, что мы ошибочно отклонили нулевую теорию и пришли к выводу о существовании эффекта там, где его нет, если мы ориентируемся на p < 0,05? Предположим, что верны 10% выдвигаемых экспериментаторами гипотез. Судя по доле лекарств, которые доходят от начала клинических испытаний до регистрации, даже эта цифра оптимистична[214]. Тогда из 1000 экспериментов в 900 будет верна нулевая гипотеза (лекарство не работает), а в 100 – альтернативная (лекарство работает). При пороговом p=0,05 или чуть меньшем нулевая гипотеза будет ошибочно опровергнута в 900 0,05=45 случаях из 900.

Чтобы понять, что произойдет с теми 100 экспериментами, где нулевая гипотеза ошибочна, то есть эффект лекарства реально существует, нам нужно учесть статистическую мощность[215]. По некоторым оценкам, в клинических испытаниях она, как правило, недостаточна и в среднем составляет примерно 50%. А значит, мы обнаружим существующий эффект в 50 случаях из 100.

Итак, будут опубликованы 95 положительных результатов, 45 из которых, то есть почти половина, будут ошибочны. Доля ложноположительных результатов в этом случае 47%, а вовсе не 5%. Соответственно, на более ранних этапах поиска, например при доклинических исследованиях, где доля ошибочных гипотез намного выше, соотношение ошибочных и реальных положительных результатов будет еще больше смещаться в сторону первых. Очевидно, что p < 0,05 абсолютно не пригодно в качестве единственного критерия, разделяющего результаты клинических испытаний на положительные и отрицательные.

Предложение снизить критерий статистической значимости до p < 0,005 встретило бурное сопротивление. Некоторые были против, поскольку такое изменение потребовало бы значительно увеличить количество участников, а значит, и стоимость исследований. Помимо этого, очевидно, что будет поставлена под сомнение реальность невероятного количества найденных ранее эффектов в диапазоне 0,005 < p < 0,05.

Другие критики обратили внимание, что если на практике доля воспроизведенных результатов в интервале p-значения 0,005–0,05 равна 24%, то для p < 0,005 она тоже далека от идеальной и составит 49%. Судя по всему, простое снижение порогового p-значения улучшит ситуацию, но не решит проблему полностью. Причина в том, что кризис воспроизводимости вызван не p < 0,05 самим по себе, а различными приемами, которые исследователи применяют для того, чтобы искусственно протолкнуть результаты своих исследований за столь желанный порог статистической значимости. Такая манипуляция данными в процессе статистического анализа называется p-хакингом.

Как стать p-хакером

В 1980 году группа исследователей провела контролируемый эксперимент, для которого было отобрано 1075 пациентов с заболеваниями сосудов сердца. Их рандомизировали в две группы, назначив каждой определенное лечение, назовем их А и В. Рандомизация была проведена корректно, и исходно группы были похожи по основным параметрам. После лечения выживаемость в обеих группах оказалась одинаковой. Но, разделив группы на несколько подгрупп – по возрасту, количеству пораженных сосудов и некоторым важным симптомам, – исследователи получили интересные результаты. Выживаемость группы А стала статистически значимо выше в подгруппе с поражением трех сосудов сердца и аномальным сокращением левого желудочка (p < 0,025), а в подгруппе с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности критерий статистической значимости для разницы был еще ниже (p < 0,01).

Отлично, разве не для этого мы проводим рандомизированные клинические исследования? Однако исследователи не спешили рекомендовать лечение А пациентам с поражением трех сосудов, аномальным сокращением левого желудочка и отсутствием признаков сердечной недостаточности. На самом деле в этом эксперименте ни одна из групп не получила никакого лечения. Да и пациентов никаких не было: их роль выполнили истории болезни из базы данных медицинского центра при Университете Дьюка. Они содержали данные о возрасте и поле когда-то лечившихся там пациентов, симптомах болезни, количестве пораженных сосудов и о том, сколько они прожили после лечения. Всех пациентов лечили одним и тем же методом. Статистически значимые различия между группами A и B обнаружили там, где их не должно было быть.

Что же произошло? Авторы исследования-имитации всего лишь задействовали пару приемов, используемых для p-хакинга – преодоления порога статистической значимости в отсутствие реальной разницы между группами. Легко представить, что, будучи примененными в реальном РКИ, эти манипуляции позволят легко обосновать ложный вывод об эффективности бесполезного лекарства.

Масштаб p-хакинга помогает осознать опубликованная в интернете база данных tidypvals, где собрано два с половиной миллиона p-значений из разных областей науки. Ее создатели предположили, что если p-хакинг существует и распространен, то при анализе распределения опубликованных в научных журналах p-значений будет виден “горбик” – заметное увеличение количества p-значений, которые лишь немногим меньше 0,05. Действительно, для большинства областей науки он оказался явно выражен, и медицина – одна из тех, где проблема наиболее наглядна. При этом внутри медицины есть сегменты, например альтернативная медицина, диетология, фармакология и стоматология, где она особенно бросается в глаза.

У pхаркингом (от англ. HARKing[216], Hypothesizing After the Results are Known – “строить гипотезы, когда результат уже известен”). Представьте стрелка, который делает пять выстрелов в мишень и попадает в две единицы, двойку, семерку и молоко. Не очень меткий стрелок, скажете вы. А если он скажет, что таким и был изначально его план и он точно выполнил его с первого раза? Пользуясь этой методикой, любой может немедленно стать блестящим снайпером: достаточно говорить, в чем состояла задача, уже отстрелявшись. Понятно, что формулировка задачи будет зависеть от случайного результата, который вы перед этим получили.

Харкинг реализуется последовательной проверкой различных гипотез, пока одна из них случайным образом не даст желаемое p < 0,05. При достаточном количестве попыток это рано или поздно произойдет, даже если все гипотезы ошибочны. Другой подход – сделать как можно больше параллельных сравнений, например замерив и сравнив в двух группах все возможные симптомы одновременно. Какие-то сравнения в силу случайных колебаний преодолеют порог статистической значимости. После этого можно объявлять, что именно они и были основным исходом, который изучал эксперимент. А остальные измерения, по которым критерий статистической значимости не достигнут, могут быть вообще не упомянуты в публикации. Сравнение протоколов РКИ и итоговых публикаций показало, что в среднем авторы отчитываются лишь о половине проанализированных исходов.

Распространенная тактика – разделить пациентов на множество подгрупп, например по полу, возрасту и особенностям заболевания, и сравнивать эти подгруппы по отдельности. При достаточном количестве сравнений порог статистической значимости наверняка будет достигнут. Подобный анализ приводил, например, к ошибочным выводам о полезности амлодипина для пациентов с хронической сердечной недостаточностью, вызванной неишемической кардиомиопатией, но не для пациентов с ишемической кардиомиопатией[217]. Или о том, что аспирин снижает риск сердечно-сосудистых заболеваний у мужчин, но не у женщин. Лекарство и правда может по-разному действовать на разные группы пациентов. Например, не стоит ожидать, что определенный режим физических упражнений будет одинаково полезен для молодых и пожилых. Однако такие гипотезы должны быть немногочисленны и обоснованны, а также сформулированы и зафиксированы до начала эксперимента.

Множественные сравнения увеличивают вероятность ложноположительных результатов и делают получение ничего не значащего p < 0,05 практически неизбежным. Поэтому в таких случаях нужно использовать другие статистические тесты или делать специальные математические поправки на множественное сравнение, например поправку Бонферрони: делим исходный критерий статистической значимости на количество сравнений. Если мы проверяем 20 гипотез одновременно, то пороговое p-значение должно снизиться в 20 раз и стать равным 0,05/20=0,0025.

В погоне за статистической достоверностью исследователи сплошь и рядом забывают применить поправку на множественные сравнения. Иногда это приводит к забавным результатам. В клиническом испытании препарата “Визомитин” для лечения синдрома сухого глаза авторы разбили и так не очень большую роговицу глаза на пять участков (верхний, нижний, центральный, темпоральный, назальный) и отдельно сравнили с контрольной группой изменения на каждом из них. В результате порог p < 0,05 был преодолен лишь для центрального участка, но не для остальных. Но еще дальше пошли сотрудники кафедры детских болезней Первого МГМУ им. И. М. Сеченова. В ходе исследования эффективности гомеопатического препарата “Коризалия” при лечении насморка они измерили симптомы для каждой ноздри отдельно и получили статистически значимый результат для левой, но не для правой ноздри. Ни в том, ни в другом случае поправки на множественное сравнение не делались.

Важно понимать, что такие поправки не исключают риск ложноположительного результата полностью, они просто возвращают его на тот же уровень, что и при единичном сравнении. В описанном выше эксперименте-имитации в Университете Дьюка применение поправки Бонферрони исключило статистическую достоверность лишь для одной из подгрупп, второй “эффект” остался значимым. Это еще раз иллюстрирует, что исходный уровень статистической значимости p < 0,05 не годится в качестве единственного критерия положительного результата.

Заставить вероятности работать на себя можно и раздробив эксперимент на несколько более мелких. Или повторив его столько раз, сколько нужно для получения значимого результата. Или замеряя результаты как можно чаще и остановив эксперимент не когда это планировалось сделать, а ровно в тот момент, когда будет обнаружена статистическая значимость: случайные колебания разницы между группами могут в какой-то момент дать желанный результат. Вывод об эффективности лекарства будет в этом случае так же обоснован, как если вы заявите, что владеете телекинезом, потому что можете заставить все игральные кубики выпасть одной стороной, только получается у вас это когда на девяносто седьмой попытке, а когда на двести четвертой.

Много возможностей открывает перебор существующих инструментов статистического анализа. Есть множество методов, позволяющих получить несколько различающиеся результаты. Сравним, например, две группы, в одной из которых определенный исход наступил с частотой 1/10, а в другой – 6/10. Точный тест Фишера даст статистически незначимый результат p=0,057, но вычисление критерия Mid-P – значимое p=0,030. Расчет критерия хи-квадрат по методу Пирсона тоже дает значимое p=0,019, но рассчитанный с поправкой Ийтса – незначимое p=0,061, а с поправкой Вальда – значимое p=0,035. Конечно, наиболее чувствительны к перебору методов пограничные значения p, близкие к 0,05.

Что можно делать по-другому?

Оставим в стороне рассуждения о том, что полностью решить проблему можно, лишь устранив прямую заинтересованность исследователей и производителей в положительных результатах. Возможно, так оно и есть, но абсолютно непонятно, как добиться этого на практике. Реалистичнее двигаться в сторону большей прозрачности: если все данные клинических экспериментов публичны и могут быть проверены независимыми специалистами, это затруднит p-хакинг.

Уже упомянутое снижение уровня статистической значимости до p < 0,005 тоже будет полезно. Однако важнее перестать ориентироваться на p-значение как на единственный критерий положительного результата. Отбросить нулевую гипотезу можно, только если на ее ошибочность указывают и другие статистические инструменты.

В последнее время звучат предложения перейти от расчета p-значений к байесианским методам анализа. Это направление статистики возникло в середине XVIII века благодаря английскому математику и священнику Томасу Байесу, автору теоремы Байеса. В рамках байесианской статистики был сформулирован альтернативный подход к нулевой гипотезе: использовать в качестве альтернативы p-значению фактор Байеса (BF), который рассчитывается так:

В отличие от p-значения, смысл фактора Байеса интуитивно понятен. Он говорит о том, насколько такие данные вероятнее наблюдать при верной нулевой гипотезе (эффекта нет), чем если при верной альтернативной (эффект есть). Его значение интерпретируют следующим образом: обычно, если BF > 3, мы принимаем нулевую гипотезу, а если BF < 1/3 – альтернативную. Интересно, что во многих ситуациях p-значению в диапазоне 0,03–0,05 соответствует BF > 1. То есть наблюдать такие данные вероятнее, когда никакого эффекта нет. Но при этом p-значение меньше порогового и дает основания считать результат статистически значимым.

Фактор Байеса позволяет легко перейти от вероятности получения наблюдаемых данных к оценке вероятностей самих гипотез. Мы рассчитываем вероятность и нулевой, и альтернативной гипотезы и можем, сравнив их, выбрать из двух гипотез более убедительную. Расчет p-значения ничего не говорит о вероятности альтернативной гипотезы: мы оценим только данные против нулевой, на основе чего отбрасываем или оставляем ее. Здесь преимущество байесианского подхода очевидно: возможны ситуации, когда вероятность нулевой гипотезы невелика, но при этом вероятность альтернативной еще ниже.

Проиллюстрировать это можно тем же примером с беременностью. Примем, что нулевая гипотеза гласит – вы женщина[218], а альтернативная – вы мужчина. При этом вы беременны. Тогда p-значение, то есть вероятность наблюдать такие данные (беременность) при условии корректности нулевой теории (вы женщина), будет равно 0,03[219], удовлетворяя распространенному критерию статистической значимости p < 0,05. Соответственно, если вы беременны, мы должны отвергнуть нулевую гипотезу. Руководствуясь этой логикой, вы беременны, значит, вы мужчина. Расчет фактора Байеса приведет нас к более разумному выводу: 0,03, деленное на бесконечно малую вероятность наблюдать беременность у мужчины, даст бесконечно большое значение фактора Байеса и будет сильнейшим аргументом за то, чтобы признать беременную женщиной.

Однако есть и серьезный недостаток. Для расчета фактора Байеса необходимо знать вероятность наблюдения данных при условии, что верна альтернативная гипотеза. В клинических экспериментах ситуации, похожие на пример с беременностью, возникают редко, и мы неизбежно сталкиваемся с необходимостью определять этот параметр на основе предположений. Это вносит в расчеты ту субъективность, за которую критикуют байесианские методы. Пока их применение в медицинских экспериментах ограниченно, а между сторонниками и противниками идут горячие споры[220].

Какие бы критерии выбора в пользу нулевой или альтернативной теории мы ни использовали, сам факт признания того, что различия между группами не случайны, содержит мало информации для врачей и не дает достаточно оснований применять метод лечения. Как правило, он ничего не говорит о силе эффекта. Поэтому мало отметить, что различия статистически значимы, важно рассчитать такие показатели, как индекс потенциальной пользы[221], показывающий, сколько человек нужно пролечить, чтобы предотвратить один нежелательный исход (например смерть или инфаркт), и индекс потенциального вреда, с помощью которого можно описать распространенность побочных эффектов. В РКИ эти показатели не менее важны, чем в наблюдательных исследованиях.

Если мы используем расчет p-значений, желательно обозначить разницу между группами не просто одним числом – оно ничего не говорит о степени неопределенности результата, является ли он окончательным или требуется продолжение исследований. Больше информации дает расчет доверительных интервалов (ДИ), ставший в последнее время стандартной частью анализа результатов РКИ. Доверительные интервалы обозначают диапазон, в котором с определенной надежностью[222] (обычно это 95%) лежит результат. Чем выше выбранная надежность, тем шире будут границы диапазона. Если доверительный интервал разницы между группами включает в себя ноль, мы не можем уверенно говорить ни об отрицательном, ни о положительном результате эксперимента.

Доверительные интервалы записывают следующим образом.

Выживаемость в группе ингибиторов АПФ была на 10,0% выше (95% ДИ 7,0 13,0).

В этом случае 7,0 – это нижняя граница доверительного интервала, 13,0 – верхняя, а 95% – значение надежности, для которого рассчитан ДИ. Это результат A на рисунке ниже.

На рисунке изображены результаты двух экспериментов. Если мы ограничимся указанием среднего значения одной цифрой, то результаты A и B будут одинаковы. Различия между группами в обоих случаях 10% и статистически значимы. Однако доверительные интервалы разные: для А (7,0 13.0), для B (0,1 19,9). И если в первом случае мы знаем, что эффект лежит в достаточно узком диапазоне 7–13% и наверняка имеет клиническое значение, то во втором он может быть ничтожно мал (как, впрочем, и очень велик), поэтому нужны дальнейшие эксперименты. Они помогут сузить доверительный интервал и получить более точное представление о диапазоне, в котором лежит размер наблюдаемого эффекта.

В восьмидесятые годы прошлого века специалисты по статистике провели вполне успешную кампанию за обязательное использование доверительных интервалов либо вместо расчета p-значений, либо в дополнение к ним. Сейчас это стало правилом хорошего тона, которое, впрочем, нередко игнорируется.

Разобрать в рамках этой главы все возможные способы провести клиническое испытание и проанализировать его результаты неправильно – абсолютно невыполнимая задача. Тем, кто хочет узнать об этом больше, можно посоветовать книгу Триши Гринхалдж[223] “Основы доказательной медицины” – она опубликована на русском языке. А мы поговорим еще об одной проблеме, приводящей к катастрофическим последствиям: результаты многих клинических экспериментов остаются практически никому не известными.

Последнее решение

В 1980 году группа британских врачей провела испытание антиаритмического препарата лоркаинид у пациентов с инфарктом миокарда. В то время считалось, что, поскольку аритмия – одна из причин гибели после инфаркта, антиаритмические препараты должны повышать выживаемость пациентов. Из 49 пациентов в группе лоркаидина погибло 9, тогда как в группе плацебо – только один из 47. Поскольку фармкомпания решила не выводить препарат на рынок по причинам, не связанным с результатами этого исследования, они так и не были опубликованы. Как написал позже один из участников исследовательской группы: “Мы утратили интерес… и забыли об этом”.

Восемь лет спустя клиническое испытание CAST показало, что вопреки ожиданиям антиаритмические препараты могут не снижать, а увеличивать смертность пациентов с инфарктом. Участники испытания 1980 года осознали, что результаты их исследования могли в свое время стать первым тревожным звонком. Благодаря ему крупные исследования вроде CAST начались бы раньше и многие пациенты могли быть спасены. В назидание другим экспериментаторам они рассказали об этой истории, чтобы те помнили, насколько важно последнее связанное с исследованием решение: публиковать ли его результаты и если да, то насколько полно.

Публикации в научных журналах – главный источник информации о медицинских исследованиях. Именно на них опираются правила лечения пациентов – информация, которую разработчики лекарств передают в регистрирующие организации, такие как российское министерство здравоохранения[224], непублична и недоступна для большинства. Насколько корректны эти правила, если до 90%[225] исследований остаются неопубликованными?

Неопубликованные исследования отличаются от опубликованных. В 2008 году были изучены РКИ, на основе которых регистрировали антидепрессанты. Из 74 исследований по 12 препаратам 31% не были опубликованы. Что же именно осталось в ящиках столов? Из 38 успешных РКИ не опубликовали только одно. Из 36 отрицательных – опубликовали только 3, 22 не опубликовали, а оставшиеся 11 опубликовали, заменив отрицательный вывод на положительный. Получается, хотя положительный результат был получен только в половине РКИ, изучение научных публикаций создает впечатление, будто эффективность препаратов подтверждена в 94% исследований.

В результате избирательной публикации складывается ложное впечатление, что эффективность и безопасность препаратов выше, чем на самом деле. Ситуацию усугубляет и то, что исследования с положительным результатом публикуются заметно быстрее: для тех отрицательных, что все-таки доходят до печати, от момента завершения до появления в журналах в среднем проходит в полтора раза больше времени.

Не меньший вред может принести неполная публикация результатов. В сентябре 2004 года фармацевтическая компания Merck & Co отозвала с рынка противовоспалительный препарат рофекоксиб (торговая марка “Виокс”) в связи с тем, что он ощутимо повышает риск сердечных приступов и инсультов. Относящийся к группе коксибов препарат был очень популярен как лекарство от артрита, на пике его принимало до 80 миллионов человек по всему миру. Выручка от продажи “Виокса” за год до отзыва составила 2,5 миллиарда долларов США.

Препарат вышел на рынок в 1999 году, связанные с сердечно-сосудистыми заболеваниями побочные эффекты не упоминались. В клиническом испытании RIGOR, на основе которого “Виокс” был зарегистрирован, его сравнили с более старым напроксеном и пришли к выводу, что “Виокс” безопаснее. Однако со временем стала появляться информация о сердечно-сосудистых рисках, связанных с “Виоксом”, и затем крупное РКИ подтвердило, что препарат увеличивает эти риски в несколько раз.

Однако через некоторое время после отзыва препарата разразилась настоящая буря: выяснилось, что “Виокс” вообще не должен был появляться на рынке. Редакторы журнала The New England Journal of Medicine обнаружили, что из результатов RIGOR каким-то образом исчезли три инфаркта миокарда и другие побочные эффекты в группе “Виокса” и это ощутимо повлияло на выводы. Еще позже, в 2006 году, стало известно, что в ходе ADVANTAGE, другого исследования “Виокса”, проведенного Merck & Co в 2000 году, были получены данные, показывающие семикратное увеличение смертности от сердечно-сосудистых причин в группе “Виокса”. Отчет о результатах ADVANTAGE Merck & Co опубликовала только в 2003 году. В анализе упомянули лишь часть смертей, благодаря чему нежелательный эффект остался статистически незначимым.

Располагая данными о побочных эффектах “Виокса” еще до выхода препарата на рынок, Merck & Co скрывала их, защищая коммерчески успешный препарат до конца. Началась маркетинговая кампания, призванная выставить препарат в наилучшем свете. По мере распространения информации о побочных эффектах Merck & Co лишь усиливала сопротивление. Компания даже пыталась судить испанского фармаколога, чтобы вынудить внести поправки в его статью, но не добилась успеха. Последовавшие за скандалом с “Виоксом” судебные разбирательства привели к обнародованию электронных писем и внутренних документов Merck & Co. Примечательны, например, тренинговые материалы для сотрудников компании, содержавшие готовые ответы на щекотливые вопросы о побочных эффектах и набранный заглавными буквами совет “УВОРАЧИВАЙТЕСЬ!”.

Последовавшие суды нанесли ущерб репутации Merck & Co и резко снизили стоимость ее акций. Но ни огласка, ни компенсационные выплаты не могли вернуть потерянные жизни и утраченное здоровье. Многолетнее умалчивание и неполная публикация результатов исследований привели к тому, что на рынке несколько лет присутствовал опасный препарат. По разным оценкам, за время применения “Виокса” от него пострадали от 89 до 130 тысяч пациентов.

Узнать о неполноте или искажении опубликованных данных можно, только сверяя статьи в медицинских журналах с информацией, направленной регулирующим организациям, или с протоколами, полученными от этических комитетов, дававших одобрение на проведение испытания. Предполагается, что исследование проводят в точном соответствии с заранее подготовленным протоколом, а если есть отклонения, исследователи сообщают об этом и объясняют причину. Однако сопоставление информации из этих источников показывают одну и ту же тенденцию: в публикациях подчеркивают позитивные результаты и преуменьшают негативные находки, а исходы, по которым оценивают результаты РКИ, и методы анализа меняют без каких-либо объяснений. Так, до четверти основных исходов, фигурирующих в протоколах, не упомянуты в статьях. И в основном это исходы, представляющие препарат в негативном свете.

Крупный скандал разразился в связи с пароксетином (торговая марка “Паксил”). В 1992 году этот антидепрессант был выведен на рынок фармацевтической компанией SmithKline Beecham[226], а в 2012 году производителя оштрафовали на 3 миллиарда долларов США за сокрытие информации об исследовании № 329, в котором изучали лечение подростковых депрессий. Исследование показало, что эффективность пароксетина не лучше, чем у плацебо, и обнаружило побочные эффекты, в частности суицидальное поведение. SmithKline Beecham отказалась от идеи получить разрешение на использование “Паксила” в педиатрии, но у руководства возникли опасения, что эта неудача может подорвать популярность препарата – он уже применялся для взрослых и пользовался коммерческим успехом. Только в США “Паксил” приносил 12 миллиардов долларов в год, такими фантастическими продажами нельзя было рисковать.

Было принято решение “эффективно управлять распространением информации, с тем чтобы минимизировать потенциальный негативный коммерческий эффект”, для чего опубликовать “позитивные данные исследования 329”. Чтобы сделать “из дерьма конфетку”[227], было нанято агентство по медицинским коммуникациям. За сумму, чуть превышающую 17 тысяч долларов, агентство взялось написать несколько вариантов статьи и обеспечить взаимодействие с редакторами журналов. В качестве исходного материала в агентство был передан подробный отчет об исследовании на 1400 страницах. Конечно, формулировки в отчете смягчали найденные проблемы, но он не создавал ложного впечатления, что препарат эффективен и безопасен. Уже в первом варианте написанной агентством статьи выводы резко изменились. Число первичных исходов[228] увеличилось с двух до восьми, показатели четырех из них были ожидаемо лучше в группе “Паксила”. Побочные эффекты были приуменьшены, а выводы сообщали, что “препарат хорошо переносится и эффективен при лечении депрессии у подростков”.

СтатьябылаопубликованавJournal of the American Academy of Child and Adolescent Psychiatry.Конечно, редакторы журнала не могли знать о происходящем, но признаки того, что с данными не все в порядке, должны были насторожить. Статья, написанная маркетинговым агентством, впоследствии цитировалась в других научных работах 226 раз и использовалась для обоснования применения пароксетина.

В отдел маркетинга SmithKline Beecham статья поступила с сопроводительным комментарием сотрудника отдела продаж о “революционном исследовании”, демонстрирующем “исключительную эффективность и безопасность “Паксила” для лечения подростковой депрессии”. Так буквально за два шага неэффективный препарат с опасным побочным действием превратился в чудо медицины – надежное и безопасное. Попытка спасти легитимные продажи взрослым превратилась в рекламу офф-лейбл применения (калька с англ. off-label, “за пределами инструкции, этикетки”) для подростков: под этим термином понимают назначение разрешенного препарата по показаниям, не входящим в перечень официально разрешенных, – не всегда законная[229], но достаточно распространенная практика.

В 2003 году британский регулятор MHRA[230] проанализировал исследование № 329 и другие и обнаружил сокрытие информации. Последовал запрет на применение пароксетина для лечения подростков и возбуждение уголовного дела. Через четыре года уголовные обвинения были сняты, но помимо трехмиллиардного штрафа GSK выплатила еще миллиард по иску о связи 450 самоубийств с приемом пароксетина. Компания обязалась создать публичный реестр всех данных о проводимых ею клинических испытаниях. Вслед за ней аналогичные реестры в интернете создали Pfizer, Eli Lilly и Merck & Co.

Под влиянием этой истории Международный комитет редакторов медицинских журналов[231] заявил в 2005 году, что входящие в него журналы не будут публиковать исследования, которые не были предварительно зарегистрированы. Под предварительной регистрацией понимают публикацию еще до начала исследования на стороннем независимом ресурсе всех связанных с исследованием деталей, таких как дизайн, исходы, принцип отбора пациентов, методы анализа данных: это мешает публиковать результаты избирательно или не публиковать их вовсе – останутся следы того, что испытание проводилось, и перечень исходов, которые планировалось оценить. В США такая база доступна в интернете по адресу ClinicalTrials.gov еще с 2000 года. Однако ее существование долго игнорировалось, и только требование Международного комитета редакторов медицинских журналов переломило ситуацию – всего за месяц количество зарегистрированных в базе клинических исследований увеличилось вдвое.

Вслед за этим некоторые журналы потребовали предоставлять вместе со статьей исходные протоколы испытаний. А в 2007 году FDA сделало предварительную регистрацию клинических исследований обязательной и объявило о грозящих нарушителям наказаниях. В 2008 году вышла обновленная версия Хельсинкской декларации, в которой теперь четко прописали, что “любое клиническое исследование должно быть зарегистрировано в общедоступной базе данных до того, как в испытание включен первый участник”. В настоящее время такие публичные базы созданы в еще двух десятках стран, существует и международная база ВОЗ. К сожалению, в России обязательная публичная предварительная регистрация медицинских исследований носит формальный характер и реализуется таким образом, что в принципе не может выполнять предписанных ей функций.

Другая инициатива, направленная на то, чтобы публикации содержали полную и объективную информацию, – CONSORT (Consolidated Standards Of Reporting Trials, консолидированный стандарт отчета об исследованиях). Это расширенный список всего, что обязательно должно быть включено в описывающую клиническое исследование статью. Его задача – помочь предотвратить сокрытие важной для интерпретации исследования информации. Хотя CONSORT – всего лишь ориентир и носит рекомендательный характер, многие крупные журналы отталкиваются от его требований, когда решают, отвергнуть статью или принять к публикации. Анализ показал, что использование CONSORT значительно улучшает качество публикуемых статей.

Глава 15

Доказательная медицина

Еще один шотландец

Арчи Кокрейн родился в 1909 году в шотландском городке к югу от Эдинбурга в образованной и обеспеченной семье. Он получил естественнонаучное образование в Кембриджском университете, где некоторое время занимался исследованиями, но работа, оторванная от реальной жизни, его разочаровала. Не настроенный посвятить свою жизнь фундаментальной науке, Кокрейн уехал в Вену, где начал изучать медицину, а затем в Лондон, чтобы продолжить образование. Однако разнообразные интересы и беспокойный характер никак не позволяли его завершить. Интерес к политике привел его в 1936 году в Ассоциацию врачей-социалистов, отправлявшую медсестер и врачей добровольцами в Испанию, где шла гражданская война. Вернувшись, Кокрейн наконец закончил обучение, однако медицинская практика была недолгой: началась Вторая мировая.

Кокрейн присоединился к Медицинскому корпусу Королевской армии и оказался на Крите, а после вторжения немецкой армии на Крит – в числе 17 тысяч военнопленных. Его отправили в лагерь в Салониках. Как единственный врач, говоривший по-немецки, Кокрейн был, “невзирая на отсутствие желания и квалификации”, назначен лагерной администрацией руководить больницей для заключенных.

Страницы: «« 23456789 »»

Читать бесплатно другие книги:

Правда ли, что современный человек в среднем лжет трижды за десять минут разговора? Как реагировать ...
Если вы давно хотели понять, как майнеры майнят крипту и с чем ее потом едят, то «Криптвоюматика» то...
Рассказы, написанные в разное время. Объединяет их одно - взаимоотношения между мужчиной и женщиной....
Лелька, начав работу над новым романом, оказывается втянутой в расследование серии загадочных убийст...
Лучший способ передать окружающим свои экспертные знания и опыт – просто поговорить с ними. Но больш...
Михаил Владимирович Советов – практикующий профессиональный врач с 12-летним стажем работы в традици...