Исследования, в которых после завершения изменились основные результаты

Если во время проведения исследования измеряется несколько точек клинической эффективности, но автор расценивает улучшение в любой из них как положительный результат, то такие результаты недействительны. Наши тесты, необходимые, чтобы решить, является ли результат статистически значимым, предполагают, что исследователь измеряет только один параметр, одну точку клинической эффективности. Измеряя десяток параметров (точек клинической эффективности), ученый создает ситуацию, когда у него появляются десятки шансов получить положительный результат вместо одного, но при этом не декларирует это открыто. Получается, что в таком случае исследование является нечестным по своей структуре, и во время его проведения можно будет с большей вероятностью получить положительные результаты, чем они будут проявляться в действительности.

Представьте, что мы играем в кости и договариваемся, пусть даже в одностороннем порядке, о простой вещи: если я выбрасываю две шестерки, вы даете мне 10 фунтов. Я бросаю кубик, и выпадает две тройки, но я все равно требую выплатить мне 10 фунтов, заявляя, что именно об этом мы договорились изначально и что вы должны были мне дать 10 фунтов за выброс двух троек. Вы платите, и все довольны. По такому сценарию ведется сегодня игра в сфере клинических научных исследований. Такая практика, когда люди производят так сказать замену одних изначально установленных точек клинической эффективности на другие, является обычной и общепринятой. А нам, пациентам, приходится мириться с ней.

До проведения клинического исследования нужно написать его план. Это документ, в котором описывается то, что вы собираетесь сделать: сколько участников вы собираетесь набрать, где и как вы будете это сделать, какой препарат будет назначен каждой группе и какие точки клинической эффективности вы будете измерять. В исследовании нужно будет измерять все параметры как возможные точки клинической эффективности: вероятно, будет даже несколько различных шкал оценок для измерения боли, или депрессии, или чего-либо другого, что заинтересует вас (качество жизни или мобильность, которую вы измеряете при помощи какой-нибудь анкеты, смерть по разным причинам, смерть по каждой из ряда представленных причин и прочие параметры).

Все это делается до начала исследования для того, чтобы избежать одной простой проблемы: если вы измеряете много параметров, некоторые из них будут более привлекательными и статистически значимыми просто благодаря возникновению естественных случайных вариаций в данных исследования. Помните, что вы имеете дело с живыми людьми, проживающими в материальном мире, и их болевой порог, глубина депрессии, степень мобильности, качество жизни и т. д. будут разными от человека к человеку по ряду причин, и многие из них не будут иметь ничего общего с вмешательством, последствия от которого вы проверяете в ходе вашего исследования.

Если вы честный исследователь, вы будете использовать статистические тесты специально для выявления истинных полезных свойств лекарства, которое вы проверяете. Вы будете пытаться отличить эти реальные изменения от обычных случайных изменений в фоновых данных, которые вы увидите в результатах ваших пациентов при проведении различных тестов. Больше чем что бы то ни было вы захотите избежать получения ложноположительных результатов.

Традиционная пропорция статистической значимости совпадений 1 к 20. Грубо говоря, объясняя эту формулу простыми словами, если вы проведете одно и то же исследование много раз, используя те же методы, с теми же участниками из той же группы населения, то вы получите такие же положительные результаты, которые наблюдались в одном из 20 исследований, просто по случайности, даже если лекарство не оказывало совсем никакого полезного эффекта. Если вы будете зачерпывать двумя стаканчиками из одной бадьи с красными и белыми шариками, то и дело, чисто случайно, в одном стаканчике будет оказываться необычно мало красных шариков, а в другом – необычно много красных шариков. То же самое происходит и при измерении параметров здоровья пациентов: будут встречаться некоторые случайные вариации, и иногда все будет выглядеть так, как будто одно лекарство лучше другого, с точки зрения улучшения параметров организма, но на самом деле такое улучшение будет случайным. Статистические тесты разработаны для того, чтобы не дать этим самым случайным колебаниям параметров организма сбить нас с толку.

Поэтому сейчас давайте представим, что вы проводите исследование, при котором измеряете 10 разных независимых точек клинической эффективности. Если мы установим пропорцию статистической значимости как 1 к 20, тогда даже если ваше лекарство вообще не будет оказывать никакого полезного эффекта, в одном исследовании у вас все равно будет вероятность в пределах 40 % найти положительное действие лекарства по крайней мере на одну из точек клинической эффективности просто из-за случайных колебаний в ваших данных. Если вы предварительно не укажете, какие из параметров являются конечными точками эффективности, установленными изначально для исследования, то вы схитрите, а получив положительный результат по любой из 10 выбранных точек, вы объявите о позитивном результате вашего исследования.

Можете ли вы сразу открыто заявить о том, что делаете: «Эй, мы измерили 10 точек эффективности, и по одной из них наблюдается улучшение показателей, поэтому наше лекарство классное»? Да, наверное, так можно сделать, и в определенных обстоятельствах это сработает, потому что многие чтецы научных статей с удовольствием проглотят такую наживку и переключат внимание с одних точек клинической эффективности на другие. Однако большинство заметит вашу уловку. Им захочется увидеть отчет с результатами по изначально намеченным точкам клинической эффективности. Они-то знают, что, если измерять 10 параметров сразу, один из них уж точно будет выглядеть привлекательным просто по счастливой случайности.

Проблема состоит в том, что, даже если люди и знают, что вы должны устанавливать конечную точку клинической эффективности перед началом исследования, эти точки часто оказываются разными в плане исследования и в научной статье: они меняются после того, как проводящие исследование люди просмотрели результаты. Даже вы, случайный читатель, нашедший эту книгу на скамейке в метро, а не профессор статистики или врач, и то поймете, что это настоящее безумие. Если конечная точка клинической эффективности, упоминаемая в законченной статье, отличается от конечной точки клинической эффективности, намеченной до начала исследований, тогда создается совершенно абсурдная ситуация: весь смысл конечной точки клинической эффективности в том, что она назначается до того, как начинаются исследования. Однако люди меняют конечные точки клинической эффективности, и это не просто случайная проблема. На самом деле, это почти что обычное дело, нормальная практика среди исследователей.

В 2009 году группа исследователей собрала все работы, которые только могла найти, посвященные различным случаям использования лекарства под названием габапентин.24 Затем они посмотрели на данные тех исследований, по которым им удалось получить внутренние документы, где была указана первоначальная конечная точка клинической эффективности для каждого. Конечно, материалы половины всех исследований вообще не публиковались (возмущений по этому поводу не должно быть меньше с каждым новым случаем). Были опубликованы результаты по 12 исследованиям, и ученые проверили, действительно ли конечная точка клинической эффективности, упомянутая в научной статье, совпадала с той, которая декларировалась как таковая во внутренних документах до начала исследований.

Данные, которые были найдены, представляли собой настоящий хаос. Из 21 первичной конечной точки клинической эффективности, предварительно указанной в планах исследования, о которых следовало сообщить, было упомянуто только 11. О шести точках клинической эффективности, установленных первоначально, не упоминается нигде ни в какой форме, а еще четыре хоть и были включены в отчет, но упоминались в таком контексте, как будто они были вторичными точками клинической эффективности. Можно посмотреть на все с другого конца телескопа: в 12 опубликованных статьях об исследованиях сообщалось о 28 конечных точках клинической эффективности, но половина из них были новыми и никогда в действительности не были заявлены изначально как такие точки. Это было просто смешно. Никаких отговорок ни для исследователей, изменивших одни точки на другие, ни для работников научных журналов, которые не потрудились проверить информацию, быть не может. Однако были проверены исследования и отчеты о них только по одному лекарству. Можно ли назвать все произошедшее странной случайностью?

Нет. В 2004 году несколько исследователей опубликовали работу, в которой были изучены все области медицины. Были отобраны все исследования, одобренные комитетами по этике двух городов в течение двух лет, после чего опубликованные работы были проанализировали.25 Почти половина всех конечных точек клинической эффективности в отчетах была указана неправильно. Почти в двух третях опубликованных работ была изменена по крайней мере одна конечная точка клинической эффективности, и это было сделано совсем не случайно: как и можно было догадаться, о положительных результатах сообщали должным образом в два раза чаще, а искажений в них не наблюдалось. Другие исследования, авторы которых изучали изменение конечных точек клинической эффективности в отчетах, имели сходные результаты.

Чтобы прояснить ситуацию до конца, следует сказать о следующем. Если вы меняете изначально установленную конечную точку клинической эффективности без предоставления вразумительного объяснения, зачем вы это сделали, тогда вы просто нарушаете правила проведения исследований. Ваше исследование пристрастно, хаотично и представляет собой настоящую профанацию. Для всех исследований нужно установить одно универсальное правило: в отчете всех исследований изначально указанная конечная точка клинической эффективности должна оставаться неизменной и в конце исследования. За этим должны следить редакторы журналов, и так нужно было сделать еще на заре проведения клинических исследований. Сложного здесь ничего нет, однако все мы почему-то не соблюдаем такое простое, очевидное и самое главное требование. И так дела обстоят во всем мире.

Последним случаем, показывающим, к чему приводит на практике такое отношение к конечным точкам клинической эффективности, является история с пароксетином и исследованием, проведенным с участием детей. Хочу вам напомнить, что, когда над какой-нибудь компанией нависает потенциальная угроза проведения некоего судебного разбирательства, часто в руки исследователей попадают документы, которые в другой ситуации никогда не были бы показаны им. В результате у них появляется возможность выявить проблемы и несоответствия, что в обычной ситуации было бы невозможно. Такие документы в большинстве своем должны быть достоянием общественности, но их почему-то скрывают от глаз широкой публики. В этом отношении пароксетину повезло ничуть не больше, чем остальным лекарствам (как мы увидели из описанного выше исследования, перемена конечных точек клинической эффективности происходит везде и всюду). Я лишь просто описываю случай, по которому у нас есть больше всего информации.

В 2008 году группа исследователей решила изучить документы, доступ к которым был открыт после судебного процесса по одному из случаев рассмотрения пароксетина, и проверить, в какой форме были представлены опубликованные результаты клинического исследования («исследование 239»).26 В конце 2007 года систематические обзоры, посвященные этой работе, отзывались о ней так, будто это исследование принесло положительные результаты. Во всяком случае, во всех публикациях они назывались успешными. Но в действительности это было неправдой: в оригинальных протоколах были указаны две конечные точки клинической эффективности и шесть вторичных точек. В конце исследования разницы между пароксетином и плацебо при сравнении результатов этих точек отмечено не было. Помимо этого были измерены дополнительно еще 19 точек клинической эффективности, таким образом, их общее количество составило 27. Из них положительные результаты наблюдались только по четырем. Они и вошли в отчет, где информация преподносилась так, как будто бы они и были основными точками клинической эффективности.

Хотелось бы думать, что искажение данных в отчетности «исследования 239» всего лишь частный случай, исключение из правил и досадное недоразумение, которое не имеет ничего общего с остальными исследованиями. Грустно признавать, но исследователи очень часто поступают подобным образом, как в случае, описанном выше.

Эта практика так широко распространена, что работы здесь – непочатый край, если, конечно, найдутся достаточно смелые ученые для того, чтобы заняться реализацией такого грандиозного проекта. Кто-то ведь должен найти все исследования с измененными основными конечными точками клинической эффективности. Кто-то же должен потребовать предоставить доступ к изначальным, необработанным данным и в далекой перспективе провести их правильный анализ, специально для горе-исследователей, подделывающих результаты. Если вы решитесь на это и опубликуете ваши работы, они немедленно превратятся в справочник по этим исследованиям, потому что в них будут грамотно указаны предварительно установленные конечные точки клинической эффективности. Публикации оригинальных исследователей станут всего лишь сборниками ненужных и не имеющих отношения к науке цифр.

Я уверен, что они будут только рады, если вы окажете им посильную помощь.

⇐ Предыдущая 24 25 26 27 282930 31 32 33 Следующая ⇒