Границы общественного здравоохранения

Контент

Сведения о принадлежности редактора и рецензентов являются последними, указанными в их профилях исследования Loop, и могут не отражать их ситуацию на момент рецензирования.

  • Скачать статью
    • Скачать PDF
    • ReadCube
    • EPUB
    • XML (NLM)
    • Дополнительный

      материал
    • EndNote
    • Справочный менеджер
    • Простой текстовый файл
    • BibTex
      всего просмотров
    ПОДЕЛИСЬ

    ОРИГИНАЛЬНАЯ ИССЛЕДОВАТЕЛЬСКАЯ статья

    Модель безусловной или условной логистической регрессии для сопоставленных по возрасту данных случай – контроль?

    • 1 Коннектикутский институт клинических и трансляционных наук, Центр здоровья Университета Коннектикута, Фармингтон, Коннектикут, США
    • 2 Департамент общественной медицины и здравоохранения, Центр здоровья Университета Коннектикута, Фармингтон, Коннектикут, США

    Сопоставление демографических переменных обычно используется в исследованиях случай – контроль для корректировки смешения на этапе разработки. Существует предположение, что сопоставленные данные необходимо анализировать сопоставленными методами. Условная логистическая регрессия стала стандартом для сопоставленных данных случай-контроль для решения проблемы разреженных данных. Проблема разреженных данных, однако, может не быть проблемой для данных слабого сопоставления, когда сопоставление между наблюдениями и элементами управления не является уникальным, и один случай может быть сопоставлен с другими элементами управления без существенного изменения ассоциации. Данные, сопоставленные по нескольким демографическим переменным, явно не соответствуют данным, и мы предполагаем, что безусловная логистическая регрессия является подходящим методом для выполнения. Чтобы обратиться к гипотезе,мы сравниваем модели безусловной и условной логистической регрессии по точности оценок и проверке гипотез с использованием смоделированных сопоставленных данных случай-контроль. Наши результаты подтверждают нашу гипотезу; однако безусловная модель не так устойчива, как условная модель, к искажению сопоставления, так как процесс сопоставления не только делает случаи и элементы управления похожими для сопоставимых переменных, но также и для статуса воздействия. Когда дизайн исследования включает в себя другие сложные функции или вычислительная нагрузка высока, сопоставление в данных со слабым сопоставлением можно игнорировать из-за незначительных потерь при тестировании и оценке, если распределения сопоставимых переменных не сильно различаются между случаями и контролями.Безусловная модель не так устойчива, как условная модель, к искажению сопоставления, так как процесс сопоставления не только делает случаи и элементы управления похожими для сопоставимых переменных, но также и для статуса воздействия. Когда дизайн исследования включает в себя другие сложные функции или вычислительная нагрузка высока, сопоставление в данных со слабым сопоставлением можно игнорировать из-за незначительных потерь при тестировании и оценке, если распределения сопоставимых переменных не сильно различаются между случаями и контролями.Безусловная модель не так устойчива, как условная модель, к искажению сопоставления, так как процесс сопоставления не только делает случаи и элементы управления похожими для сопоставимых переменных, но также и для статуса воздействия. Когда дизайн исследования включает в себя другие сложные функции или вычислительная нагрузка высока, сопоставление в данных со слабым сопоставлением можно игнорировать из-за незначительных потерь при тестировании и оценке, если распределения сопоставимых переменных не сильно различаются между случаями и контролями.сопоставление в данных с произвольным сопоставлением может быть проигнорировано из-за незначительных потерь при тестировании и оценке, если распределения сопоставимых переменных не сильно различаются между наблюдениями и контролями.сопоставление в данных с произвольным сопоставлением может быть проигнорировано из-за незначительных потерь при тестировании и оценке, если распределения сопоставимых переменных не сильно различаются между наблюдениями и контролями.

    Вступление

    Сопоставление обычно используется в исследованиях «случай – контроль» для внесения поправки на смешение на стадии разработки. Это гарантирует, что корректировка возможна, когда нет достаточного совпадения в смешивающих переменных между наблюдениями и случайным набором элементов управления. В более ранней литературе преимущества сопоставления в исследованиях «случай – контроль» часто описываются как поправка на искажение и повышение эффективности исследования (1–4). Другие причины для сопоставления включают контроль неизмеряемых искажающих факторов и обеспечение статистической мощности для выполнения анализа подгрупп и проверки взаимодействий (5). Эффективность исследования повышается, если для такой же точности требуется меньший размер выборки или более узкий доверительный интервал получается при том же размере выборки. В предыдущих исследованиях сравнивалась эффективность согласованных и несравнимых исследований (3, 6–8).Сравнение сложно, поскольку на эффективность влияет не только согласование, но и другие факторы, которые трудно определить заранее (9). Таким образом, сопоставление эффективно, если совпадающие переменные являются истинными искажающими факторами и если необходимо отбросить лишь умеренное количество элементов управления, поскольку они не могут быть сопоставлены с случаем (9).

    Согласно описательной эпидемиологии, возраст, пол и раса являются наиболее часто встречающимися факторами. Распределение этих переменных может существенно различаться между случаями и контролем, а случайная выборка средств контроля может привести к ложным ассоциациям из-за искажающих факторов. Сопоставление - это метод решения проблемы, и существует два типа сопоставления: сопоставление по частоте и индивидуальное сопоставление. При частотном сопоставлении элементы управления выбираются таким образом, чтобы наблюдения и элементы управления имели одинаковое распределение совпадающих переменных. При индивидуальном сопоставлении сопоставление выполняется для случаев индивидуально, предполагая, что большинство в популяции являются контрольными. В конкретном случае сопоставленные элементы управления могут быть выбраны после точного сопоставления, например сопоставления по полу или сопоставления по интервалам, например сопоставления по возрасту в пределах 3 лет от возраста пациента (возраст ± 3 года). Обычно,коэффициент согласования случай-контроль является фиксированным и предварительно выбранным. В то время как увеличение количества средств контроля повысит точность оценок и тестов, незначительное улучшение незначительно при соотношении, превышающем 4, за исключением случаев, когда влияние воздействия велико (5).

    Сопоставление может вызвать проблему с разреженными данными, которая требует использования сопоставленных методов. Когда размер выборки недостаточно велик по сравнению с количеством страт, где каждый соответствующий набор статистически формирует страту, возникает проблема разреженности данных, которая приводит к отклонению оценки от истинного значения (10). Условная логистическая регрессия была разработана как средство от систематической ошибки, связанной с разреженными данными, и стала стандартом для анализа сопоставленных данных случай-контроль (11). Мы утверждаем, что бывают обстоятельства, когда количество страт велико по сравнению с размером выборки, но проблема разреженных данных не существует. В исследовании «случай-контроль», в котором изучается связь между риском рака и воздействием асбеста, возраст, как известно, является истинным искажающим фактором, и предполагается, что случаи и контроли соответствуют возрасту по возрасту ± 3 года.В то время как частота воздействия асбеста значительно различается между молодыми и пожилыми людьми с двух сторон, разница минимальна между испытуемыми, у которых разница всего несколько лет. Таким образом, субъекты с одинаковым возрастом могут быть сгруппированы в страту без внесения предвзятости в ассоциацию. С уменьшением числа слоев проблема разреженных данных в значительной степени решается, и теоретически уместными становятся несопоставимые методы.

    Наше исследование мотивировано одним из двух заблуждений, обсуждаемых Пирсом, о том, что если сопоставление было выполнено, то требуется «сопоставительный анализ» (12). Пирс провел простой эксперимент, имитирующий парное исследование случай – контроль, где каждый случай сопоставлялся с контролем из той же возрастной группы (молодые или старые). Как сопоставленные, так и несоответствующие анализы дали аналогичные результаты. Таким образом, он пришел к выводу, что парный анализ не требуется, если только случаи и контроли действительно не совпадают, например, при использовании братьев и сестер в качестве контроля или сопоставления по многим факторам одновременно. В этой статье мы подробно изучаем заблуждение с помощью моделирования, когда один случай сопоставляется с контрольной группой с таким же возрастом, а связь и эффект смешения различаются. Мы предполагаем, что сопоставление по демографическим переменным обычно приводит к «слабому сопоставлению» данных,которые могут быть надлежащим образом проанализированы непревзойденным методом. В данных со слабым соответствием один случай может быть сопоставлен с другими элементами управления без существенного изменения ассоциации. Повторное сопоставление может происходить в соответствии с критериями сопоставления или за их пределами, что означает, что сопоставление само по себе не является статистически эффективным. Это непросто, и у нас нет попыток количественно оценить слабое соответствие. Вместо этого мы моделируем совпадающие данные контроля случая, которые имитируют реальные данные и соответствуют определению свободного совпадения. Наша цель - показать, что несовпадающие методы подходят для согласованных данных контроля случая, которые, по сути, являются данными со слабым соответствием.Повторное сопоставление может происходить в соответствии с критериями сопоставления или за их пределами, что означает, что сопоставление само по себе не является статистически эффективным. Это непросто, и у нас нет попыток количественно оценить слабое соответствие. Вместо этого мы моделируем совпадающие данные контроля случая, которые имитируют реальные данные и соответствуют определению свободного совпадения. Наша цель - показать, что несовпадающие методы подходят для согласованных данных контроля случая, которые, по сути, являются данными со слабым соответствием.Повторное сопоставление может происходить в соответствии с критериями сопоставления или за их пределами, что означает, что сопоставление само по себе не является статистически эффективным. Это непросто, и у нас нет попыток количественно оценить слабое соответствие. Вместо этого мы моделируем совпадающие данные контроля случая, которые имитируют реальные данные и соответствуют определению свободного совпадения. Наша цель - показать, что несовпадающие методы подходят для согласованных данных контроля случая, которые, по сути, являются данными со слабым соответствием.

    Материалы и методы

    Статистические методы

    Обозначим Yстатус case – control, где y= 1, если случай и y= 0, если контроль. Обозначим через Xm= < Xm1 , Xm2 >вектор совпадающих переменных, где переменные в Xm1 точно совпадают, а переменные в Xm2 совпадают по интервалам. Обозначим X e, подверженность риску, ассоциируемую со статусом контроля случая, и Xo, вектор несовпадающих переменных для включения в модель. Обозначим через Sидентификатор подходящего множества. s= iдля субъектов в i-м наборе соответствия для i= 1, 2,…, n. В безусловной логистической регрессии модель, предполагающая отсутствие взаимодействия, имеет вид

    где π - вероятность развития заболевания, а β - соответствующие коэффициенты регрессии. Соответственно, модель условной логистической регрессии имеет вид

    где β 0 iобозначает вклад в логит всех постоянных членов в i-м наборе согласования, а другие параметры такие же, как те, которые определены в безусловной модели в уравнении. 1 (11). Переменные сопоставления интервалов необходимо контролировать в условной модели, потому что процесс сопоставления делает случаи и элементы управления похожими не только для сопоставимых переменных, но и для статуса воздействия (12, 13). В каждой модели записывается двустороннее значение Pпротив нулевой гипотезы H 0 : β e= 0, а также оценка β e, обозначенная здесь β ^ e.

    Симуляторы

    Мы смоделировали сопоставленные данные случай – контроль, чтобы проверить связь между бинарным воздействием и статусом заболевания – случай – контроль. Мы предположили, что экспозиция была единственным предиктором, а возраст - единственным препятствием. Один случай был сопоставлен с kконтрольными, а количество случаев составило n1 . В этой статье «случай» называется статусом исхода случая в исследованиях «случай – контроль».

    Обозначим через p eчастоту воздействия. Учитывая статус воздействия, распределение возраста ( x a) было аппроксимировано нормальным распределением, N(μ 0 , σ 2) для субъектов, не подвергавшихся воздействию, и N(μ 1 , σ 2) для субъектов, подвергшихся воздействию. Учитывая статус воздействия и возраст, риск заболевания моделировался следующим образом:

    где x eбыло 1, если экспонировалось, и 0, если не экспонировалось. β eи β aбыли определены черезотношения шансов воздействия и возраста. β 0 была выбрана таким образом, что распространенность болезни поддерживали на уровне K. На основе модели в формуле. 3, вероятность развития заболевания с учетом статуса воздействия и возраста составляла

    Для моделирования данных случаев было проведено прямое моделирование. Сначала мы смоделировали подвергшихся и не подвергавшихся воздействию субъектов с указанием их возраста, а затем статусов случай-контроль на основе вероятности заболевания в формуле. 4. Смоделированный возраст был усечен до наименьшего следующего целого числа из-за восприятия возраста. Моделирование продолжалось до тех пор, пока не было собрано достаточное количество случаев для обоснования исследования.

    Мы предположили, что размер популяции неограничен, и каждый случай может быть сопоставлен с контролем. Чтобы облегчить сопоставление случай-контроль, мы смоделировали статусы воздействия и возраст сопоставленных контролей на основе распределения статуса воздействия и возраста для контрольных групп, возраст которых находится в соответствующем диапазоне. Пусть возраст случая равен u,а соответствующие элементы управления имеют возраст в пределах < u1 , u2 >= < u - d, u+ d>, где uи dявляются целыми числами. Состояние воздействия и возраст каждого подобранного контроля были совместно смоделированы из

    где x e= 0, 1 и x a= u - d, u - d+ 1,…, u+ d -1, u+ d. В знаменателе

    где Φ (•) - кумулятивная функция плотности нормального распределения, определяемого средним значением и стандартным отклонением.

    В наших условиях мы рассматривали болезнь с распространенностью 10%. Мы предположили, что частота воздействия составляла 30%, возрастное распределение не подвергавшихся воздействию субъектов было N(μ 0 , σ 2), а возрастное распределение подвергшихся воздействию субъектов было N(μ 1 , σ 2), где μ 0 = 50, 60. , 65 и μ 1 = 70. Отношение шансов, связанное с воздействием, было установлено на 1,5, а отношение шансов, связанное с 10-летним увеличением возраста, было 1, 1,5, 2 или 3. Один случай соответствовал 1, 2, 3 или 4 контроля по возрасту ± d, где d= 0, 1, 2 и 3. Возрастные распределения случаев и контроля представлены с использованием выборки населения, содержащей 10 000 случаев (рисунки 1 и 2) для настроек μ 0 = 65, 50. Возрастные распределения для μ 0 = 60 находятся между распределениями для μ 0 = 65, 50 и не представлены здесь для экономии места.

    Рисунок 1. Распределение по возрасту заболевших (белый) и контрольной (серый) в популяции, где возрастное распределение подвергшихся и не подвергавшихся воздействию субъектов составляет N(70, 10 2) и N(65, 10 2), соответственно, а OR (возраст x 10) обозначает отношение шансов, связанное с 10-летним увеличением возраста.

    Рисунок 2. Распределение по возрасту случаев (белый) и контрольной (серый) в популяции, где возрастное распределение подвергшихся и не подвергавшихся воздействию субъектов составляет N(70, 10 2) и N(50, 10 2), а OR (возраст x 10) обозначает отношение шансов, связанное с увеличение возраста на 10 лет.

    Уровень значимости был установлен на 5% для проверки против H 0 : β e= 0. При альтернативной гипотезе использовалось 1000 наборов данных ( H1 : β e0) было правдой. Вместо этого было смоделировано 10 000 наборов данных, когда нулевая гипотеза была верна. Каждый набор данных содержал несколько подходящих наборов (один случай и один контроль). Каждый набор соответствий содержал данные о возрасте, воздействии и исходе. Количество подходящих наборов было выбрано для мощности около 80% для всех настроек моделирования, то есть 400, 500 и 900, когда возрастное распределение подвергшихся и не подвергавшихся воздействию предметов было разницей в 5, 10 и 20 лет. В частности, размер выборки был приблизительно определен путем моделирования. Требовалось больше реплик моделирования, чтобы обеспечить достаточную точность для ошибок типа I около 5%. Безусловные и условные модели были приспособлены к каждому набору данных и сравнивались между наборами данных по ошибке типа I и мощности для тестирования, а также по смещению и ширине 95% доверительного интервала для оценки.

    Результаты

    При моделировании мы манипулировали смешивающим влиянием возраста с помощью отношения шансов, связанного с 10-летним увеличением возраста, и средней разницы в возрасте между подвергнутыми и не подвергавшимися воздействию объектами. Результаты согласуются независимо от соотношения случай-контроль. Поэтому мы представляем только результаты сопоставления 1: 1.

    Проверка гипотезы

    Для проверки гипотезы β eмы сравниваем безусловную и условную модели по ошибке типа I при нулевой гипотезе H 0 : β e= 0 и по степени при альтернативной гипотезе H1 : β e≠ 0. В таблице 1 , мы представляем результаты ошибок типа I. Ошибка типа I считается разумной, если она попадает в доверительный интервал 95% для номинального уровня 5%: 0,0457, 0,0543. Результаты моделирования мощности представлены в таблице 2. Две модели считаются одинаково мощными, если абсолютная разница в мощности меньше 5%.

    Таблица 1. Ошибки первого типа моделей безусловной и условной логистической регрессии.

    Таблица 2. Мощность моделей безусловной и условной логистической регрессии.

    Когда средняя разница в возрасте составляет 5, т. Е. Возрастное распределение N(65, 10 2) для субъектов, не подвергавшихся воздействию, и N(70, 10 2) для субъектов, подвергшихся воздействию, ошибка типа I постоянно попадает в допустимый диапазон (левая панель в Таблице 1). ). Единственная ошибка типа I, выходящая за пределы допустимого диапазона, которая, скорее всего, возникает случайно, связана с условной моделью, когда диапазон соответствия возрасту составляет возраст ± 2 года. Безусловные модели постоянно дают аналогичную мощность с абсолютной разницей менее 5% (левая панель в таблице 2).

    Когда средняя разница в возрасте составляет 10, т. Е. Возрастное распределение N(60, 10 2) для субъектов, не подвергавшихся воздействию, и N(70, 10 2) для субъектов, подвергшихся воздействию, результаты согласуются с теми, когда средняя разница составляет 5. Обе модели дают разумные ошибки типа I. За исключением пары сценариев, они создают ошибки типа I ниже диапазона (средняя панель в таблице 1). Обе модели одинаково эффективны, когда альтернативная гипотеза верна (средняя панель в таблице 2).

    Когда средняя разница в возрасте составляет 20, т. Е. Возрастное распределение N(50, 10 2) для субъектов, не подвергавшихся воздействию, и N(70, 10 2) для субъектов, подвергшихся воздействию, условная модель последовательно поддерживает разумную ошибку типа I, в то время как безусловная модель дает ошибка типа I ниже диапазона (правая панель в таблице 1). Обе модели имеют одинаковую мощность (правая панель в таблице 2). Однако безусловная модель неизменно менее эффективна, чем условная. Когда отношение шансов, связанное с 10-летним увеличением возраста, равно 3, мощность уменьшается с более широким диапазоном соответствия возрасту. Этого не наблюдается до тех пор, пока смешивающий эффект не станет большим.

    Оценка

    Мы сравниваем безусловную и условную модели в оценке β eпо смещению или проценту смещения и ширине 95% доверительного интервала. Мы допускаем отношение шансов, связанное с воздействием, равным 1 при нулевой гипотезе и 1,5 при альтернативной гипотезе, что эквивалентно β e= ln 1,5 = 0,0405 при альтернативной гипотезе.

    Во время репликации моделирования мы собираем оценки β e,чтобы вычислить процент смещения (% смещения), когда альтернативная гипотеза верна:

    где β ^ e, j - оценка β eв j-м повторении моделирования, n r- количество повторений моделирования, а β ¯ e = 1 nr ∑ j = 1 nr β ^ e, j. Когда нулевая гипотеза верна, т. Е. Β e= 0, вместо этого сообщается смещение β ¯ e - β e. Используя те же обозначения и позволяя SE обозначать погрешность стендов, 95% доверительный интервал для β eпри j-й повтор моделирования равен (β ^ e, j - z 0,975 × SE (β ^ e, j), β ^ e, j + z 0,975 × SE (β ^ e, j)) и соответствующая ширина 95% доверительный интервал составляет 2 × z 0,975 × SE (β ^ e, j). Во время репликации моделирования, вместо того, чтобы брать среднее значение ширины 95% доверительного интервала, мы вычисляем усредненную ширину 95% доверительного интервала с помощью

    где SE (β ^ e) = 1 nr - 1 ∑ j = 1 nr (β ^ e, j - β ¯ e) 2 - оценка SE для β ^ e, а z0,975 - обратная кумулятивная плотность стандартной нормали. на 0,975. β ^ e несмещен, когда процент смещения равен 0%. Ширина 95% доверительного интервала сравнивается между моделями только тогда, когда оба процента смещения находятся в пределах ± 5%, что считается приемлемым.

    Результаты оценки, предполагающие, что нулевая гипотеза верна, представлены в таблицах 3 и 4. В таблице 3 систематическая ошибка постоянно составляет около 0, независимо от искажающего эффекта и диапазона соответствия возраста. В таблице 4 ширина 95% доверительного интервала существенно не меняется в зависимости от диапазона соответствия возраста и отношения шансов, связанного с 10-летним увеличением возраста. Он остается аналогичным между безусловной и условной моделями до тех пор, пока средняя разница в возрасте не достигнет 20, когда безусловная модель имеет более короткий интервал, чем условная модель. SE от β ^ e составляет около 0,15 в настройках моделирования в обеих моделях, но уменьшается до 0,13 в безусловной модели, когда средняя разница в возрасте составляет 20. Уменьшение SE приводит к разнице 0,08, что примерно соответствует ширине 95% достоверности. интервал.

    Таблица 3. Ошибки моделей безусловной и условной логистической регрессии при нулевой гипотезе.

    Таблица 4. Ширина 95% доверительного интервала моделей безусловной и условной логистической регрессии при нулевой гипотезе.

    Результаты оценки, когда альтернативная гипотеза верна, представлены в Таблице 5 (% систематической ошибки) и Таблице 6 (ширина 95% доверительного интервала). Когда средняя разница в возрасте составляет 5, т. Е. Возрастное распределение N(65, 10 2) для субъектов, не подвергавшихся воздействию, и N(70, 10 2) для субъектов, подвергшихся воздействию, обе модели последовательно дают одинаковые проценты систематической ошибки в диапазоне ± 5% и также аналогичная ширина 95% доверительного интервала. Хотя разница незначительна, безусловная модель последовательно дает более короткий 95% доверительный интервал, чем условная модель. Результаты согласуются, когда средняя разница в возрасте составляет 10. Когда средняя разница в возрасте составляет 20 лет, безусловная модель постоянно недооценивает β e.с процентом смещения меньше -5%, но условная модель постоянно дает смещение в пределах ± 5%. Ширина 95% доверительного интервала не сравнивается между моделями, потому что безусловная оценка всегда смещена.

    Таблица 5. Процент смещения (%) моделей безусловной и условной логистической регрессии при альтернативной гипотезе.

    Таблица 6. Ширина 95% доверительного интервала моделей безусловной и условной логистической регрессии при альтернативной гипотезе.

    Обсуждение

    В заключение можно сказать, что модели безусловной и условной логистической регрессии работают одинаково при тестировании и оценке, за исключением случаев, когда возрастное распределение подвергшихся и не подвергавшихся воздействию предметов составляет 20 лет. Когда два возрастных распределения разнесены на 20 лет, безусловная модель последовательно дает ошибку типа I ниже допустимого диапазона и немного менее эффективна, чем условная модель при альтернативной гипотезе. Когда нулевая гипотеза верна, безусловная модель беспристрастно оценивает эффект воздействия и дает более короткий доверительный интервал 95%, чем условная модель. Когда альтернативная гипотеза верна, безусловная модель значительно недооценивает эффект воздействия, в то время как условная модель неизменно дает несмещенную оценку.

    Когда средний возраст подвергшихся воздействию субъектов на 20 лет старше, чем у необлученных субъектов, случаи с большей вероятностью будут сопоставлены с контрольной группой с таким же статусом воздействия, и связь соответственно уменьшается. Безусловный метод игнорирует сопоставление, но корректирует смешение в рамках регрессии. В целом оценка Мантеля – Хензеля и оценка на основе логита схожи, когда данные в пределах страт, здесь возрастных групп, не слишком редки (11). Не теряя обобщения, предположим, что возраст разделен на несколько возрастных групп. Данные каждой возрастной группы могут быть организованы в виде таблицы 2 на 2, в зависимости от статуса воздействия (подвергнутый / неэкспонированный) по сравнению со статусом заболевания (случай / контроль) (см. Таблицу 7).

    Таблица 7. Таблица 2 на 2 статуса воздействия в зависимости от статуса заболевания.

    Обозначается буквами a, b, cи d, четыре подсчета клеток, представляющие количество подвергшихся воздействию случаев, подвергнутых контролю, неэкспонированных случаев и неэкспонированных контролей, соответственно. Отношение шансов Мантеля – Хензеля рассчитывается по формуле

    где i- индекс возрастной группы. В верхней и нижней возрастных группах соотношение количества случаев к количеству контролей, учитывая статус воздействия, близко к соотношению совпадения случай-контроль. Прибавление определенной возрастной группы к числителю и знаменателю имеет тенденцию быть похожим, что приводит ассоциацию к нулевому значению.

    При моделировании мы зафиксировали распространенность заболевания на уровне 10% и частоту воздействия на уровне 30%. Однако мы не ожидаем, что относительная эффективность моделей безусловной и условной логистической регрессии будет меняться в зависимости от распространенности заболевания и / или частоты воздействия. Размер выборки (количество подходящих наборов), необходимый для достижения 80% мощности при 5% уровне значимости, зависит от распространенности заболевания и частоты воздействия. Посредством моделирования мы предположили, что исследования с хорошей мощностью, и каждый случай может быть сопоставлен с контролем, что разумно, потому что вопрос, который мы пытаемся решить, заключается в том, нужно ли сопоставленные данные случай-контроль анализировать с помощью модели условной логистической регрессии. Когда распространенность заболевания или частота воздействия ниже, требуется больший размер выборки для поддержания 80% мощности,но размер выборки для обоих методов одинаков. Размер выборки выбирается с учетом сочетания распространенности заболевания и частоты воздействия, чтобы обеспечить мощность 80%. Для достаточно большого размера выборки, независимо от распространенности заболевания и частоты воздействия, наши выводы можно обобщить для других заболеваний и частоты воздействия. Опять же, цель этой статьи - сравнить два метода с учетом сопоставленных данных «случай – контроль» вместо несопоставленных и сопоставленных данных из разных дизайнов исследований, где сопоставленные данные имеют тенденцию иметь меньший размер выборки из-за несогласованных случаев.наши выводы можно обобщить в отношении распространенности и частоты воздействия других заболеваний. Опять же, цель этой статьи - сравнить два метода с использованием сопоставленных данных «случай – контроль» вместо несопоставленных и сопоставленных данных из разных дизайнов исследований, где сопоставленные данные имеют тенденцию иметь меньший размер выборки из-за несогласованных случаев.наши выводы можно обобщить в отношении распространенности и частоты воздействия других заболеваний. Опять же, цель этой статьи - сравнить два метода с учетом сопоставленных данных «случай – контроль» вместо несопоставленных и сопоставленных данных из разных дизайнов исследований, где сопоставленные данные имеют тенденцию иметь меньший размер выборки из-за несогласованных случаев.

    Наши результаты показывают, что, когда случаи и контроли сопоставляются только по возрасту, данные, по сути, являются данными со слабым соответствием, и безусловная логистическая регрессия является подходящим методом, когда возрастные распределения подвергшихся и не подвергавшихся воздействию субъектов существенно не различаются. В предыдущей литературе подробно обсуждались преимущества модели безусловной регрессии по сравнению с ее условной альтернативой, такие как удобство, легкий доступ, простая интерпретация и возможность сохранения несравнимых элементов управления (12). Мы утверждаем, что сопоставленные исследования случай – контроль были недооценены из-за неправильного представления о том, что сопоставленные данные «случай – контроль» можно анализировать только с помощью сопоставленных методов. В документе рассмотрены статистические методы 37 сопоставимых исследований случай – контроль, опубликованных в 2010 году. Среди этих исследований:большинство из них проводили сопоставление только по демографическим переменным, а именно по возрасту и полу. Был сделан вывод, что менее половины исследований (43%) были проанализированы с использованием надлежащих статистических методов (14). Вывод был сделан, как утверждали авторы после книги Breslow et al. (1), где для дихотомических результатов ожидался анализ пар соответствий Mantel – Haenszel или условная логистическая регрессия. Основываясь на наших выводах, сопоставленные методы не нужны для несвязанных данных, например, данных, сопоставленных по небольшому количеству демографических переменных. Хотя мы считаем, что реально редко можно наблюдать два возрастных распределения, разделенных на 20 лет, для экспонированных и необлученных субъектов, это дает нам пример того, как совпадающее искажение (совпадающие случаи и контроли имеют тенденцию разделять один и тот же статус воздействия) не соответствует безусловной логистике. регрессионная модель.Напротив, искажение сопоставления было исправлено путем включения переменных сопоставления в модель условной логистической регрессии (12, 13). Хотя мы рассматривали только одну переменную сопоставления, то есть возраст, наши результаты можно обобщить для сопоставления по полу и возрасту, что, по-видимому, дает слабые сопоставимые данные. При увеличении числа совпадающих переменных слабое соответствие с меньшей вероятностью сохранится в данных, например, совпадающие переменные, использованные в исследовании Jenab et al. (15): возраст, пол, учебный центр, время суток при заборе крови и продолжительность голодания при заборе крови; женщины были дополнительно сопоставлены по статусу менопаузы, фазе менструального цикла во время сбора крови и использованию заместительной гормональной терапии. Однако сила слабого соответствия не всегда отражается на количестве совпадающих переменных.Сопоставление по соседству или сопоставление на основе отношений неявно сопоставляет многочисленные неизмеряемые переменные, включая неизмеримые переменные. Такие исследования, по-видимому, генерируют действительно совпадающие данные, которые необходимо анализировать подобранными методами. Следует предупредить, что наши результаты относятся к сопоставленным данным случай-контроль и не могут быть обобщены для сопоставленных данных по шкале предрасположенности (PS). Метод PS был разработан для облегчения причинно-следственных связей в духе клинических испытаний (16). Сопоставление в методе PS выполняется на основе вероятности назначения лечения, которая определяется набором переменных, включая искажающие факторы. После учета этих переменных предполагается, что результат не зависит от статуса лечения. Исследование обычно представляет собой когортное исследование,и цель сопоставления PS состоит в том, чтобы гарантировать, что группы лечения сбалансированы по отношению к переменным (условная независимость). Напротив, исследования случай – контроль являются ретроспективными исследованиями, в которых наблюдается статус воздействия. Хотя ведутся споры о том, следует ли рассматривать обработанные и необработанные образцы как независимые, что будет определять выбор статистических методов (17), это отличается от вопроса, который мы пытались решить с точки зрения дизайна исследования и схемы сопоставления.это отличается от вопроса, который мы пытались решить с точки зрения дизайна исследования и схемы сопоставления.это отличается от вопроса, который мы пытались решить с точки зрения дизайна исследования и схемы сопоставления.

    Объем этого исследования ограничен исследованиями случай-контроль, в которых выполняется сопоставление нескольких демографических переменных и рассматриваются методы моделей безусловной и условной логистической регрессии. Кроме того, настройки моделирования предполагают абсолютный успех сопоставления, отсутствие ошибок в спецификации модели и отсутствие взаимодействия между воздействием и сопоставимыми переменными. Однако эти предположения можно ослабить, и они потребуют дальнейшего изучения. Неопубликованные данные соавтора Куо были собраны для оценки длины теломер плаценты при ограничении роста недоношенного плода, где каждый случай ограничения роста недоношенного плода был сопоставлен с двумя контрольными группами по гестационному возрасту в течение 6 дней после родов.Результаты модели линейной регрессии (метод несовпадения) и модели линейных смешанных эффектов, предполагающей случайные эффекты для совпадающих наборов (метод согласования), были весьма схожими с точки зрения коэффициента регрессии ипзначение, связанное со статусом «случай-контроль», которое подтверждает наш вывод о том, что данные «случай-контроль», сопоставленные по нескольким демографическим переменным, могут быть должным образом проанализированы несопоставленными методами. В заключение следует отметить, что для решения проблемы разреженных данных требуются согласованные методы, например условная логистическая регрессия, для действительно согласованных данных «случай – контроль». Согласованные методы также устойчивы к искажениям согласования. Непревзойденные методы, например, безусловная логистическая регрессия, являются жизнеспособными вариантами для несогласованных данных, основанных на наших выводах. Когда план исследования включает другие сложные функции, такие как цензура и повторные измерения, сопоставление нескольких демографических переменных можно игнорировать, если смешивающий эффект не очень велик. После этого могут быть легко применены стандартные методы, такие как регрессия Кокса и обобщенное уравнение оценки.Непревзойденные методы также привлекательны для экономии времени вычислений, когда один и тот же анализ необходимо многократно повторять, например, анализ ассоциации всего генома. Помимо сопоставления, при выборе статистического метода необходимо учитывать и другие факторы, такие как дизайн исследования и практическая осуществимость.

    Вклад авторов

    Все авторы внесли значительный вклад в дизайн исследования, интерпретацию результатов и подготовку рукописи. Моделирование данных было проведено C-LK.

    Заявление о конфликте интересов

    Авторы заявляют, что исследование проводилось при отсутствии каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.