Безумны ли возможности ФБР по поводу совпадений ДНК?

Контент

Джейсон Фелчи Маура Доланиз Los Angeles Times недавно написали увлекательную статью о возникшем противоречии относительно использования ДНК для идентификации подозреваемых в совершении преступлений. Статья начинается так:

Аналитик государственной криминалистической лаборатории Кэтрин Тройерпроводила тесты в базе данных ДНК Аризоны, когда наткнулась на двух преступников с удивительно похожими генетическими профилями.

Мужчины совпадали в 9 из 13 участков хромосом или локусов, обычно используемых для различения людей.

[Федеральное бюро расследований] оценило вероятность того, что неродственные люди будут разделять эти генетические маркеры, как 1 к 113 миллиардам. Но фотографии двух преступников показали, что они не были родственниками: один был черным, другой - белым.

За годы, прошедшие после ее открытия 2001 года, Тройер нашла десятки похожих совпадений, каждая из которых, казалось, бросала вызов невероятным шансам.

По мере распространения информации эти открытия малоизвестного сотрудника лаборатории подняли вопросы о точности статистики ДНК ФБР и вызвали судебную борьбу за то, должны ли национальные генетические базы данных быть открытыми для более широкого изучения.

Позже систематический поиск 65 000 преступников в базе данных Аризоны показал, что было 122 пары, совпадающие по 9 из 13 локусов. Двадцать пар совпали по 10 локусам.

Когда я услышал об этом, я подумал, не сбилось ли с толку ФБР, когда дело доходит до вероятностей, которые оно дает относительно совпадений ДНК. Возможно ли, что ФБР право в отношении приводимых им статистических данных и что в базе данных Аризоны может быть 122 совпадения из девяти из 13?

Возможно, что удивительно, но ответ окажется положительным. Предположим, что вероятность совпадения любых двух индивидов в любом одном локусе составляет 7,5%. На самом деле частота совпадений варьируется от локуса к локусу, но я думаю, что 7,5% вполне разумны. Например, с 7,5-процентной вероятностью совпадения в каждом локусе вероятность совпадения любых двух случайных людей во всех 13 локусах составляет примерно 1 из 400 триллионов. Если вы выберете ровно 9 локусов для 2 случайных людей, шанс, что они совпадут со всеми 9, составляет 1 из 13 миллиардов. Думаю, именно такие цифры разбрасывает ФБР.

Итак, при тех же предположениях, сколько пар мы ожидаем найти совпадение по крайней мере в 9 из 13 локусов в базе данных Аризоны? Примечательно, около 100. Если вы начнете с 65 000 человек и проведете попарное сопоставление всех из них, вы фактически сделаете более 2 миллиардов отдельных сравнений (65 000 * 64 999/2). И если вы ищете соответствие не просто по 9 конкретным локусам, а по любым 9 из 13 локусов, то для каждой из этих пар людей выполняется поиск более 700 различных комбинаций.

Таким образом, в итоге вы выполняете около 1,4 триллиона запросов! Если 1 из 13 миллиардов поисков дает положительное совпадение, как указано выше, это приводит к примерно 100 ожидаемым совпадениям по 9 из 13 локусов в базе данных размером с Аризонский. (Как я делал вычисления, я позволяю двум людям совпадать по разным наборам локусов; поэтому, чтобы получить 100 разных пар людей, которые совпадают, мне нужен коэффициент совпадения немного выше 7,5% на локус.)

Что мне интересно в этой статье и в этих расчетах, так это то, что они показывают, как одни и те же наборы основных статистических отношений могут казаться более или менее убедительными в зависимости от того, как они изображены. Когда мы слышим, что есть 112 совпадений из 65 000 человек, создается впечатление, что дактилоскопия ДНК далеко не так хороша, как мы думаем, но это в основном потому, что мы не думаем о том, что 65 000 человек подразумевают 2 миллиарда пар людей.

Однако обратите внимание, что если мы начнем с ДНК с места преступления, а затем перейдем к поиску совпадений в базе данных Аризоны, мы выполним не 2 миллиарда поисков, а «всего» 46 миллионов (65 000 человек умножаем на 715 различных комбинаций из 9 loci), поэтому частота ложных срабатываний будет «только» 1 из 279.

Суть в том, что тестирование ДНК несовершенно, но все же в миллион (или, может быть, в тысячу?) Раз лучше, чем что-либо еще, что мы должны поймать преступников и (что не менее важно, особенно в Иллинойсе) реабилитировать невиновных.

(Спасибо Димитрису Бацилисуза то, что он вычислилэти цифры.)

Джастин

Действительно ли «систематический поиск» базы данных, выявивший 122 совпадающих пары, просмотрел все 1,4 триллиона запросов, которые вычисляет Левитт? Если нет - а это похоже на тонну поисков - то мы все еще можем беспокоиться, если более упрощенный поиск найдет такое количество совпадений.

Паттерико

«Я думаю, что дело обстоит наоборот; потому что цифры в миллиарды обсуждались, когда теперь кажется, что вероятность совпадения составляет 1 из 580 (65000/112, верно?), Это скорее сюрприз».

Человеку, написавшему выше:

Диджа прочитал пост, который вы комментируете?

Это не 122 из 65 000.

Это 122 из 1 400 000 000 000.

Это совсем другое.

Сильвестр

@ 36 В любом случае не важно, что мы основываем нашу статистику на полностью случайной выборке. Если эти статистические данные используются, например, для преступления, число подозреваемых может быть ограничено только теми, кто находится в непосредственной близости от места преступления (город или штат). В этом районе будет больше родственников, чем случайная выборка мирового населения. Другими словами, вероятность того, что человек, находящийся поблизости от места преступления, имел ту же ДНК, что и образец ДНК, обязательно выше, чем у человека, случайно выбранного из мира.

Ученый

Это сообщение в блоге и оригинальная статья очень интересны, поскольку они обсуждают тему, которая меня давно интересовала (например, вероятность случайного совпадения ДНК). По мере развития анализов с высоким содержанием информации люди боролись с концепциями «ложного обнаружения» и «коррекции множественности».

Я удивлен, что эти условия не упоминаются в исходной статье, сообщении Стивена или в каких-либо последующих комментариях, поскольку это основная проблема, которая здесь поднимается. Если вы выполните поиск в Интернете по этим терминам, вы обнаружите, что они часто применяются к данным генов / микрочипов, где вероятность «ложноположительного» совпадения возникает просто из-за большого количества «вопросов», которые вы задаете своим данным. .

Экстрасенсы-самопровозглашенные постоянно пользуются феноменом коэффициента ложных открытий (FDR). Например, предположим, что я говорю одному человеку, что собираюсь угадать месяц и дату его рождения. Поскольку человек может родиться в 1 из 366 таких дней (вспомните високосный год), у меня есть вероятность 1 из 366 правильно угадать дату их рождения. В этом примере я сделал одно предположение, так что, если я сделаю предположение правильно, некоторые люди могут поверить, что я ясновидящий. Скептик просил меня сделать это снова. Если я угадываю дни рождения двух случайно разных людей, то моя вероятность правильности составляет 1 из 133 956 (т.е. 366 * 366).

Однако предположим, что я стою перед толпой из 5000 человек и заявляю, что знаю, что в аудитории есть кто-то, родившийся в один из следующих дней: 21 января, 29 февраля. Затем я прошу их встать. . Вы удивитесь, если двое или более человек встанут? Если бы они это сделали, вы бы считали меня ясновидящим? Сколько предположений я сделал в этом случае? Кто-то скажет всего два, тогда как на самом деле я сделал 10 000 предположений. Большое количество догадок не так очевидно, потому что я делал это параллельно.

Плохая новость в том, что это явление вводит в заблуждение даже умных ученых чаще, чем я хотел бы признать. Однако хорошая новость в том, что есть математические подходы, чтобы справиться с этим.

Неграмотные по математике

«Когда мы слышим, что есть 112 совпадений из 65 000 человек, создается впечатление, что дактилоскопия ДНК далеко не так хороша, как мы думаем - но это в основном потому, что мы не думаем о том, что 65 000 человек подразумевают 2 миллиарда пар людей. "

Я думаю, что все наоборот; потому что цифры в миллиарды разошлись вокруг, когда теперь кажется, что вероятность совпадения составляет 1 из 580 (65000/112, верно?), это скорее сюрприз. Однако достаточно ли совпадения по 9 локусам, чтобы подтвердить личность и признать виновным? Или это просто полезно для разработки направлений расследования для следователей?

Samwyse

# 28, компьютер, который я использую сейчас, работает на частоте 2,8 ГГц. Это означает, что он может выполнять более одного миллиарда арифметических операций в секунду. Кажется разумным, что он может выполнять 1 миллион генетических сравнений в секунду. При такой скорости 1,4 триллиона парных сравнений займут 16 дней и 5 часов.

№ 24 и № 26, ваш так называемый «криминальный класс» охватывает всех, кого рассматривает судебная система. Это не только воры, насильники и убийцы, но и белые воротнички-преступники (помните, Аризона была домом для кризиса ссудо-сберегательного фонда), пьяные водители и сексуальные преступники (что в некоторых штатах включает публичное мочеиспускание). И не забывайте подозреваемых, которых позже отпустили; вы думаете, что их записи ДНК выбрасываются? Если вы думаете, что Марту Стюарт и Уилли Хортон связывает общая генетическая нить, давайте послушаем ее. Я считаю это немного сомнительным.

Кевин

Со статистической точки зрения математика неверна в том смысле, что база данных о преступниках не случайна, в то время как статистические шансы базы данных совпадений являются случайной базой данных. База данных о преступниках требует, чтобы вы были преступником и что в базе данных есть родственники. Таким образом, в отчете смешаны базы данных уголовников и статистические базы данных совпадений. Проблема дня рождения попадает в точку. Мы давно знаем о «совпадениях» в базах данных уголовников. Очевидно, что это не так, чтобы реально рассчитывать шансы, иначе это были бы новости на первых полосах 8 лет назад.

Платина

# 24, я думал о том же. Выборка была от осужденных и не очень случайна. В крайнем случае можно было даже подумать, что это может указывать на генетический путь к преступности.

Опять же, как я уже писал ранее: ИСКЛЮЧЕНИЕ, т.е. доказательство того, что образцы НЕ идентичны, может быть выполнено со 100% уверенностью. Таким образом, не имеет значения, совпадает ли ни один из тестируемых локусов или 999 из 1000 совпадают, а один - нет. Одного несоответствия было бы достаточно, чтобы показать, что образцы не идентичны по происхождению.

Исключением может быть тестирование на отцовство / материнство, поскольку de novo мутации зародышевой линии, особенно в микросателлитах, влияющих на длину повтора, происходят с конечной частотой (очень приблизительный показатель 1 из 1000). Там одного несоответствия было бы недостаточно, чтобы исключить линию спуска. Однако соматическая ДНК (т.е. биологические жидкости или ткани, такие как кожа или слюна), оставленная на месте преступления, не подвергается воздействию этого особого случая клонального происхождения.

Таким образом, проект невиновности имеет прочный фундамент. Когда дело доходит до исключения (доказательства неидентичности образцов), нет статистической двусмысленности. Аргумент очень похож на математическое доказательство. Вам нужно показать только один случай, чтобы доказать, что теорема неверна, но даже если вы покажете квадриллион случаев, в которых результат соответствует предсказаниям теоремы, это все равно не является математическим доказательством.

Одним из решений может быть требование совпадения 9 из 9, а не из 13. Это значительно снизит количество ложноположительных совпадений.

Из любопытства, знает ли кто-нибудь, скольким локусам разрешено совпадать при реабилитации кого-либо на основании данных ДНК? Мы могли бы сыграть в игру с допуском на ошибку и на этой стороне.

№20 Райан - нет, Левитт не предполагает, что Loci взаимозаменяемы. Из 13 локусов существует 715 способов сопоставить любые 9 (т. Е. Первые 9, последние 9, первые 8 плюс последний и т. Д.).

№19 Кевин - вы сказали:

«122 совпадения из 65 000 не отражают вероятность того, что конкретный образец имеет совпадение в других 64 900 образцах».

Это совершенно верно, и в том-то и дело, что последние два абзаца почтового адреса.

Как указывалось ранее, ДНК-свидетельство редко бывает единственным доказательством против обвиняемого. Возможно, хотя и очень маловероятно, что виновный человек не обеспечит идеального совпадения ... соматические мутации могут привести к тому, что у человека будет две или более последовательностей ДНК, одна последовательность останется на месте преступления, а другая последовательность будет обнаружена в крови контрольная работа. Хотя адвокаты никогда не признают, что небрежная лабораторная работа может иногда не совпадать. Взаимная возможность всегда поддерживается защитой. засвидетельствовать суд над О. Дж. Симпсоном. но плохая лабораторная работа может привести к обоим типам ошибок.

Проверка на отцовство с анализом ДНК аналогична ее использованию в судебной медицине, но не менее строгая. Общество с большей готовностью принимает ответственность за отцовство, не являющееся отцом, чем обвинение невиновного в преступлении.

Джон Ллойд Шарф

Очевидно, что даже одно не совпадение 13 должно исключать кого-то виновным. Это ГЛАВНОЕ преимущество ДНК - исключать подозреваемых, чтобы вы могли сосредоточиться на других.

Байрон

Если я чего-то не упустил, цифры ФБР все еще не верны. Вы показываете, что вполне разумно, что такие совпадения будут существовать, если шансы составляют 1 из 13 миллиардов, но, согласно цитируемой статье, они оценили шансы «столь же маловероятно, как 1 из 113 миллиардов». Я недостаточно хорошо разбираюсь в цифрах, чтобы вычислить, сколько совпадений должно дать результат, но кажется вероятным гораздо меньшее общее количество.

HardyW

Все это было решено в 80-х годах Р. К. Левонтином (см., Например, http://www.sciencemag.org/cgi/content/abstract/254/5039/1745). Прокуроры немного успокоились, затем снова взлетели, даже несмотря на то, что им передали головы команда О.Джея, теперь они снова ушли, заявляя, что вероятность уникальности больше, чем количество людей, когда-либо живших на планете (не говоря уже о эта вероятность успешного идентификатора никогда не может превышать вероятность лабораторной ошибки). Прокуроры = бесчисленное множество

mmoore42

Относительно «Но фотографии двух преступников показали, что они не были родственниками: один был черным, другой - белым».

Как это откровенно? Если не брать в расчет тот факт, что отличить расу по фотографии сложно, если не невозможно, они все равно могут быть связаны. Я не думаю, что в этой стране есть «чисто» белые или черные. Я уверен, что у меня есть белые двоюродные братья 3 поколения назад из эпохи рабства.

Нам не нужно доказывать вину вне всяких сомнений. Нам нужно доказать это вне всяких разумных сомнений.

Кевин

Вопрос, который, кажется, не охвачен, заключается в том, что вы не ищете потенциального совпадения какой-либо пары образцов, вы ищете совпадение с конкретным образцом, т.е. в комнате из 23 человек есть

% 50 вероятность, что (любой) 2 человека разделяют день рождения, но есть

% 6 шанс, что конкретный человек разделяет день рождения с кем-то еще в комнате.

122 совпадения из 65 000 не отражают вероятность совпадения конкретной выборки в других 64 900 выборках.

Джонатан

Отличный пост, но я думаю, что он упускает из виду закон. Представьте, что у вас есть доказательства ДНК, которые говорят, что x убил жертву, но свидетели говорят, что преступник был белым, а x - черным. Вы не получите обвинительного приговора по x. Черт возьми, ты бы не стал обвинять этого парня.

Дело в том, что люди - и люди, участвующие в уголовном процессе - предполагают, что ДНК исключает всех, кроме одного человека, что это абсолютно, хотя это не так. ДНК следует рассматривать в контексте доказательства: у вас есть свидетели или, по крайней мере, косвенные доказательства, которые связывают обвиняемого с местом происшествия или, по крайней мере, с жертвой, поэтому доказательства ДНК завершают доказательство «вне разумных сомнений». Если у вас есть другие доказательства, то явная возможность того, что да, вероятно, где-то есть совпадение, может быть, в этом штате, может быть, в этом округе, не имеет значения. Другими словами, настоящая роль ДНК состоит в том, чтобы исключить людей, и она полезна в качестве доказательства, когда не может исключить обвиняемого.