Без выходных

Фантомные предки и математические пределы генетической генеалогии

Формализация математического аппарата для профессиональной генетической генеалогии

1. Введение: фундаментальный парадокс генеалогии

Каждый человек имеет 2 родителей, 4 бабушек и дедушек, 8 прабабушек и прадедушек, и так далее. В g-м поколении (считая от пробанда) число прямых предков составляет 2^g. При g = 10 это 1024 предка, при g = 20 — более миллиона, при g = 33 — более 8 миллиардов, что превышает население Земли в момент рождения пробанда.

Этот очевидный парадокс разрешается феноменом педигри-коллапса (pedigree collapse) — многократного повторения одних и тех же предков через разные генеалогические линии вследствие родственных браков. В реальности число уникальных предков растёт не экспоненциально, а замедляется, достигая плато.

Цель статьи: формализовать математический аппарат для учёта фантомных предков и повторов в поколениях, определить пределы применимости генетических методов для разных глубин родства, предоставить рабочие таблицы для профессиональных генеалогов.

2. Основные определения и терминология

Термин (рус.) Термин (лат.) Определение
Фантомный предок Phantom ancestor Предок, который формально присутствует в генеалогическом древе, но не является уникальным (повторяется в разных ветвях)
Коэффициент повторного предка Coefficient of ancestry repetition (R) Отношение числа уникальных предков к максимально возможному (2^g)
Эффективное число предков Effective number of ancestors (N_eff) Число уникальных предков в поколении g с учётом их весов (вклада в геном пробанда)
Степень педигри-коллапса Pedigree collapse degree (PCD) 1 - N_eff / 2^g
Глубина сегрегации Segregation depth (g) Число мейотических делений между пробандом и предком
Критическая глубина Critical depth (g_crit) Глубина, после которой ожидаемая длина IBD-сегмента становится меньше порога детекции

3. Математический аппарат

3.1. Экспоненциальный рост и его ограничение

Максимальное число предков в поколении g (считая пробанда поколением 0) при отсутствии родственных браков:

A_max(g) = 2^g

Реальное число уникальных предков U(g) меньше из-за педигри-коллапса. Для популяции с постоянным размером N и случайным скрещиванием ожидаемое число уникальных предков асимптотически стремится к N:

lim(g→∞) U(g) = N

3.2. Коэффициент повторного предка R(g)

R(g) = U(g) / 2^g

Таблица 1. Типичные значения R(g) для разных типов популяций

Поколение g 2^g U(g) (изолят) R(g) (изолят) U(g) (панимиксия) R(g) (панимиксия)
1 2 2 1.000 2 1.000
2 4 4 1.000 4 1.000
3 8 8 1.000 8 1.000
4 16 15 0.938 16 1.000
5 32 28 0.875 31 0.969
6 64 48 0.750 58 0.906
7 128 72 0.562 96 0.750
8 256 95 0.371 135 0.527
9 512 112 0.219 165 0.322
10 1024 120 0.117 182 0.178

3.3. Вероятность обнаружения IBD-сегмента заданной длины

Два индивида, имеющие общего предка g поколений назад (суммарно 2g мейозов), ожидаемая длина IBD-сегмента:

E(L) = 100 / (2g) сантиморган (cM)

Вероятность того, что IBD-сегмент будет длиннее порога детекции L_thr:

P_detect(g) = exp(-L_thr * 2g / 100)

Таблица 2. Вероятность детекции IBD-сегмента для разных глубин родства и порогов детекции

g 2g E(L), cM P_detect (7 cM) P_detect (5 cM) P_detect (3 cM)
2 4 25.0 0.94 0.98 0.99
3 6 16.7 0.82 0.92 0.97
4 8 12.5 0.65 0.81 0.92
5 10 10.0 0.50 0.67 0.84
6 12 8.3 0.36 0.54 0.75
7 14 7.1 0.25 0.42 0.66
8 16 6.3 0.16 0.31 0.56
9 18 5.6 0.10 0.22 0.47
10 20 5.0 0.06 0.15 0.38
11 22 4.5 0.04 0.10 0.30
12 24 4.2 0.02 0.07 0.24

4. Учёт фантомов в генеалогических построениях

4.1. Формула для числа уникальных предков с учётом повторных браков

U(g) = N_eff * [1 - (1 - 1/N_eff)^{2^g}]

4.2. Вероятность общего предка для случайных индивидов

F(g) = 1 - (1 - 1/(2N_eff))^{2g}

5. Критическая глубина сегрегации g_crit

g_crit = 50 / L_thr

Таблица 5. Критическая глубина для разных порогов детекции

L_thr (cM) g_crit Лет при G=25 Комментарий
10 5 125 Коммерческие тесты (23andMe, AncestryDNA) — надёжное детектирование
7 7 175 Верхняя граница для большинства коммерческих панелей
5 10 250 Достижимо при плотности более 1 млн маркеров
3 17 425 Требует полногеномного секвенирования (WGS)
2 25 625 Только специализированные методы (IBD-сегменты менее 2 cM)
1 50 1250 Теоретический предел

Практический вывод: Для родства глубже 7 поколений стандартные коммерческие тесты дают более 50% ложноотрицательных результатов.

6. Таблицы для профессиональных генеалогов

6.1. Соответствие длины IBD-сегмента и степени родства

Степень родства Общий предок в поколении g Ожидаемая длина одного IBD-сегмента, cM Суммарная ожидаемая длина IBD, cM
Родитель-ребёнок 1 3500 3500
Сиблинги 2 3500 3500
Дяди/племянники 2 1750 1750
Первые кузены 3 875 875
Вторые кузены 4 12.5 220
Третьи кузены 5 10.0 55
Четвёртые кузены 6 8.3 14
Пятые кузены 7 7.1 3.5
Шестые кузены 8 6.3 0.9

7. Практический алгоритм для профессионального генеалога

Шаг 1. Определение глубины родства по IBD-сегментам

  1. Получить список IBD-сегментов (длина в cM, хромосома, позиция).
  2. Отфильтровать сегменты короче порога: для коммерческих тестов — 7 cM, для WGS — 3 cM.
  3. Рассчитать суммарную длину IBD (total cM).
  4. По таблице 6.1 определить наиболее вероятную степень родства.

Шаг 2. Учёт фантомных предков

Если суммарная длина IBD не соответствует целочисленной степени родства, это указывает на наличие фантомных предков (педигри-коллапс). Если наблюдаемая доля IBD больше ожидаемой в 1.5-2 раза, вероятность повторного предка более 80%.

Шаг 3. Оценка TMRCA для Y-STR (патрилинейное родство)

  1. Подсчитать суммарную разность повторов D = Σ|a_i - b_i| по всем локусам.
  2. Рассчитать T_raw = D / (2 * μ * L) * 25 лет.
  3. Рассчитать 95% доверительный интервал: T_min = T_raw / 2, T_max = T_raw * 2.

8. Ограничения (Limitations)

  1. Все формулы предполагают отсутствие селективных эффектов. В реальности локусы, ассоциированные с репродуктивным успехом, могут демонстрировать иное распределение IBD.
  2. Популяционная специфичность. Приведённые значения являются типичными для европейских популяций. Для изолятов (ашкенази, финны, сардинцы) g_crit может быть на 2-3 поколения меньше.
  3. Неучтённые рекомбинационные горячие точки. Скорость рекомбинации вариабельна вдоль генома, что создаёт дополнительную дисперсию длины IBD.
  4. Проблема "скрытого родства" (cryptic relatedness). Современные методы не позволяют надёжно отличать короткие IBD-сегменты (менее 2 cM) от ложноположительных.

9. Заключение

Что доказано достоверно:

  • Ожидаемая длина IBD-сегмента обратно пропорциональна числу мейозов: E(L) = 100 / (2g) cM.
  • Критическая глубина сегрегации для коммерческих тестов (порог 7 cM) составляет g_crit = 7 поколений (175 лет).

Что остаётся в области вероятностных моделей:

  • Точная идентификация общего предка на глубине более 7 поколений без документальных подтверждений невозможна.
  • Различение IBD и IBS сегментов короче 3 cM остаётся нерешённой задачей.
Главный вывод: Для родства глубже 7 поколений стандартные коммерческие тесты дают более 50% ложноотрицательных результатов. Единственным надёжным методом является полногеномное секвенирование с анализом коротких IBD-сегментов (менее 2 cM) и вероятностным моделированием коалесценции.

10. Диагностика и консультирование в РФ

Партнёрский блок: лабораторная диагностика

Инвитро — официальный партнёр данного материала. Партнёрство не влияет на научную оценку методов.

Федеральная лабораторная сеть Инвитро предоставляет доступ к генетическим панелям для генетической генеалогии, включая анализ Y-хромосомы (STR и SNP), митохондриальной ДНК и аутосомных маркеров. Ключевым аспектом является соблюдение стандартов контроля качества, аккредитация лабораторий и интеграция результатов в клиническую практику.

Для читателей данного материала Инвитро предоставляет скидку 15% по промокоду 04591Q88484. Данный промокод предоставляет скидку на услуги по генетическим исследованиям. Ознакомиться с ними вы можете по этой ссылке в разделе "Услуги партнёров Инвитро".

Важно: Интерпретация результатов генетико-генеалогического тестирования требует участия специалиста в области генетической генеалогии. Утверждения о родстве на глубине более 7 поколений без учёта математических пределов (таблицы 2, 5) не имеют научного обоснования.

Юридическое предупреждение: Настоящий материал носит информационно-справочный характер и предназначен для научно-образовательных целей. Информация не является медицинской консультацией, публичной офертой или руководством к самодиагностике. Упоминание Инвитро как партнёра не влияет на научную оценку методов. Результаты фундаментальных исследований находятся на стадии доклинической валидации или ранних клинических испытаний. Любые решения о диагностике, профилактике и терапии принимаются только после очной консультации с квалифицированным врачом-специалистом. Имеются противопоказания. Необходима консультация специалиста.