Фантомные предки и математические пределы генетической генеалогии
Формализация математического аппарата для профессиональной генетической генеалогии
Содержание
- Введение: фундаментальный парадокс генеалогии
- Основные определения и терминология
- Математический аппарат
- Учёт фантомов в генеалогических построениях
- Критическая глубина сегрегации g_crit
- Таблицы для профессиональных генеалогов
- Практический алгоритм для профессионального генеалога
- Ограничения (Limitations)
- Заключение
- Диагностика и консультирование в РФ
- Список литературы
1. Введение: фундаментальный парадокс генеалогии
Каждый человек имеет 2 родителей, 4 бабушек и дедушек, 8 прабабушек и прадедушек, и так далее. В g-м поколении (считая от пробанда) число прямых предков составляет 2^g. При g = 10 это 1024 предка, при g = 20 — более миллиона, при g = 33 — более 8 миллиардов, что превышает население Земли в момент рождения пробанда.
Этот очевидный парадокс разрешается феноменом педигри-коллапса (pedigree collapse) — многократного повторения одних и тех же предков через разные генеалогические линии вследствие родственных браков. В реальности число уникальных предков растёт не экспоненциально, а замедляется, достигая плато.
Цель статьи: формализовать математический аппарат для учёта фантомных предков и повторов в поколениях, определить пределы применимости генетических методов для разных глубин родства, предоставить рабочие таблицы для профессиональных генеалогов.
2. Основные определения и терминология
| Термин (рус.) | Термин (лат.) | Определение |
|---|---|---|
| Фантомный предок | Phantom ancestor | Предок, который формально присутствует в генеалогическом древе, но не является уникальным (повторяется в разных ветвях) |
| Коэффициент повторного предка | Coefficient of ancestry repetition (R) | Отношение числа уникальных предков к максимально возможному (2^g) |
| Эффективное число предков | Effective number of ancestors (N_eff) | Число уникальных предков в поколении g с учётом их весов (вклада в геном пробанда) |
| Степень педигри-коллапса | Pedigree collapse degree (PCD) | 1 - N_eff / 2^g |
| Глубина сегрегации | Segregation depth (g) | Число мейотических делений между пробандом и предком |
| Критическая глубина | Critical depth (g_crit) | Глубина, после которой ожидаемая длина IBD-сегмента становится меньше порога детекции |
3. Математический аппарат
3.1. Экспоненциальный рост и его ограничение
Максимальное число предков в поколении g (считая пробанда поколением 0) при отсутствии родственных браков:
Реальное число уникальных предков U(g) меньше из-за педигри-коллапса. Для популяции с постоянным размером N и случайным скрещиванием ожидаемое число уникальных предков асимптотически стремится к N:
3.2. Коэффициент повторного предка R(g)
Таблица 1. Типичные значения R(g) для разных типов популяций
| Поколение g | 2^g | U(g) (изолят) | R(g) (изолят) | U(g) (панимиксия) | R(g) (панимиксия) |
|---|---|---|---|---|---|
| 1 | 2 | 2 | 1.000 | 2 | 1.000 |
| 2 | 4 | 4 | 1.000 | 4 | 1.000 |
| 3 | 8 | 8 | 1.000 | 8 | 1.000 |
| 4 | 16 | 15 | 0.938 | 16 | 1.000 |
| 5 | 32 | 28 | 0.875 | 31 | 0.969 |
| 6 | 64 | 48 | 0.750 | 58 | 0.906 |
| 7 | 128 | 72 | 0.562 | 96 | 0.750 |
| 8 | 256 | 95 | 0.371 | 135 | 0.527 |
| 9 | 512 | 112 | 0.219 | 165 | 0.322 |
| 10 | 1024 | 120 | 0.117 | 182 | 0.178 |
3.3. Вероятность обнаружения IBD-сегмента заданной длины
Два индивида, имеющие общего предка g поколений назад (суммарно 2g мейозов), ожидаемая длина IBD-сегмента:
Вероятность того, что IBD-сегмент будет длиннее порога детекции L_thr:
Таблица 2. Вероятность детекции IBD-сегмента для разных глубин родства и порогов детекции
| g | 2g | E(L), cM | P_detect (7 cM) | P_detect (5 cM) | P_detect (3 cM) |
|---|---|---|---|---|---|
| 2 | 4 | 25.0 | 0.94 | 0.98 | 0.99 |
| 3 | 6 | 16.7 | 0.82 | 0.92 | 0.97 |
| 4 | 8 | 12.5 | 0.65 | 0.81 | 0.92 |
| 5 | 10 | 10.0 | 0.50 | 0.67 | 0.84 |
| 6 | 12 | 8.3 | 0.36 | 0.54 | 0.75 |
| 7 | 14 | 7.1 | 0.25 | 0.42 | 0.66 |
| 8 | 16 | 6.3 | 0.16 | 0.31 | 0.56 |
| 9 | 18 | 5.6 | 0.10 | 0.22 | 0.47 |
| 10 | 20 | 5.0 | 0.06 | 0.15 | 0.38 |
| 11 | 22 | 4.5 | 0.04 | 0.10 | 0.30 |
| 12 | 24 | 4.2 | 0.02 | 0.07 | 0.24 |
4. Учёт фантомов в генеалогических построениях
4.1. Формула для числа уникальных предков с учётом повторных браков
4.2. Вероятность общего предка для случайных индивидов
5. Критическая глубина сегрегации g_crit
Таблица 5. Критическая глубина для разных порогов детекции
| L_thr (cM) | g_crit | Лет при G=25 | Комментарий |
|---|---|---|---|
| 10 | 5 | 125 | Коммерческие тесты (23andMe, AncestryDNA) — надёжное детектирование |
| 7 | 7 | 175 | Верхняя граница для большинства коммерческих панелей |
| 5 | 10 | 250 | Достижимо при плотности более 1 млн маркеров |
| 3 | 17 | 425 | Требует полногеномного секвенирования (WGS) |
| 2 | 25 | 625 | Только специализированные методы (IBD-сегменты менее 2 cM) |
| 1 | 50 | 1250 | Теоретический предел |
Практический вывод: Для родства глубже 7 поколений стандартные коммерческие тесты дают более 50% ложноотрицательных результатов.
6. Таблицы для профессиональных генеалогов
6.1. Соответствие длины IBD-сегмента и степени родства
| Степень родства | Общий предок в поколении g | Ожидаемая длина одного IBD-сегмента, cM | Суммарная ожидаемая длина IBD, cM |
|---|---|---|---|
| Родитель-ребёнок | 1 | 3500 | 3500 |
| Сиблинги | 2 | 3500 | 3500 |
| Дяди/племянники | 2 | 1750 | 1750 |
| Первые кузены | 3 | 875 | 875 |
| Вторые кузены | 4 | 12.5 | 220 |
| Третьи кузены | 5 | 10.0 | 55 |
| Четвёртые кузены | 6 | 8.3 | 14 |
| Пятые кузены | 7 | 7.1 | 3.5 |
| Шестые кузены | 8 | 6.3 | 0.9 |
7. Практический алгоритм для профессионального генеалога
Шаг 1. Определение глубины родства по IBD-сегментам
- Получить список IBD-сегментов (длина в cM, хромосома, позиция).
- Отфильтровать сегменты короче порога: для коммерческих тестов — 7 cM, для WGS — 3 cM.
- Рассчитать суммарную длину IBD (total cM).
- По таблице 6.1 определить наиболее вероятную степень родства.
Шаг 2. Учёт фантомных предков
Если суммарная длина IBD не соответствует целочисленной степени родства, это указывает на наличие фантомных предков (педигри-коллапс). Если наблюдаемая доля IBD больше ожидаемой в 1.5-2 раза, вероятность повторного предка более 80%.
Шаг 3. Оценка TMRCA для Y-STR (патрилинейное родство)
- Подсчитать суммарную разность повторов D = Σ|a_i - b_i| по всем локусам.
- Рассчитать T_raw = D / (2 * μ * L) * 25 лет.
- Рассчитать 95% доверительный интервал: T_min = T_raw / 2, T_max = T_raw * 2.
8. Ограничения (Limitations)
- Все формулы предполагают отсутствие селективных эффектов. В реальности локусы, ассоциированные с репродуктивным успехом, могут демонстрировать иное распределение IBD.
- Популяционная специфичность. Приведённые значения являются типичными для европейских популяций. Для изолятов (ашкенази, финны, сардинцы) g_crit может быть на 2-3 поколения меньше.
- Неучтённые рекомбинационные горячие точки. Скорость рекомбинации вариабельна вдоль генома, что создаёт дополнительную дисперсию длины IBD.
- Проблема "скрытого родства" (cryptic relatedness). Современные методы не позволяют надёжно отличать короткие IBD-сегменты (менее 2 cM) от ложноположительных.
9. Заключение
Что доказано достоверно:
- Ожидаемая длина IBD-сегмента обратно пропорциональна числу мейозов: E(L) = 100 / (2g) cM.
- Критическая глубина сегрегации для коммерческих тестов (порог 7 cM) составляет g_crit = 7 поколений (175 лет).
Что остаётся в области вероятностных моделей:
- Точная идентификация общего предка на глубине более 7 поколений без документальных подтверждений невозможна.
- Различение IBD и IBS сегментов короче 3 cM остаётся нерешённой задачей.
10. Диагностика и консультирование в РФ
Партнёрский блок: лабораторная диагностика
Инвитро — официальный партнёр данного материала. Партнёрство не влияет на научную оценку методов.
Федеральная лабораторная сеть Инвитро предоставляет доступ к генетическим панелям для генетической генеалогии, включая анализ Y-хромосомы (STR и SNP), митохондриальной ДНК и аутосомных маркеров. Ключевым аспектом является соблюдение стандартов контроля качества, аккредитация лабораторий и интеграция результатов в клиническую практику.
04591Q88484. Данный промокод предоставляет скидку на услуги по генетическим исследованиям. Ознакомиться с ними вы можете по этой ссылке в разделе "Услуги партнёров Инвитро".Важно: Интерпретация результатов генетико-генеалогического тестирования требует участия специалиста в области генетической генеалогии. Утверждения о родстве на глубине более 7 поколений без учёта математических пределов (таблицы 2, 5) не имеют научного обоснования.
