Без выходных

Калибровка времени в генетической генеалогии: от IBD-сегментов к TMRCA

Математический аппарат оценки времени до общего предка
Предыдущая часть: Фантомные предки и математические пределы генетической генеалогии

Содержание

1. Введение: от детекции к калибровке

Первая часть нашего обзора "Фантомные предки и математические пределы генетической генеалогии" ответила на вопрос: на какой глубине родство перестаёт детектироваться стандартными методами? Было показано, что при пороге 7 cM (стандарт коммерческих тестов) вероятность детекции падает ниже 50% уже на глубине 5-6 поколений, а на глубине 7 поколений составляет лишь 25%.

Однако профессионального генеалога интересует не только факт наличия родства, но и его временная локализация: когда жил общий предок? Этот вопрос формулируется в терминах TMRCA (Time to the Most Recent Common Ancestor) - время до наиболее недавнего общего предка.

Ключевое различие:

Задача Вопрос Метод Результат
Детекция Есть ли общий предок? Поиск IBD-сегментов выше порога Бинарный ответ (да/нет)
Калибровка Когда жил общий предок? Оценка TMRCA по длине IBD или STR-различиям Интервальная оценка (доверительный интервал)

Цель второй части - предоставить математический аппарат для калибровки времени и практические инструменты, позволяющие перейти от наблюдения "у нас есть общий IBD-сегмент длиной 12 cM" к оценке "общий предок жил примерно 4-6 поколений назад (95% ДИ: 3-8 поколений)".

2. Аутосомная калибровка: от длины IBD к числу поколений

2.1. Прямая и обратная задачи

В первой части была приведена формула ожидаемой длины IBD-сегмента при родстве на глубине g поколений (суммарно 2g мейозов):

E(L) = 100 / (2g) сантиморган (cM)

Для обратной задачи (оценка g по наблюдаемой длине L) используется точечная оценка:

g = 50 / L

Пример: Если обнаружен IBD-сегмент длиной 12.5 cM, точечная оценка глубины родства: g = 50 / 12.5 = 4 поколения. Это соответствует родству с общим предком в 4-м поколении (прапрабабушка/прапрадедушка).

2.2. Дисперсия длины IBD-сегмента

Длина одного IBD-сегмента подчиняется экспоненциальному распределению:

P(L > x) = exp(-x / E(L))

Таблица 1. Оценка TMRCA по одному IBD-сегменту (порог детекции 7 cM)

Наблюдаемая длина L, cM Точечная оценка g (поколений) 95% ДИ для g Точечная оценка TMRCA, лет 95% ДИ TMRCA, лет
20-30 2 1-4 50 25-100
15-20 3 2-5 75 50-125
10-15 4 2-7 100 50-175
8-10 5-6 3-9 125-150 75-225
7-8 6-7 4-11 150-175 100-275
5-7 7-10 4-15 175-250 100-375

При длительности поколения 25 лет. 95% ДИ получены из экспоненциального распределения длины IBD.

2.3. Суммарная длина IBD как улучшенный оценщик

Таблица 2. Ожидаемая суммарная длина IBD для разных степеней родства

Степень родства g (поколений) Ожидаемая доля общих IBD, % Ожидаемая суммарная длина IBD, cM 95% ДИ, cM
Родитель-ребёнок 1 50 3500 -
Сиблинги 2 50 3500 -
Дяди/племянники 2 25 1750 1400-2100
Первые кузены 3 12.5 875 650-1100
Вторые кузены 4 3.125 220 100-350
Третьи кузены 5 0.781 55 20-100
Четвёртые кузены 6 0.195 14 5-30
Пятые кузены 7 0.049 3.5 1-10

Более детальная таблица с доверительными интервалами представлена в первой части обзора.

3. Y-STR калибровка: от разности повторов к TMRCA

3.1. Основная формула Уолша (Stepwise Mutation Model)

T_MRCA = d / (2 * μ * L) * G

где: d - суммарная разность числа повторов, μ - мутационная скорость на локус за поколение, L - число локусов, G - длительность поколения.

3.2. Сравнение мутационных моделей

Модель Описание Ошибка при T>500 лет
Infinite Alleles Model (IAM) Предполагает отсутствие повторных мутаций Занижение TMRCA на 20-40%
Stepwise Mutation Model (SMM) Учитывает возвратные мутации и мутации на ±1 шаг Базовая (рекомендуется)

3.3. Таблица оценок TMRCA по Y-STR

Различий Суммарная разность d Точечная TMRCA, лет 95% ДИ, лет Интерпретация
0 (совпадение) 0 0-200 0-400 Общий предок в историческое время
1-2 2-4 50-100 25-400 Вероятно, 17-19 вв.
3-5 6-12 150-300 50-600 Средневековье
6-10 14-24 350-600 150-1000 Раннее средневековье
11-20 26-48 650-1200 250-2000 Глубокое родство
>20 >50 >1250 500-3000 Требует SNP-валидации

3.4. Поправка на гомоплазию

При TMRCA > 500 лет возрастает вероятность рекуррентных мутаций. Рекомендуемая поправка: для 37-локусной панели при TMRCA = 1000 лет - коэффициент 0.85.

4. мтДНК калибровка: скорость мутаций и гетероплазмия

Число различий Точечная TMRCA, лет 95% ДИ, лет Комментарий
0 0-200 0-600 Общий предок в историческое время
1 300-600 100-1500 Недавнее родство
2-3 800-1500 300-3000 Средневековье
4-6 2000-3500 800-6000 Бронзовый век
>6 >4000 1500-10000 Требует кодирующей области

5. Объединение данных: байесовская коалесценция

5.1. Программная реализация

Программа Тип маркеров Метод
BATWING Y-STR, мтДНК MCMC + коалесценция
BEAST Любые MCMC + молекулярные часы
pedigree.js Аутосомные IBD Вероятностный вывод

5.2. Сводная калибровка по типам маркеров

Глубина Аутосомные IBD Y-STR (37) мтДНК Надёжность
<200 лет Высокая Низкая Низкая ★★★★★
200-600 лет Средняя Высокая Низкая ★★★★☆
600-1500 лет Низкая Высокая (с поправкой) Средняя ★★★☆☆
>1500 лет Неинформативно Низкая Высокая ★★★☆☆

6. Учёт фантомных предков при оценке TMRCA

Как показано в первой части, педигри-коллапс приводит к тому, что эффективное число предков U(g) меньше максимального 2^g.

Индикаторы педигри-коллапса:

  • Суммарная длина IBD соответствует 3-м кузенам, но Y-STR даёт TMRCA 800 лет -> фантомный предок по другой линии
  • Найдено >5 IBD-сегментов длиной 3-7 cM -> множественные общие предки
  • IBD-сегменты на разных хромосомах дают разные оценки g -> разные линии предков

7. Практический алгоритм: от сырых данных к дате

Шаг 1. Получение и фильтрация данных (пороги: IBD 7 cM, Y-STR ≥37 локусов).

Шаг 2. Расчёт первичных оценок по таблицам 1-4.

Шаг 3. Синтез и коррекция: если оценки согласованы - среднее геометрическое; если расходятся >3 раз - вероятен педигри-коллапс.

Шаг 4. Формулировка вывода с указанием 95% доверительного интервала.

Формат вывода для профессионального отчёта:
"На основании анализа IBD-сегментов (суммарная длина 220 cM, 95% ДИ для вторых кузенов) и Y-STR гаплотипов (различаются по 3 локусам из 37, точечная TMRCA 150 лет, 95% ДИ 50-400 лет) наиболее вероятная глубина общего предка - 4-5 поколений (100-150 лет). С вероятностью >90% общий предок жил в период 1750-1900 гг."

8. Ограничения обзора

  • Все формулы предполагают отсутствие селективных эффектов.
  • Мутационные скорости калиброваны преимущественно на европейских популяциях.
  • При TMRCA > 1000 лет множественные мутации маскируют истинное расстояние.
  • Отсутствие валидированных калькуляторов для российских популяций.

9. Заключение

Что доказано достоверно (Level A):

  • Байесовский подход Уолша с SMM даёт состоятельные оценки TMRCA для Y-STR при T<800 лет [1]
  • IAM систематически занижает TMRCA по сравнению с SMM
  • Для TMRCA > 1500 лет единственный надёжный метод - глубокое секвенирование SNP
Главный вывод:
- Для глубин до 200 лет (8 поколений) достаточно аутосомных IBD-данных (погрешность ±50%).
- Для интервала 200-800 лет необходима Y-STR панель из ≥37 локусов.
- Для глубин >800 лет - только глубокое секвенирование Y-хромосомы (SNP) и/или полного митохондриального генома.

10. Диагностика и консультирование в РФ

Партнёрский блок: лабораторная диагностика

Инвитро - официальный партнёр данного материала. Партнёрство не влияет на научную оценку методов.

Федеральная лабораторная сеть Инвитро предоставляет доступ к генетическим панелям для генетической генеалогии, включая анализ Y-хромосомы (STR и SNP), митохондриальной ДНК и аутосомных маркеров.

Для читателей данного материала Инвитро предоставляет скидку 15% по промокоду 04591Q88484 . Данный промокод предоставляет скидку на услуги по генетическим исследованиям. Ознакомиться с ними вы можете по этой ссылке в разделе "Услуги партнёров Инвитро".

Важно: Интерпретация результатов требует участия специалиста. Оценки TMRCA должны сопровождаться указанием 95% доверительных интервалов и использованных мутационных моделей.

11. Список литературы

Источник Что подтверждает
1 Walsh B. Estimating TMRCA for Y chromosome or mtDNA. Genetics. 2001;158(2):897-912. Байесовский подход Уолша
2 Huff CD, et al. ML estimation of recent shared ancestry. Genome Res. 2011;21(5):768-774. Оценка общего родства
3 Browning SR, Browning BL. Neff from IBD segments. AJHG. 2015;97(3):404-418. Эффективный размер популяции
4 Soares P, et al. mtDNA molecular clock. AJHG. 2009;84(6):740-759. Скорость мутаций мтДНК
5 Payne BAI, et al. Universal heteroplasmy of mtDNA. Curr Biol. 2013;23(5):399-400. Гетероплазмия мтДНК
6 Ballantyne KN, et al. Mutability of Y-STR. Forensic Sci Int Genet. 2010;4(3):341-353. Гомоплазия STR
7 Burgarella C, Navascués M. Y-STR mutation rates. Eur J Hum Genet. 2011;19(1):70-75. Скорости мутаций STR
8 Wilson IJ, et al. BATWING. Bioinformatics. 2003;19(14):1826-1827. Программа BATWING
Юридическое предупреждение: Настоящий материал носит информационно-справочный характер и предназначен для научно-образовательных целей. Информация не является медицинской консультацией. Любые решения о диагностике принимаются только после консультации с врачом.