Калибровка времени в генетической генеалогии: от IBD-сегментов к TMRCA
Математический аппарат оценки времени до общего предка
Предыдущая часть: Фантомные предки и математические пределы генетической генеалогии
Содержание
- Введение: от детекции к калибровке
- Аутосомная калибровка: от длины IBD к числу поколений
- Y-STR калибровка: от разности повторов к TMRCA
- мтДНК калибровка: скорость мутаций и гетероплазмия
- Объединение данных: байесовская коалесценция
- Учёт фантомных предков при оценке TMRCA
- Практический алгоритм: от сырых данных к дате
- Ограничения обзора
- Заключение
- Диагностика и консультирование в РФ
- Список литературы
1. Введение: от детекции к калибровке
Первая часть нашего обзора "Фантомные предки и математические пределы генетической генеалогии" ответила на вопрос: на какой глубине родство перестаёт детектироваться стандартными методами? Было показано, что при пороге 7 cM (стандарт коммерческих тестов) вероятность детекции падает ниже 50% уже на глубине 5-6 поколений, а на глубине 7 поколений составляет лишь 25%.
Однако профессионального генеалога интересует не только факт наличия родства, но и его временная локализация: когда жил общий предок? Этот вопрос формулируется в терминах TMRCA (Time to the Most Recent Common Ancestor) - время до наиболее недавнего общего предка.
Ключевое различие:
| Задача | Вопрос | Метод | Результат |
|---|---|---|---|
| Детекция | Есть ли общий предок? | Поиск IBD-сегментов выше порога | Бинарный ответ (да/нет) |
| Калибровка | Когда жил общий предок? | Оценка TMRCA по длине IBD или STR-различиям | Интервальная оценка (доверительный интервал) |
Цель второй части - предоставить математический аппарат для калибровки времени и практические инструменты, позволяющие перейти от наблюдения "у нас есть общий IBD-сегмент длиной 12 cM" к оценке "общий предок жил примерно 4-6 поколений назад (95% ДИ: 3-8 поколений)".
2. Аутосомная калибровка: от длины IBD к числу поколений
2.1. Прямая и обратная задачи
В первой части была приведена формула ожидаемой длины IBD-сегмента при родстве на глубине g поколений (суммарно 2g мейозов):
Для обратной задачи (оценка g по наблюдаемой длине L) используется точечная оценка:
Пример: Если обнаружен IBD-сегмент длиной 12.5 cM, точечная оценка глубины родства: g = 50 / 12.5 = 4 поколения. Это соответствует родству с общим предком в 4-м поколении (прапрабабушка/прапрадедушка).
2.2. Дисперсия длины IBD-сегмента
Длина одного IBD-сегмента подчиняется экспоненциальному распределению:
Таблица 1. Оценка TMRCA по одному IBD-сегменту (порог детекции 7 cM)
| Наблюдаемая длина L, cM | Точечная оценка g (поколений) | 95% ДИ для g | Точечная оценка TMRCA, лет | 95% ДИ TMRCA, лет |
|---|---|---|---|---|
| 20-30 | 2 | 1-4 | 50 | 25-100 |
| 15-20 | 3 | 2-5 | 75 | 50-125 |
| 10-15 | 4 | 2-7 | 100 | 50-175 |
| 8-10 | 5-6 | 3-9 | 125-150 | 75-225 |
| 7-8 | 6-7 | 4-11 | 150-175 | 100-275 |
| 5-7 | 7-10 | 4-15 | 175-250 | 100-375 |
При длительности поколения 25 лет. 95% ДИ получены из экспоненциального распределения длины IBD.
2.3. Суммарная длина IBD как улучшенный оценщик
Таблица 2. Ожидаемая суммарная длина IBD для разных степеней родства
| Степень родства | g (поколений) | Ожидаемая доля общих IBD, % | Ожидаемая суммарная длина IBD, cM | 95% ДИ, cM |
|---|---|---|---|---|
| Родитель-ребёнок | 1 | 50 | 3500 | - |
| Сиблинги | 2 | 50 | 3500 | - |
| Дяди/племянники | 2 | 25 | 1750 | 1400-2100 |
| Первые кузены | 3 | 12.5 | 875 | 650-1100 |
| Вторые кузены | 4 | 3.125 | 220 | 100-350 |
| Третьи кузены | 5 | 0.781 | 55 | 20-100 |
| Четвёртые кузены | 6 | 0.195 | 14 | 5-30 |
| Пятые кузены | 7 | 0.049 | 3.5 | 1-10 |
Более детальная таблица с доверительными интервалами представлена в первой части обзора.
3. Y-STR калибровка: от разности повторов к TMRCA
3.1. Основная формула Уолша (Stepwise Mutation Model)
где: d - суммарная разность числа повторов, μ - мутационная скорость на локус за поколение, L - число локусов, G - длительность поколения.
3.2. Сравнение мутационных моделей
| Модель | Описание | Ошибка при T>500 лет |
|---|---|---|
| Infinite Alleles Model (IAM) | Предполагает отсутствие повторных мутаций | Занижение TMRCA на 20-40% |
| Stepwise Mutation Model (SMM) | Учитывает возвратные мутации и мутации на ±1 шаг | Базовая (рекомендуется) |
3.3. Таблица оценок TMRCA по Y-STR
| Различий | Суммарная разность d | Точечная TMRCA, лет | 95% ДИ, лет | Интерпретация |
|---|---|---|---|---|
| 0 (совпадение) | 0 | 0-200 | 0-400 | Общий предок в историческое время |
| 1-2 | 2-4 | 50-100 | 25-400 | Вероятно, 17-19 вв. |
| 3-5 | 6-12 | 150-300 | 50-600 | Средневековье |
| 6-10 | 14-24 | 350-600 | 150-1000 | Раннее средневековье |
| 11-20 | 26-48 | 650-1200 | 250-2000 | Глубокое родство |
| >20 | >50 | >1250 | 500-3000 | Требует SNP-валидации |
3.4. Поправка на гомоплазию
При TMRCA > 500 лет возрастает вероятность рекуррентных мутаций. Рекомендуемая поправка: для 37-локусной панели при TMRCA = 1000 лет - коэффициент 0.85.
4. мтДНК калибровка: скорость мутаций и гетероплазмия
| Число различий | Точечная TMRCA, лет | 95% ДИ, лет | Комментарий |
|---|---|---|---|
| 0 | 0-200 | 0-600 | Общий предок в историческое время |
| 1 | 300-600 | 100-1500 | Недавнее родство |
| 2-3 | 800-1500 | 300-3000 | Средневековье |
| 4-6 | 2000-3500 | 800-6000 | Бронзовый век |
| >6 | >4000 | 1500-10000 | Требует кодирующей области |
5. Объединение данных: байесовская коалесценция
5.1. Программная реализация
| Программа | Тип маркеров | Метод |
|---|---|---|
| BATWING | Y-STR, мтДНК | MCMC + коалесценция |
| BEAST | Любые | MCMC + молекулярные часы |
| pedigree.js | Аутосомные IBD | Вероятностный вывод |
5.2. Сводная калибровка по типам маркеров
| Глубина | Аутосомные IBD | Y-STR (37) | мтДНК | Надёжность |
|---|---|---|---|---|
| <200 лет | Высокая | Низкая | Низкая | ★★★★★ |
| 200-600 лет | Средняя | Высокая | Низкая | ★★★★☆ |
| 600-1500 лет | Низкая | Высокая (с поправкой) | Средняя | ★★★☆☆ |
| >1500 лет | Неинформативно | Низкая | Высокая | ★★★☆☆ |
6. Учёт фантомных предков при оценке TMRCA
Как показано в первой части, педигри-коллапс приводит к тому, что эффективное число предков U(g) меньше максимального 2^g.
Индикаторы педигри-коллапса:
- Суммарная длина IBD соответствует 3-м кузенам, но Y-STR даёт TMRCA 800 лет -> фантомный предок по другой линии
- Найдено >5 IBD-сегментов длиной 3-7 cM -> множественные общие предки
- IBD-сегменты на разных хромосомах дают разные оценки g -> разные линии предков
7. Практический алгоритм: от сырых данных к дате
Шаг 1. Получение и фильтрация данных (пороги: IBD 7 cM, Y-STR ≥37 локусов).
Шаг 2. Расчёт первичных оценок по таблицам 1-4.
Шаг 3. Синтез и коррекция: если оценки согласованы - среднее геометрическое; если расходятся >3 раз - вероятен педигри-коллапс.
Шаг 4. Формулировка вывода с указанием 95% доверительного интервала.
"На основании анализа IBD-сегментов (суммарная длина 220 cM, 95% ДИ для вторых кузенов) и Y-STR гаплотипов (различаются по 3 локусам из 37, точечная TMRCA 150 лет, 95% ДИ 50-400 лет) наиболее вероятная глубина общего предка - 4-5 поколений (100-150 лет). С вероятностью >90% общий предок жил в период 1750-1900 гг."
8. Ограничения обзора
- Все формулы предполагают отсутствие селективных эффектов.
- Мутационные скорости калиброваны преимущественно на европейских популяциях.
- При TMRCA > 1000 лет множественные мутации маскируют истинное расстояние.
- Отсутствие валидированных калькуляторов для российских популяций.
9. Заключение
Что доказано достоверно (Level A):
- Байесовский подход Уолша с SMM даёт состоятельные оценки TMRCA для Y-STR при T<800 лет [1]
- IAM систематически занижает TMRCA по сравнению с SMM
- Для TMRCA > 1500 лет единственный надёжный метод - глубокое секвенирование SNP
- Для глубин до 200 лет (8 поколений) достаточно аутосомных IBD-данных (погрешность ±50%).
- Для интервала 200-800 лет необходима Y-STR панель из ≥37 локусов.
- Для глубин >800 лет - только глубокое секвенирование Y-хромосомы (SNP) и/или полного митохондриального генома.
10. Диагностика и консультирование в РФ
Партнёрский блок: лабораторная диагностика
Инвитро - официальный партнёр данного материала. Партнёрство не влияет на научную оценку методов.
Федеральная лабораторная сеть Инвитро предоставляет доступ к генетическим панелям для генетической генеалогии, включая анализ Y-хромосомы (STR и SNP), митохондриальной ДНК и аутосомных маркеров.
04591Q88484 . Данный промокод предоставляет скидку на услуги по генетическим исследованиям. Ознакомиться с ними вы можете по этой ссылке в разделе "Услуги партнёров Инвитро".Важно: Интерпретация результатов требует участия специалиста. Оценки TMRCA должны сопровождаться указанием 95% доверительных интервалов и использованных мутационных моделей.
11. Список литературы
| № | Источник | Что подтверждает |
|---|---|---|
| 1 | Walsh B. Estimating TMRCA for Y chromosome or mtDNA. Genetics. 2001;158(2):897-912. | Байесовский подход Уолша |
| 2 | Huff CD, et al. ML estimation of recent shared ancestry. Genome Res. 2011;21(5):768-774. | Оценка общего родства |
| 3 | Browning SR, Browning BL. Neff from IBD segments. AJHG. 2015;97(3):404-418. | Эффективный размер популяции |
| 4 | Soares P, et al. mtDNA molecular clock. AJHG. 2009;84(6):740-759. | Скорость мутаций мтДНК |
| 5 | Payne BAI, et al. Universal heteroplasmy of mtDNA. Curr Biol. 2013;23(5):399-400. | Гетероплазмия мтДНК |
| 6 | Ballantyne KN, et al. Mutability of Y-STR. Forensic Sci Int Genet. 2010;4(3):341-353. | Гомоплазия STR |
| 7 | Burgarella C, Navascués M. Y-STR mutation rates. Eur J Hum Genet. 2011;19(1):70-75. | Скорости мутаций STR |
| 8 | Wilson IJ, et al. BATWING. Bioinformatics. 2003;19(14):1826-1827. | Программа BATWING |
