2024年3月13日,国际学术期刊BMC Biology在线发表了复旦大学徐书华团队的研究成果“Reconstructing the ancestral gene pool to uncover the origins and genetic links of Hmong–Mien speakers”。该项研究基于现代苗瑶人群全基因组测序数据,建立新方法重构苗瑶语系人群的祖源基因库,结合亚洲地区的现生人群与古人基因数据系统分析苗瑶人群的遗传结构及复杂演化历史,从遗传学角度分析和揭示了苗瑶语系遗传起源以及苗瑶人群的基因纽带。
苗瑶人群主要分布在我国南部及东南亚地区,是中华民族中不可或缺的重要组成部分。苗瑶语的分类和归属在语言学界一直具有较大争议。不少学者认为苗瑶语是独立语系,即苗瑶语系,而一些学者则认为苗瑶语是属于汉藏语系的语族,即苗瑶语族。不同学者对于苗瑶语的内部分类也在细节上有不同的看法,其中关于畲语究竟是归属于苗语支(族)还是瑶语支(族)也是争议较多问题。遗传学研究很早就发现了语言与基因之间的密切关系。该项研究正是通过群体遗传学分析厘清现生苗瑶人群的亲缘关系并以基因谱系为信息载体追溯苗瑶人群的起源和演化历史,并对苗瑶语系人群的基因组多样性本身进行了系统分析,寻找苗瑶人群基因组中保留的特征性基因变异,推断这些古老族群的演化历程及其背后的机制。
该项研究基于80例来自广西地区瑶族人群样本的全基因组深度测序数据,结合包括苗瑶语系中苗族、畲族在内的28个现代东亚人群及968个亚洲地区古人样本基因数据,通过新方法重构苗瑶人群祖先基因组,揭示了苗瑶人群的遗传结构及复杂演化历史,并检测到若干可能与苗瑶人群环境适应相关的潜在功能变异。
研究团队首先对现代苗瑶人群遗传结构进行了解析,苗族、瑶族、畲族三个主要苗瑶分支代表人群在遗传上同源,但从全基因组数据中可识别出群体水平的遗传差异。苗族、畲族相比瑶族具有更多北方遗传祖源。进一步研究表明,苗瑶亚群的形成是由局部区域的人群混合驱动。如,瑶族主要生活在广西,受到壮族人群的遗传混合;苗族主要生活在贵州、湖南,受到土家族的基因流影响;畲族主要生活在福建、浙江,位于沿海地区,其基因组相比苗族和瑶族表现出更明显的人群隔离特征。更为有趣的是,通过比较遗传相似性,发现三个苗瑶亚群在历史上各自与遗传背景有所不同的汉族人群发生过基因交流,可能反映了各自与临近地区的汉族人群的遗传交融。为了探究苗瑶人群的父系及母系起源,该研究针对X/Y染色体及线粒体DNA(mtDNA)进一步深入分析。其中,Y染色体上可检测到苗瑶人群特异性O-N5父系单倍型,即该父源谱系在苗瑶人群中高频存在但在其他人群中较为罕见,然而线粒体上未发现明显的苗瑶人群特异性谱系,这意味着现代苗瑶人群的母系祖源可能是多样的。进一步比较常染色体与X染色体的遗传成分发现,苗瑶人群可能经历了性别偏向性混合,即更偏向于北方女性和南方男性的基因交融模式。此外,无论是常染色体还是Y染色体或语言学证据,都表明瑶族首先从苗瑶人群的共同祖先中分离。因此,在语言学中关于畲语究竟是归属于苗语支(族)还是瑶语支(族)也是争议较多问题,该研究中的遗传学分析结果是支持操持畲语的畲族与操持苗语的苗族人群亲缘关系更近一些,从而表明遗传学证据是支持前者的。基于这些发现,研究团队构建了苗瑶人群的遗传演化模型(图 1),苗瑶人群的共同祖先可追溯至距今5800年前。通过与古DNA数据的联合分析,结果表明苗瑶人群可能发源自长江中下游流域。
此外,该研究揭示了苗瑶人群与侗傣人群、汉族人群的紧密亲缘关系。其中,苗瑶人群与侗傣人群共享同一种主要遗传祖源,这种遗传成分也在南方汉族人群中高频存在,在北方汉族人群中却较为罕见。结合共享遗传漂变分析的结果推断,汉族人口扩张前与苗瑶祖先人群有过一定程度的基因交流。通过估计人群遗传分化时间,结果表明苗瑶人群与侗傣人群的共同祖先可追溯至8200年前,与汉族人群的共同祖先可追溯至10800年前。
图 1 苗瑶人群的起源及演化模型
值得注意的是,在这项研究中研究团队开发出了基于现代人群基因组重构祖先基因组的新方法(图 2),并重构了苗瑶人群的祖先基因组。遗传学研究中对古人群的研究依赖古DNA样本,但古DNA样本获取困难、样本量小、族群归属不明、数据质量参差不齐的缺陷限制了古人群的深入研究,而该研究发展的新方法通过局部祖源推断从现代苗族、瑶族、畲族人群的基因组中标记并提取苗瑶人群的共祖序列片段,,进而通过片段拼接形成完整基因组。该方法在片段组装时着重考虑并结合了近期的序列连锁关系,同时对基因组上的祖源片段低覆盖区域进行了质控。基于该方法产生的古人群数据具有样本规模大、基因组覆盖度高、适用范围广等优点,有望促进古人群基因组及遗传学的深入研究。在与现代人群的整合分析中,重构的苗瑶祖先基因组表现出鲜明的苗瑶遗传特征,并作为一种东亚人群底层遗传祖源,在东亚特别是东亚南部人群中普遍存在。在自然选择信号的识别中,采用重构的苗瑶祖先基因组能在一定程度上抹除近期人群混合或其他混杂因素对选择信号的掩盖,其与传统检测方法联用,可显著提高自然选择信号的检出效力。因此,该方法为揭示群体遗传结构、推断族群演化遗传历史、检测自然选择信号等方面提供了技术支撑。
图 2 基于现代人群重构祖先基因组流程图
最后,研究团队通过多种自然选择信号检测方法识别出大量可能与苗瑶人群环境适应相关的自然选择信号位点。其中包括位于GJ B2基因上与耳聋发生相关的错义突变rs72474224(图 3),该风险等位基因在苗瑶人群中高频存在,但在其他人群中罕见或缺失。存在某种外力使得该有害变异在苗瑶人群中频率抬升,可能有着基因多效性存在。此外,研究团队在瑶族人群中识别到七个显著富集强效应罕见变异的基因,并表现出家族聚集性。这些基因对瑶族人群中的遗传效应有待进一步研究。
图 3 rs72474224表现出人群特异性正选择信号
遗传学与语言学的关系非常复杂。有些人群的语系关联源自文化传播,有些人群的语言演化与遗传演化相伴,这项研究发现苗瑶人群的语言发展更倾向于后一种演化模式。这种演化不仅发生在苗瑶人群内部,已发生在苗瑶人群与汉族之间。甚至还有一些苗族、瑶族说各种未被分类的汉语方言。苗瑶人群经历了复杂的遗传演化及语言发展,这项研究对苗瑶人群的遗传演化的深度解析为相关研究的开展提供了重要支撑。复旦大学人类表型组研究院博士后高扬和复旦大学生命科学学院科研助理张晓曦为本文共同第一作者,复旦大学/附属中山医院徐书华教授为通讯作者,国科大毕业生陈豪博士、马森博士,复旦大学陆艳副研究员、杨亚军教授、张梦翰青年研究员,作为论文作者对该工作的开展和完成给予了大力支持并做出重要贡献。
该项工作获得了国家重点研发计划、国家自然科学基金等多项基金的资助。该项工作在获得国家人类遗传资源管理部门审核许可(2022BAT1948)前提下依据国际惯例公开研究数据。
文章链接:https://doi.org/10.1186/s12915-024-01838-9