
紧急消息:美方学术资源平台 限制中国学者访问 PubMed使用受阻?
中午时分,一则群聊通知瞬间点燃了大家的讨论热情。全球知名的科研共享平台突然宣布暂停对中国大陆的服务。

早在去年末,某国就出台了严格的数据出境管理条例,如今这项政策的影响终于显现。首当其冲的是医疗研究领域常用的SEER系统,其他专业数据库很可能陆续跟进。这对于习惯使用这些资源完成论文的国内研究生群体影响深远,必须密切留意事态进展。笔者在综合多方国际信源后,对这场伴随贸易摩擦与关税争端而起的学术数据博弈进行了深度剖析,我们正共同见证这个前所未有的历史转折点。
一.引言
近些年,我国学术界竞争日趋激烈,科研工作对国际主流生物医学数据库的依赖性显著增强。然而,随着中美在数字治理领域的摩擦升级,美方于2024年颁布了全新的数据跨境流动管制条例,计划自2025年起正式执行。这项政策明确将中国列为重点监管对象,严格限制涉及美国公民隐私数据的对外流通,此举可能严重阻碍我国研究者利用北美地区的医疗科研数据平台。
当前中美贸易摩擦持续加剧,双方进口商品税率已攀升至50%的历史高位。在此背景下,科研领域同样难以独善其身——我们不得不正视一个紧迫问题:包括PubMed在内的国际核心医学文献检索系统,今年是否会面临访问受限的风险?
二、2025年美方跨境数据传输政策解析
【2.1 政策制定背景与颁布过程】
2024年2月,美国政府颁布了第14117号总统行政令,题为《防止特定国家获取美国公民敏感个人信息及联邦相关数据的命令》。该文件强调,部分国家长期收集美国民众的敏感数据及政府关联信息,这种行为已经对美国的国家安全构成了严重风险。根据这项行政令,美国司法部被授权制定具体条例,限制或禁止本国机构与包括中国、俄罗斯、伊朗在内的六个”特定国家”及其关联方进行可能涉及敏感数据转移的商业活动。
随后,美国司法部在2024年12月26日公布了最终实施细则,明确了该行政令的具体执行方案。新规预计在《联邦公报》发布90天后(即2025年春季左右)正式实施。这一举措是美国首次以法律形式限制向中国等国家跨境提供特定类别的数据,因而在学术界和商业领域引起了广泛讨论。
新规的主要目标是基于国家安全考量,阻止中国等国家或其研究人员获取涉及美国公民的大规模敏感信息。其中,”敏感数据”尤其侧重于生物医学和隐私相关领域,涵盖基因序列、医疗健康记录等关键信息。对科研领域而言,这一规定意味着美国现有数据库中存储的遗传学、临床医疗等数据将面临更为严格的出口管制。
【2.2 最新规定中关于数据分类的界定与涵盖内容】
新规对”敏感个人数据”的具体范围及”大规模”标准进行了清晰界定。根据规定,受监管的敏感数据类型及其对应规模界限如下:人类遗传信息:涵盖全基因组测序数据等,管控起点为包含100名以上美国公民的数据集合。生物特征数据:指能够识别个体身份的人体特征信息(包括面部照片、指纹、虹膜扫描等),管控临界值为涉及1000名以上美国公民。医疗健康数据:反映个人健康状况的记录(如诊疗记录、病史资料等),触发监管的数量标准为覆盖10000名以上美国公民。高精度位置信息:能精确定位至1000米范围内的设备或人员轨迹数据,监管门槛为采集自1000台以上美国境内设备。金融交易数据:包含个人账户及资金往来等财务信息,受规制的下限为涉及10000名以上美国公民。另外还包括复合型身份识别数据(即个人标识符与其他信息的组合),其监管阈值设定更高(>10万人),主要针对与其他敏感信息相关联的大规模身份数据集。值得注意的是,新规并未因数据经过匿名化处理而降低要求——只要数据类型属于敏感范畴且达到规定规模,即自动纳入监管。这对科研领域影响显著,因为大量生物医学数据库即使移除了直接身份标识,只要包含健康或基因数据且规模达标,仍将受到约束。 规定同时列举了若干豁免条款:与自然人无关的纯商业数据、政府公开档案或开放数据库中可合法获取的信息等,均不被视为敏感个人数据。这意味着,完全公开且可自由获取的医学数据原则上不受限制。但需注意,许多公共医学数据库虽向研究人员开放,却设有申请流程和使用限制,并非完全公开。这类数据在实际操作中仍将受到新规约束。
研发面向县域医院的智能诊断辅助系统,例如通过CT影像自动识别肺部感染的算法模型,优化基层诊疗能力;
健康数据安全技术:研究分布式机器学习与加密链式存储在电子病历保护中的融合方案,契合国家信息安全规划;
智能医疗系统升级:参照最新智慧医院评价体系,开发适用于双向转诊、互联网问诊等场景的人工智能解决方案。(注:社区医疗设施需同步考量居民区电动车辆管理新规带来的服务动线变化)
三、资料库涉及范围及其影响评估
本文将对多个重要的医学与生物信息学数据库进行系统介绍,涵盖SEER、TCGA、dbGaP、GTEx、PubMed Central、ClinicalTrials.gov、NIH公共数据集、CDC数据门户、NCBI GEO等资源。针对每个数据库,我们将详细说明其包含的数据种类、历史上的开放情况,并重点分析2025年新政策实施后对中国研究者的影响,包括是否保留访问权限、访问条件调整、数据使用条款的更新,以及这些数据库适用的科研方向。具体内容包括各库的数据性质、获取方式,以及在新规下中国学者的使用权限变动、新增限制条件、协议变更内容及其相关研究领域。
【3.1版肿瘤病例统计系统(SEER)】
数据内容概述:SEER(监测、流行病学和最终结果)项目由美国国立癌症研究所(NCI)主导,是美国最具影响力的癌症数据统计平台之一。该数据库系统性地整合了全美范围内的癌症发病情况、患者生存率、临床治疗方案及死亡率等关键流行病学指标。SEER收录了海量美国癌症患者的详细诊疗记录,为分析癌症流行趋势、评估预后影响因素以及考察治疗有效性提供了重要依据。其数据内容主要包括患者的 demographics、肿瘤病理特征、临床分期、干预措施及随访结果等,属于严格的个人医疗信息范畴。
数据获取方式:SEER 向公众开放基础统计查询功能(如通过 SEER*Stat 软件访问公开数据集),但若需获取更完整的科研数据,则需提交正式申请。研究人员需在线填写申请表格并签署数据使用协议,确保数据仅用于学术研究且不进行身份识别操作。此前,该申请流程对全球研究者开放,仅需提供机构认证邮箱(不接受个人邮箱如 Gmail 或 163 等)并遵守协议条款即可获批,本质上是一种注册审批制的开放获取模式,对合规学术研究几乎不设限制或收费。
新规影响分析:鉴于 SEER 数据库包含大量美国患者的个人医疗信息,且规模远超新规设定的万人标准,其数据跨境传输将受到严格监管。按照新规要求,若 NCI 等美国机构向中国研究人员提供 SEER 数据,将被视为敏感个人健康数据的国际转移。新规生效后,中国学者可能无法再直接申请该数据库的科研数据。美方预计会在申请环节增设限制,例如仅允许美国本土机构或公民/永久居民提交申请,而拒绝来自中国机构或个人的请求。即使不完全禁止,中国研究者也可能面临更严格的资质审核、漫长的审批周期,甚至需额外证明研究目的符合豁免条件(但常规科研用途通常不符合豁免标准)。因此,可以预见 SEER 数据库对中国科研界的开放程度将显著降低,甚至完全关闭。正如行业专家所预测,在新规实施后,包括 SEER 在内的诸多美国医学数据库可能不再对中国研究人员开放使用。
【3.2 TCGA肿瘤分子特征数据库】
数据资源概述:TCGA(癌症基因组图谱计划)作为国际知名的肿瘤分子特征研究项目,由美国国家癌症研究所与人类基因组研究中心于2005年联合启动。该数据库收录了逾万例美国癌症患者的生物样本数据,覆盖20余种恶性肿瘤类型,包含全基因组序列、外显子测序、转录组分析、甲基化检测及蛋白质组学等多维度的分子特征数据,同时整合了治疗反应、生存期等临床随访信息。其数据类型涉及遗传变异、表达谱、表观遗传修饰及蛋白质活性等生物标志物,是当前最全面的人类癌症多组学数据库之一。
数据获取机制:通过美国国立卫生研究院下属的GDC数据共享中心和dbGaP数据库,TCGA实行分级访问制度:经处理的衍生数据(如标准化表达矩阵、筛选后的突变注释、匿名化生存数据等)可自由下载;而原始测序数据、详细病历等敏感信息则需通过dbGaP提交申请并通过审查。此前该机制允许国际科研人员便捷获取分析级数据,同时对原始数据实施保护。
新规影响评估:TCGA数据库因其包含的美国患者基因组及多组学数据规模(远超新规设定的百人基因组或千人组学数据上限),明确属于重点管控范畴。预计调整包括:开放数据可能转为受限访问模式,要求身份认证;或基于地理位置限制中国IP的访问权限。对于原本就需审批的受控数据,中国研究机构获得访问许可的难度将大幅增加。实际影响表现为:中国研究人员可能仅能获取经高度处理的统计结果,无法直接下载原始数据集。行业专家指出,此类符合全部限制标准的数据库,或将对中国科研团队实施全面访问封锁。
【3.3 数据库dbGaP的基因型与表型资料库】
数据库概述与内容性质:dbGaP(基因型与表型数据库)是由美国国家生物技术信息中心负责运营的受限访问数据平台,专门收集和管理研究对象的遗传信息与生理特征数据。该数据库整合了多种医学科研项目的信息资源,包括全基因组关联分析、基因测序计划、长期追踪调查等,覆盖的疾病种类繁多(如肿瘤、心脑血管疾病、神经系统疾病等)以及相关的诊疗记录和生理指标。所包含的具体数据形式有人类基因变异资料(如SNP分型、DNA序列)、转录组数据、患者病历信息、医学影像等,这些数据通常包含个体识别特征且涉及个人隐私,属于需要特殊保护的生命科学敏感数据。
数据获取机制:dbGaP中的所有研究数据集均采取权限管控模式。科研人员必须通过NIH的在线平台提交申请材料,需要详细说明研究方案、所在单位资质以及伦理合规承诺等内容。各数据集设有专门的数据访问评审委员会进行资质审核。基本申请条件包括具备正规科研机构身份、研究目标具有科学价值且通过所在单位伦理审查。获准使用者必须签署数据使用协议(内容包括禁止身份识别、数据再分发等条款)。历史上,只要满足条件,包括中国学者在内的国际研究人员均可申请,实际也存在中美合作团队成功获取数据的案例,但整体审批流程严格且周期较长。
新政策影响分析:鉴于dbGaP收录的数据主要为人基因组信息或个体健康档案,样本量通常达到数百至数万例规模,因此绝大部分数据都将受到新规约束。若新规全面实施,中国科研机构及个人获得dbGaP数据访问权限的可能性将微乎其微。预计NIH为符合法规要求,很可能会修订现行政策:对于来自特定国家的申请机构,或研究团队中包含这些国家成员的情况,将直接拒绝数据访问授权。这意味着中国科研人员获取美国人群遗传与健康数据的渠道将被完全阻断。即使通过美国合作伙伴提交申请,所得数据也仅限美方机构使用,不得向中方传输。总体而言,新规实施后中国科研界通过常规途径获取dbGaP数据的机会基本消失,除非符合特殊豁免条件(但基础科研项目通常难以满足)。
科研应用领域:dbGaP的数据资源在遗传医学研究中具有广泛应用价值,包括全基因组关联研究、遗传病流行病学调查、基因与环境作用机制探索、罕见遗传变异鉴定等。中国科研团队既往曾利用该数据库中的美国癌症队列、生物样本库等数据开展过深入的二次分析。若此渠道中断,国内研究者可能需要转向其他开放数据源,例如欧洲基因组数据库(EGA)或英国生物银行等国际共享平台,或者自主建立中国人群研究队列来填补数据缺口。
【3.4 人体基因表达图谱资源库(GTEx)】
数据类型与概述:GTEx(基因型-组织表达)计划是由美国国立卫生研究院(NIH)支持的一项大型研究项目,旨在通过对数百名健康捐赠者的多种组织样本进行基因表达谱分析,并同步收集每位捐赠者的全基因组遗传变异数据。该数据库整合了不同组织的RNA测序结果、蛋白质表达水平以及捐赠者的基因型信息,核心数据类型涵盖人类多组织转录组数据(基因表达谱)和全基因组遗传标记数据,同时附带捐赠者的基本临床资料。GTEx数据主要用于探索基因表达调控机制及表达数量性状定位等领域,属于人类组学数据与健康人群数据的结合体。
数据访问权限:GTEx的数据分为开放与受控两部分:经过聚合的统计结果(例如组织特异性表达均值、eQTL关联分析结论等)可公开获取,而涉及个体层级的基因型或基因表达原始数据则需通过dbGaP平台申请受控访问(因这些数据可能间接暴露捐赠者身份)。研究人员需通过资格审查方可下载GTEx的个体级别数据集。
新规影响下的数据可及性:GTEx项目涵盖了约900余名美国捐赠者的基因组与转录组联合数据,其人类遗传数据规模已超出100人份的敏感阈值,被列为受控数据。对中国科研人员而言,GTEx的原始数据访问权限极可能受限,这与TCGA及dbGaP等其他数据库的情况一致。此前公开的整合分析结果(如经过脱敏处理的统计图表或数据浏览工具)可能仍可查阅,因其不包含可识别个体信息。但若这些汇总数据被认定具有潜在敏感性,其开放状态也可能调整。总体而言,中国学者将难以利用GTEx的原始数据进行自主分析,仅能依赖已公开的有限结论开展研究。
【3.5 生物医学领域的开放获取文献平台PMC 】
以下是针对原文的改写,保持核心信息但调整了表达方式和结构:
PubMed Central(简称PMC)是由美国国立卫生研究院下属的医学图书馆主导建设的生物医学开放获取文献平台。该平台集中收录并免费向全球开放了大量生物医学领域的学术文献全文,特别规定受美国国立卫生研究院资助的研究成果必须在此平台公开存档。PMC主要收录期刊论文、综述文章及学术会议报告等已发表文献,但不涉及未经发表的原始医疗数据。需要区分的是,PubMed主要提供文献索引和摘要服务,而PMC则专注于全文资源的开放共享。
在访问权限方面,PMC自创建之初就秉持完全开放的原则。全球范围内的用户均可直接通过互联网免费获取平台上的所有文献资源,既不需要注册账号,也不存在地域访问限制。这种开放模式体现了其推动科学知识自由传播的核心理念。平台所有内容均为已公开发表的学术文献,不包含任何涉及个人隐私的敏感信息。
关于最新政策的影响评估:由于PMC仅收录公开发表的学术文献,不涉及任何敏感个人信息,因此不受新出台的数据管制政策限制。美国的新规主要针对可识别个人身份的数据集,而学术出版物明确不在监管范围内。虽然政策出台初期曾有研究者担忧可能影响PubMed等基础数据库的访问,但这种担忧缺乏依据。美国政府既无必要也无意愿限制公开学术资源的获取,一方面因为这些文献不构成安全风险,另一方面美国本身也在积极推动科学成果的开放共享。新规条款已明确将合法公开获取的信息排除在受控数据范围之外,其中就包括学术出版物。
基于上述分析,中国科研工作者可以继续正常使用PMC平台检索和下载所需文献,不会因国籍因素受到任何访问限制。这一保障对维持国际科研交流与文献获取具有不可替代的重要意义。
【3.6 美国临床试验数据库 ClinicalTrials.gov】
数据类别与概述:ClinicalTrials.gov是由美国国立医学图书馆负责运营的国际性临床试验注册及成果数据库。根据美国相关法律规定,在该国进行的大部分临床研究必须在此平台完成注册,并在试验结束后提交研究结果的概要信息。该数据库涵盖了全球超过25万个临床研究项目的详细资料,例如试验标题、研究方案、受试者招募标准、试验地点,以及部分研究的主要终点指标的统计分析结果。所提供的数据类型以项目基本信息和整体研究结论为主,偶尔包含受试者的群体统计资料,但不涉及个体层面的数据。
访问权限:该平台向公众免费开放,无需注册或登录即可检索和浏览临床试验的注册信息及已发布的研究成果。其宗旨在于提升临床研究的公开性并减少重复试验,因此访问权限无国家或地区限制,全球用户均可自由使用。基于此,中国科研人员仍可像以往一样,正常查询该平台上的临床试验注册信息及相关研究结果。
【3.7 NIH科研数据库开放获取系统】
数据类型与概述:美国国立卫生研究院(NIH)及其下属机构提供的开放数据集涵盖了多种科研数据资源。这些数据可能包括:大型研究项目整合的公共数据库(如某些疾病的统计分析数据)、用于机器学习的医学图像库、人口健康调查的公开样本、模式生物实验记录等。数据形式各异,既包含经过匿名化处理的群体健康统计数据,也包含科研示范数据、非隐私性人类研究资料或基础生物学数据。例如,NIH曾公开过新冠病毒相关研究数据集,以及人类蛋白质互作网络数据等。
新规后的访问权限评估:需根据数据特性具体判断。假设某公开数据集包含大量美国公民健康信息,即使经过聚合脱敏处理,从技术角度看仍属于敏感个人信息集合,只是目前处于开放状态。根据新规条款,合法公开发布的数据不被视为敏感个人信息。因此现有开放资源可能不受新规限制。但出于审慎考虑,美国相关机构或将重新评估现有开放数据集,确认是否存在隐私重构或国家安全风险。极少数可能存疑的数据集或被撤回或转为受限访问。不过绝大多数真正的公开数据集(如统计摘要或非人类实验数据)通常风险较小。总体而言,NIH开放数据平台的主体内容仍可供中国研究人员使用,但涉及敏感人类样本的大规模开放数据集未来可能停止更新或关闭。
具体案例说明:例如NIH发布的癌症年度统计报告、国民健康趋势分析等宏观公共卫生数据将继续开放,这类信息属于公共统计范畴,不在限制之列。反之,若某数据集包含数万份匿名个体的完整诊疗记录(实际上极少直接公开此类详尽数据),按照新规本就不应开放,后续更不会新增类似资源。
补充说明:美国疾控中心(CDC)的开放数据平台同理适用上述分析。
【3.8 国家疾控中心公开数据库系统】
数据类型与概述:美国疾病控制与预防中心(CDC)的公开数据平台(如data.cdc.gov)收录了丰富的公共卫生相关数据集,涵盖疾病追踪统计(例如流感、传染病例数据)、健康行为调查(如行为风险因素监测系统BRFSS的汇总结果)以及环境健康指标等。这些数据主要为群体层面的统计报告,通常按州、县或更高层级汇总。部分数据也包含经过脱敏处理的个体调查记录,例如国家健康与营养调查(NHANES)的公开版本。此外,CDC还提供健康指南、分析报告及数据可视化工具。
新规影响与访问权限:CDC开放的多数数据属于宏观公共卫生统计,不涉及个人隐私信息,因此基本不受新规约束。例如,每周传染病报告、州级健康统计数据等均不包含可识别身份的内容。但像NHANES这类公开的匿名个人健康数据(包含数万条受访者记录),理论上符合“超万人个人健康数据”的新规定义,可能受到管控。不过,由于NHANES数据长期公开且无法追溯个人身份,大概率会被视为合法公开资源而保留访问权限。出于谨慎考虑,未来美国可能减少此类细颗粒度数据的直接开放,但目前已发布的CDC数据对中国研究者仍可获取。美国尚未表现出限制国际访问其公共卫生数据的意图,因为这不利于全球疾病防控合作。
研究应用方向:CDC数据适用于传染病学、健康干预研究及公共政策分析等领域。中国研究者可借助其开展跨国对比分析或模型构建,例如对比中美疾病传播趋势,或基于CDC公布的疫情数据开发预测算法。此类研究短期内不受影响,因为数据来源仍然开放。但若需获取更精细的美国个人健康数据,则需探索其他途径(如已发表论文的补充数据集,或通过官方合作项目获取)。
【3.9国家疾控中心公开数据库系统 生物医学常用的GEO基因数据集】
数据类型与概述:GEO(Gene Expression Omnibus)是NCBI负责管理的基因表达数据库,成立于2000年。全球科研团队在发表学术论文时,常将高通量基因检测实验数据上传至该平台。其收录范围涵盖基因芯片表达谱、RNA测序表达结果、单细胞测序数据等,同时包含相关实验描述及样本信息。GEO整合了来自不同国家的研究数据,其中美国的研究贡献占比较高。存储的数据类型主要包括基因表达矩阵(记录基因在不同样本中的表达水平)、甲基化数据等,既有人类样本,也包含细胞系及动物实验数据。对于人类样本,GEO通常不提供个人身份信息,但可能包含供体基本特征(如年龄、性别、疾病类型等)。
访问方式:GEO是一个完全开放的数据库。用户可通过网站直接检索特定数据集(Series)或样本(Sample)编号,并下载相关数据文件(常见格式包括TXT/CSV表格或CEL原始文件等)。无需注册账号,也无地域访问限制。由于这些数据通常已在论文中公开发表并分析,因此被视为学术共享资源。
新规下的可用性分析:GEO与其他数据库的不同之处在于,其数据来源不仅限于美国政府资助的项目,还包括全球科研人员的提交。新规仅约束美国相关实体,而NCBI作为美国机构负责管理GEO。若GEO中包含大规模美国人源数据(例如涉及数千名美国受试者的基因表达数据集),理论上可能受到限制。然而,GEO中大多数提交的数据在样本量上并不庞大,且许多数据来自非美国人群或体外实验。即使涉及美国人样本,通常也是少量病例或已公开的研究成果。根据新规定义,通过开放数据库公开发布且允许合法获取的数据不被视为敏感个人数据。因此,GEO的绝大多数数据集应仍可被中国科研人员正常访问。如果美国政府出于安全考虑采取行动,对GEO的限制可能较为有限,因为该平台完全由公开科学数据构成,封锁将引发学术界的强烈反对。更可能的情况是维持现状。
但需注意一种特殊情况:某些涉及人类基因组数据的大型项目,出于隐私保护考虑,可能会选择提交至dbGaP而非GEO。如果某项研究确实敏感,通常不会出现在GEO中。因此,GEO现有的内容本身即为可公开的普通科研数据。综上所述,新规对中国研究人员访问GEO的影响预计较小。
四、关于m国际医疗信息库
停止对外开放的综述报告

该表格显示:包含美国民众大量健康及基因信息的关键数据库(例如SEER、TCGA、dbGaP等)在当前政策限制下基本不对中国研究人员开放,而主要收录公开学术论文和汇总统计数据的资源平台(如PMC、ClinicalTrials.gov以及CDC公开数据集)仍保持可访问状态。处于中间地带的是那些已公开但包含去标识化个人信息的数据库(比如GEO和部分NIH数据集),现阶段这些资源预计仍将维持开放,但其访问政策可能随形势变化而调整,需要持续关注。
五.公共数据在SCI刊物发表中的
影响力研究
2025年即将实施的跨境数据监管新政,不仅将改变原始医学研究数据的获取方式,还可能引发中美学术合作与论文发表的系列变革。当前最受关注的是,基于公开数据库的SCI论文发表是否会因此受限?特别是像NHANES这样的公共数据集,未来是否可能面临期刊拒稿风险?
从更宏观的视角来看,这些新规或将削弱中美科研界的开放协作环境,导致特定学科领域出现数据壁垒。要破解这一困局,关键在于建设本土化的高质量数据平台。实际上,我国早已布局国家级疾病监测体系,比如现有的肿瘤登记年报制度,但可供研究使用的个体级数据开放度仍然不足。值得注意的是,国内不乏世界级的大型队列研究资源,只是目前共享机制尚不完善。未来亟需推进数据开放进程,在确保隐私安全的前提下,让更多科研人员能够合法获取这些宝贵的本土研究数据。
六、总结
自2025年开始,美国将执行新的数据跨境传输规定,大幅收紧中国研究人员访问特定数据库的权限。根据新规,任何涉及美国公民基因组、健康状况等敏感信息的重要数据库,包括SEER癌症统计系统、TCGA基因测序计划、dbGaP遗传资料库、GDC数据平台以及GTEx人体组织项目等,均被列入限制名单。这意味着,中国学者长期以来使用的这些关键数据资源将彻底无法获取。