一、主要综合性数据库
1. GEO数据库
由NCBI维护的高通量基因表达数据库,涵盖500+生物物种、30万+样本数据,支持差异基因挖掘和在线分析工具GEO2R。
特点:数据免费、更新快,包含肿瘤和非肿瘤数据,适合多种研究需求。
2. ArrayExpress
欧洲生物信息学研究所(EBI)旗下数据库,存储芯片和高通量测序数据,与GEO互补,提供57TB+实验数据。
支持高级检索功能,可按物种、实验类型筛选。
3. RGD Disease数据库
覆盖心血管、糖尿病、神经系统等非肿瘤疾病的基因信息,整合人类、大鼠、小鼠的基因注释数据。
功能包括基因GO注释、miRNA关联分析等。
二、专业领域数据库
CellMarker:收录158种人体组织/亚组织的细胞类型标记基因,适用于疾病标志物研究。
UK Biobank (UKB):包含50万英国志愿者的多组学健康数据,支持非肿瘤疾病研究,已发表超1.1万项研究。
MIMIC III:重症医学数据库,含3.8万+患者诊疗信息,适用于临床与基因关联分析。
三、应用场景
差异分析:通过GEO或ArrayExpress挖掘非肿瘤疾病的差异表达基因。
机器学习建模:利用免疫基因数据构建诊断模型(如LASSO回归、SVM)。
功能富集:结合KEGG、GO分析揭示基因通路机制。
四、其他推荐资源
公共临床数据库:如NHANES(美国健康调查数据)、WHO Mortality Database(全球死亡数据)。
多组学整合:GWAS结合表观基因组数据非肿瘤疾病遗传机制。
如需具体操作指南,可参考GEO2R分析教程或WGCNA共表达网络构建代码。