
carbon
huggingface
The home of Carbon Genomic Foundation Model 🧬
AI 简介
Carbon 是由 Hugging Face 开发的基因组基础模型,旨在处理 DNA 和 RNA 序列。项目基于约 1T tokens(约 6T DNA 碱基对)的数据集进行训练,并提供了多种预训练模型,包括500M、3B和8B参数规模的模型。其核心功能包括序列恢复、变异效应预测及扰动分析等任务的评估代码,以及用于下游任务微调的脚本。Carbon 使用混合分词器,支持英文文本和DNA序列的处理。该项目适合生物信息学领域中需要高效处理大规模基因数据的研究人员使用,特别是在零样本学习场景下对DNA序列进行预测和分析时。
Python
Apache License 2.0193
Stars
27
Forks
1
Watchers
1
Issues
Star 增长
今日0
近 7 天+5
近 30 天+103
综合评分56.84
默认分支main