[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"project-80999":3},{"id":4,"name":5,"fullName":6,"owner":7,"repo":5,"description":8,"homepage":9,"htmlUrl":10,"language":11,"languages":10,"totalLinesOfCode":10,"stars":12,"forks":13,"watchers":13,"openIssues":14,"contributorsCount":14,"subscribersCount":14,"size":14,"stars1d":14,"stars7d":14,"stars30d":14,"stars90d":14,"forks30d":14,"starsTrendScore":14,"compositeScore":15,"rankGlobal":10,"rankLanguage":10,"license":16,"archived":17,"fork":17,"defaultBranch":18,"hasWiki":19,"hasPages":17,"topics":20,"createdAt":10,"pushedAt":10,"updatedAt":28,"readmeContent":29,"aiSummary":30,"trendingCount":14,"starSnapshotCount":14,"syncStatus":31,"lastSyncTime":32,"discoverSource":33},80999,"Bioinfo-collinearity-kaks-pipeline","Oblivionis028\u002FBioinfo-collinearity-kaks-pipeline","Oblivionis028","A reproducible bioinformatics pipeline template for collinearity and Ka\u002FKs analysis in comparative genomics.一个用于比较基因组学中共线性分析和 Ka\u002FKs 分析的可复现生信流程模板。","",null,"Python",30,1,0,40.9,"Other",false,"main",true,[21,22,23,24,25,26,27],"bioinformatics","bioinformatics-pipeline","collinearity","comparative-genomics","molecular-evolution","python","synteny-analysis","2026-06-12 04:01:31","\u003Ch1 align=\"center\">🧬 共线性分析与 Ka\u002FKs 分析流程模板\u003C\u002Fh1>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.x-3776AB?style=flat-square&logo=python&logoColor=white\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FShell-Bash-4EAA25?style=flat-square&logo=gnubash&logoColor=white\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMCScanX-Collinearity-2E8B57?style=flat-square\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKa%2FKs-Analysis-DC143C?style=flat-square\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FData-Not%20Included-lightgrey?style=flat-square\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow?style=flat-square\" \u002F>\n\u003C\u002Fp>\n\n一个可重复使用的 **种内\u002F种间共线性分析** 与 **Ka\u002FKs 分析**流程模板。\n\n本仓库用于整理从 `GFF\u002FGFF3` 注释文件和 `protein FASTA` 蛋白序列文件出发，完成 **MCScanX 共线性分析**、**目标基因筛选** 以及 **Ka\u002FKs 选择压力分析** 的标准流程。\n\n> 本仓库仅保存分析流程、辅助脚本和示例配置，不包含任何真实基因组数据、注释文件、序列文件或分析结果。\n\n## ✨ 功能特点\n\n- 🧬 从 GFF\u002FGFF3 和蛋白 FASTA 生成 MCScanX 输入文件\n- ⚡ 使用 DIAMOND 进行全基因组蛋白自比对\n- 🔗 使用 MCScanX \u002F TBtools 进行共线性分析\n- 🎯 从共线性结果中筛选目标基因相关的共线性基因对\n- 🧪 提取候选基因对的 CDS 序列用于 Ka\u002FKs 分析\n- 📊 根据 Ka\u002FKs 结果判断基因对受到的选择压力\n\n## 仓库结构\n\n```text\n.\n├── scripts\u002F\n│   ├── prepare_mcscanx_inputs.py\n│   ├── filter_collinearity_targets.py\n│   ├── extract_cds_by_ids.py\n│   └── validate_cds_lengths.py\n├── configs\u002F\n│   ├── targets.example.txt\n│   └── kaks_pairs.example.tsv\n├── data\u002F\n│   ├── raw\u002F              # 本地放原始数据；不会上传 GitHub\n│   └── intermediate\u002F     # 中间文件；不会上传 GitHub\n├── results\u002F\n│   ├── mcscanx\u002F          # MCScanX 结果；不会上传 GitHub\n│   └── kaks\u002F             # Ka\u002FKs 结果；不会上传 GitHub\n├── docs\u002F\n│   └── workflow.zh-CN.md\n├── .gitignore\n├── LICENSE\n└── README.md\n```\n\n## 数据隐私\n\n本仓库已经配置 `.gitignore`，默认不会上传以下敏感或大文件：\n\n- `*.fa`\n- `*.fasta`\n- `*.fna`\n- `*.gff`\n- `*.gff3`\n- `*.gtf`\n- `*.blast`\n- `*.dmnd`\n- `*.collinearity`\n- `data\u002Fraw\u002F*`\n- `data\u002Fintermediate\u002F*`\n- `results\u002F*`\n\n上传 GitHub 前仍建议运行：\n\n```bash\ngit status\n```\n\n确认没有真实序列、真实注释或真实分析结果被加入 Git。\n\n## 快速流程\n\n### 1. 准备原始文件\n\n把原始文件放在本地，不提交到 GitHub：\n\n```text\ndata\u002Fraw\u002Fgenome.gff\ndata\u002Fraw\u002Fprotein.fasta\ndata\u002Fraw\u002Fgenome.fasta   # 仅 Ka\u002FKs 需要从 genome + gff 提取 CDS 时使用\n```\n\n### 2. 生成 MCScanX 输入\n\n```bash\npython3 scripts\u002Fprepare_mcscanx_inputs.py \\\n  --gff data\u002Fraw\u002Fgenome.gff \\\n  --protein data\u002Fraw\u002Fprotein.fasta \\\n  --prefix TK \\\n  --outdir data\u002Fintermediate\n```\n\n输出：\n\n```text\ndata\u002Fintermediate\u002FTK.clean.protein.fasta\ndata\u002Fintermediate\u002FTK.gff\n```\n\n其中 `TK.gff` 是 MCScanX 4 列格式：\n\n```text\nchromosome\u002Fscaffold    gene_id\u002Fprotein_id    start    end\n```\n\n### 3. DIAMOND 蛋白自比对\n\n```bash\ncd data\u002Fintermediate\n\ndiamond makedb --in TK.clean.protein.fasta -d TK\ndiamond blastp -d TK.dmnd -q TK.clean.protein.fasta -o TK.blast -e 1e-5 -k 5 -f 6\n```\n\n输出：\n\n```text\nTK.blast\n```\n\n### 4. MCScanX \u002F TBtools 共线性分析\n\n打开 TBtools：\n\n```text\nQuick Run MCScanX Wrapper\n```\n\n填入：\n\n```text\nInput .blast File: data\u002Fintermediate\u002FTK.blast\nInput .gff File:   data\u002Fintermediate\u002FTK.gff\nOutput Directory:  results\u002Fmcscanx\n```\n\n核心输出：\n\n```text\nresults\u002Fmcscanx\u002FTK.collinearity\n```\n\n### 5. 筛选目标基因相关共线性基因对\n\n准备目标基因列表：\n\n```text\nconfigs\u002Ftargets.txt\n```\n\n一行一个目标基因\u002F蛋白 ID。\n\n运行：\n\n```bash\npython3 scripts\u002Ffilter_collinearity_targets.py \\\n  --collinearity results\u002Fmcscanx\u002FTK.collinearity \\\n  --gff data\u002Fintermediate\u002FTK.gff \\\n  --targets configs\u002Ftargets.txt \\\n  --out_prefix results\u002Fmcscanx\u002Ftarget_collinearity\n```\n\n输出：\n\n```text\nresults\u002Fmcscanx\u002Ftarget_collinearity_pairs.tsv\nresults\u002Fmcscanx\u002Ftarget_collinearity_summary.tsv\n```\n\n### 6. Ka\u002FKs 候选基因对\n\n准备候选基因对：\n\n```text\nconfigs\u002Fkaks_pairs.tsv\n```\n\n格式：\n\n```text\ngeneA    geneB\n```\n\n中间是 Tab。\n\n### 7. 提取 CDS\n\n如果已经有全基因组 CDS FASTA：\n\n```bash\npython3 scripts\u002Fextract_cds_by_ids.py \\\n  --cds data\u002Fraw\u002Fall.cds.fa \\\n  --ids configs\u002Fkaks_ids.txt \\\n  --out results\u002Fkaks\u002Ftarget.cds.fa\n```\n\n如果没有 CDS FASTA，但有 genome FASTA + GFF，可先用 `gffread` 提取：\n\n```bash\ngffread data\u002Fraw\u002Fgenome.gff -g data\u002Fraw\u002Fgenome.fasta -x data\u002Fintermediate\u002Fall.cds.fa\n```\n\n### 8. 检查 CDS 长度\n\n```bash\npython3 scripts\u002Fvalidate_cds_lengths.py --cds results\u002Fkaks\u002Ftarget.cds.fa\n```\n\n### 9. 计算 Ka\u002FKs\n\n打开 TBtools：\n\n```text\nSimple Ka\u002FKs Calculator (NG)\n```\n\n填入：\n\n```text\nInput CDS File:      results\u002Fkaks\u002Ftarget.cds.fa\nInput GenePair File: configs\u002Fkaks_pairs.tsv\nOutput Table File:   results\u002Fkaks\u002Fkaks.result.tsv\n```\n\n## 结果解释\n\n常见解释：\n\n| Ka\u002FKs | 解释 |\n|---|---|\n| `\u003C 1` | 纯化选择，功能较保守 |\n| `≈ 1` | 中性进化 |\n| `> 1` | 正选择，可能存在功能分化 |\n| `NaN` | Ka 和 Ks 不能有效估计，通常不能用于选择压力判断 |\n\n## 依赖\n\n- Python 3\n- DIAMOND\n- TBtools-II\n- 可选：gffread\n\n## 注意\n\n本模板不包含任何真实研究数据。请勿提交真实序列、真实注释、真实 `.blast`、真实 `.collinearity` 或真实 Ka\u002FKs 结果。\n","该项目提供了一个用于比较基因组学中共线性分析和Ka\u002FKs分析的可复现生物信息学流程模板。核心功能包括从GFF\u002FGFF3注释文件和蛋白FASTA序列文件生成MCScanX输入、使用DIAMOND进行全基因组蛋白自比对、利用MCScanX\u002FTBtools执行共线性分析、筛选目标基因相关的共线性基因对以及提取候选基因对的CDS序列以进行Ka\u002FKs选择压力分析。该模板适用于需要在种内或种间水平上研究基因组共线性和分子进化机制的研究场景，如遗传育种、物种起源与分化等领域。整个流程采用Python编写，并辅以Shell脚本支持，确保了高度的灵活性和可扩展性。",2,"2026-06-11 04:03:08","CREATED_QUERY"]