心脏缺血再灌注损伤中"内皮-免疫互作"单细胞联合分析项目
大模型不替代湿实验判断,只替代"重复性高、易出错、需要查文档"的工作。
凡涉及生物学解释、统计阈值、跨物种同源关系、临床样本异质性的决策,必须由分析者最终拍板。LLM 角色:① 减少 low-level 错误;② 结果不合理时主动提醒;③ 加速可复现性文档撰写。
merge / join / rename / subset——单细胞分析中最常见的 silent bug 是"对齐错了基因/细胞"。| Phase | 任务 | LLM 能做什么 | 风险/边界 |
|---|---|---|---|
| 0 数据准备 | 同源基因映射、cellranger 整理 | 自动化映射核对、文件结构 sanity check | 同源关系须 biomaRt 双向核对 |
| 1 QC | 阈值选择、doublet 检测 | 基于分布推荐阈值、异常样本识别 | 不能盲信默认值,需物种分调 |
| 2 注释 | 细胞类型 marker 选择 | marker 列表交叉验证、新亚群命名建议 | MVP 串行瓶颈,质量决定下游 |
| 3 丰度/差异 | pseudo-bulk、scCODA | 代码生成、结果合理性检查 | n=3 必须做 pseudo-bulk |
| 4 CellChat | 配受体网络 | 结果解读、保守通路识别 | 数据库版本要锁定 |
| 5 Figure | 拼图、Methods 文字 | 自动化 caption、Methods 草稿 | 必须人工校对 |
| 跨阶段 | 可复现性 | env 锁定、README 生成 | — |
SPEC.md 第 5 节列了"构建人-鼠同源基因映射表",但没说映射方向必须双向验证——这是后续跨物种对比(Figure 1 A-D vs E-H)出错的最大隐患。
human→mouse 和 mouse→human 两次查询,取交集作为高置信同源集;只单向映射的基因进"低置信列表",跨物种通路对比时单独标注。biomaRt 输出,自动列出多对多映射(一个基因映射到多个同源基因),由人工决定保留 1:1 还是取最佳 hit。homolog_audit.md:① 来源数据库版本;② 丢弃的 ambiguous 基因数;③ 关键 marker(如 Pecam1/PECAM1、Vwf/VWF)是否在表内。为何关键:跨物种保守通路(CXCL/CCL/选凝素类)的结论完全依赖这张表,错一个基因就可能导致通路"假保守"或"假物种特异"。
LLM 适合做"机械但易错"的元数据核对。在拿到 cellranger 输出后,让 LLM 自动生成 sanity check 报告:
barcodes.tsv.gz / features.tsv.gz / matrix.mtx.gz 维度是否一致web_summary.html 摘要比对MVP_PLAN.md 第 6 节给的默认值 nFeature 200–6000, mt < 15% 是兜底值,但心脏组织中:
建议:让 LLM 读每个样本的 QC 分布(nFeature / nCount / percent.mt 的分位数表),按"分布拐点 + 物种先验"给每个样本一份建议阈值 + 理由,再由人工拍板。旧批 / 新批分别做 QC 阈值(SPEC 第 7 节"跨物种时相差异"风险点同理适用批次)。
让 LLM 编排 Scrublet + DoubletFinder 两套工具,取交集作为高置信 doublet,只取其一的列入"疑似 doublet"清单供人工核查。
SPEC.md 第 5.5 节明确"注释质量决定后续所有分析",MVP_PLAN.md 第 5 节也标注这是串行瓶颈。这是 LLM 投入产出比最高的环节。
不要只用一组 marker。让 LLM 从多个来源汇总并交叉:
SPEC.md 把"内皮亚群细分(arterial / venous / capillary / lymphatic)"作为核心差异化。但心脏中淋巴内皮比例极低,若 LLM 自动注释出大量 lymphatic,几乎一定是 capillary 误判。让 LLM 在给出亚群标签的同时报告该亚群占总内皮比例,异常高比例触发人工复核。
让 LLM 在注释表里加一列 confidence(high / medium / low)和 alternative_labels(次优候选)。下游所有差异分析、CellChat 都按 confidence 分层报告,避免 low-confidence 细胞群结果被过度解读。
SPEC.md 第 6.2 节已写明"必须做 pseudo-bulk,不能直接对细胞做统计"——这是 Nature Methods 2023 推荐做法,n=3 时尤为重要。LLM 在这里的作用是代码审计:让 LLM 检查 DESeq2/edgeR 脚本是否真的在样本层面聚合,而不是误用细胞层面的 Wilcoxon 当主统计。
SPEC.md 第 6.3 节要求"旧批 vs 新批主要细胞群变化方向一致,反向必须在文章中明确说明"。让 LLM 自动生成一致性对照表:
| 细胞群 | 旧批方向 | 新批方向 | 一致? | 备注 |
|---|---|---|---|---|
| Mac | ↑ | ↑ | ✓ | — |
| Endo-cap | ↓ | ↓ | ✓ | — |
| Neutro | ↑ | ? | 待新批完成 | — |
方向矛盾时优先在 Figure 1 中以新批为主(与 SPEC 第 7 节风险缓解一致),不要试图通过调参把矛盾"调消失"。
SPEC.md 第 7 节已点出"小样本重视效应量"。LLM 帮你在差异表里同时列出 logFC、padj、pct.in、pct.out,并按 |logFC| 排序——只按 padj 排序在小样本下会冒出大量"显著但效应极小"的基因。
SPEC.md 第 9 节把 CellChat 数据库版本(v1 vs v2)列为"待确认"。必须冻结版本:v1 与 v2 的配受体库差异较大,混用会让结果不可复现。LLM 帮你写一段脚本,每次分析前打印 CellChatDB.version,写入日志。
SPEC.md 第 3.1 节已明确"通路级别对比"——这是聪明的降风险策略。LLM 帮两件事:
CellChat 输出的 prob 是相对值,细胞数变化会驱动通讯强度变化。让 LLM 自动报告:每个通讯对的强度变化里,有多少来自细胞比例变化、多少来自 per-cell 表达变化——避免"通讯增强完全被丰度变化带的"这类隐性错误。
sessionInfo() / pip freeze严禁直接交付 LLM 生成的 Methods——必须人工核对:① 工具版本号;② 阈值数字;③ 是否如实披露 LLM 辅助(部分期刊要求)。
| 优先级 | 动作 | 预计收益 |
|---|---|---|
| 🔴 P0 | 双向同源基因映射 + 关键 marker 核对(§2.1) | 跨物种对比地基,错了全盘错 |
| 🔴 P0 | 参考基因组版本统一(mm10/mm39 二选一)(§2.2) | SPEC 待确认事项,必须先决 |
| 🔴 P0 | pseudo-bulk 强制 + DESeq2 代码审计(§5.1) | n=3 统计纪律底线 |
| 🟡 P1 | QC 阈值按样本分布推荐(§3.1) | 避免误删 CM(高 mt%) |
| 🟡 P1 | 注释 confidence 分层(§4.3) | 防止过度解读 low-confidence 亚群 |
| 🟡 P1 | 双批一致性对照表(§5.2) | SPEC 第 6.3 节硬要求 |
| 🟢 P2 | CellChat 版本锁定 + Jaccard 保守通路(§6) | 防过度解读 |
| 🟢 P2 | env 锁定 + Methods 草稿(§7) | 可复现性 |