下载 Word 打印 / PDF

利用 AI 大模型提升科研数据质量的建议

心脏缺血再灌注损伤中"内皮-免疫互作"单细胞联合分析项目

v0.1 · 2026-07-03 · 关联 SPEC.md / MVP_PLAN.md v0.1

0 · 总原则(先读这一段)
大模型不替代湿实验判断,只替代"重复性高、易出错、需要查文档"的工作。
凡涉及生物学解释、统计阈值、跨物种同源关系、临床样本异质性的决策,必须由分析者最终拍板。LLM 角色:① 减少 low-level 错误;② 结果不合理时主动提醒;③ 加速可复现性文档撰写。
🚫 使用红线(四条)
  1. 禁止让 LLM 编造基因/通路/文献。所有 LLM 给出的基因名、通路名、文献引用必须用 NCBI / KEGG / PubMed 交叉验证后才能进论文。
  2. 禁止把原始 UMI 矩阵或样本元数据直接上传公网 LLM。人源 GSE198784 是公共数据,但小鼠自测数据未发表,须本地化或私有部署模型处理。
  3. LLM 给出的代码必须读完再跑,特别是 merge / join / rename / subset——单细胞分析中最常见的 silent bug 是"对齐错了基因/细胞"。
  4. 每个 LLM 介入的环节都要在 Methods 里如实说明(哪些是辅助、哪些是验证),避免触碰期刊 AI 使用披露要求(Nature/Cell 系列已逐步强制)。
1 · 项目阶段 × LLM 介入点 对照表
Phase任务LLM 能做什么风险/边界
0 数据准备同源基因映射、cellranger 整理自动化映射核对、文件结构 sanity check同源关系须 biomaRt 双向核对
1 QC阈值选择、doublet 检测基于分布推荐阈值、异常样本识别不能盲信默认值,需物种分调
2 注释细胞类型 marker 选择marker 列表交叉验证、新亚群命名建议MVP 串行瓶颈,质量决定下游
3 丰度/差异pseudo-bulk、scCODA代码生成、结果合理性检查n=3 必须做 pseudo-bulk
4 CellChat配受体网络结果解读、保守通路识别数据库版本要锁定
5 Figure拼图、Methods 文字自动化 caption、Methods 草稿必须人工校对
跨阶段可复现性env 锁定、README 生成
2 · Phase 0 数据准备:最重要的质量地基
2.1 人-鼠同源基因映射表的"双向核对"

SPEC.md 第 5 节列了"构建人-鼠同源基因映射表",但没说映射方向必须双向验证——这是后续跨物种对比(Figure 1 A-D vs E-H)出错的最大隐患。

为何关键:跨物种保守通路(CXCL/CCL/选凝素类)的结论完全依赖这张表,错一个基因就可能导致通路"假保守"或"假物种特异"。
2.2 元数据(metadata)一致性校验

LLM 适合做"机械但易错"的元数据核对。在拿到 cellranger 输出后,让 LLM 自动生成 sanity check 报告:

3 · Phase 1 QC:用 LLM 做"分布感知"的阈值推荐
3.1 不要用通用默认阈值

MVP_PLAN.md 第 6 节给的默认值 nFeature 200–6000, mt < 15%兜底值,但心脏组织中:

建议:让 LLM 读每个样本的 QC 分布(nFeature / nCount / percent.mt 的分位数表),按"分布拐点 + 物种先验"给每个样本一份建议阈值 + 理由,再由人工拍板。旧批 / 新批分别做 QC 阈值(SPEC 第 7 节"跨物种时相差异"风险点同理适用批次)。

3.2 Doublet 检测的交叉验证

让 LLM 编排 Scrublet + DoubletFinder 两套工具,取交集作为高置信 doublet,只取其一的列入"疑似 doublet"清单供人工核查。

4 · Phase 2 细胞注释:MVP 串行瓶颈,LLM 价值最高

SPEC.md 第 5.5 节明确"注释质量决定后续所有分析",MVP_PLAN.md 第 5 节也标注这是串行瓶颈。这是 LLM 投入产出比最高的环节。

4.1 Marker 列表的交叉验证

不要只用一组 marker。让 LLM 从多个来源汇总并交叉:

【示例 prompt】 针对小鼠心脏缺血再灌注(再灌注 3 天,心尖+梗死核心区)单细胞数据, 请为以下细胞群给出 marker 列表,并标注来源(CellMarker / PanglaoDB / 文献): - 心肌细胞 CM / 成纤维细胞 FB / 内皮 Endo(含 a/c/v/l 亚群) - 周细胞 Pericyte / 巨噬 Mac(resident vs monocyte-derived) - 中性粒 Neutro / T / B / NK 要求:每个 ≥5 个,禁止杜撰基因,不确定的标 [需核实]。
4.2 内皮亚群命名的人工核查

SPEC.md 把"内皮亚群细分(arterial / venous / capillary / lymphatic)"作为核心差异化。但心脏中淋巴内皮比例极低,若 LLM 自动注释出大量 lymphatic,几乎一定是 capillary 误判。让 LLM 在给出亚群标签的同时报告该亚群占总内皮比例,异常高比例触发人工复核。

4.3 注释不确定性的"显式标注"

让 LLM 在注释表里加一列 confidence(high / medium / low)和 alternative_labels(次优候选)。下游所有差异分析、CellChat 都按 confidence 分层报告,避免 low-confidence 细胞群结果被过度解读。

5 · Phase 3 丰度与差异分析:n=3 的统计纪律
5.1 pseudo-bulk 的强制性

SPEC.md 第 6.2 节已写明"必须做 pseudo-bulk,不能直接对细胞做统计"——这是 Nature Methods 2023 推荐做法,n=3 时尤为重要。LLM 在这里的作用是代码审计:让 LLM 检查 DESeq2/edgeR 脚本是否真的在样本层面聚合,而不是误用细胞层面的 Wilcoxon 当主统计。

5.2 双批一致性的方向性检查

SPEC.md 第 6.3 节要求"旧批 vs 新批主要细胞群变化方向一致,反向必须在文章中明确说明"。让 LLM 自动生成一致性对照表:

细胞群旧批方向新批方向一致?备注
Mac
Endo-cap
Neutro待新批完成
方向矛盾时优先在 Figure 1 中以新批为主(与 SPEC 第 7 节风险缓解一致),不要试图通过调参把矛盾"调消失"。
5.3 重视效应量,弱化 p 值

SPEC.md 第 7 节已点出"小样本重视效应量"。LLM 帮你在差异表里同时列出 logFCpadjpct.inpct.out,并按 |logFC| 排序——只按 padj 排序在小样本下会冒出大量"显著但效应极小"的基因。

6 · Phase 4 CellChat:最容易被过度解读
6.1 数据库版本锁定

SPEC.md 第 9 节把 CellChat 数据库版本(v1 vs v2)列为"待确认"。必须冻结版本:v1 与 v2 的配受体库差异较大,混用会让结果不可复现。LLM 帮你写一段脚本,每次分析前打印 CellChatDB.version,写入日志。

6.2 通路级对比,不做配受体一一对应

SPEC.md 第 3.1 节已明确"通路级别对比"——这是聪明的降风险策略。LLM 帮两件事:

6.3 "通讯增强"≠"生物学重要"

CellChat 输出的 prob 是相对值,细胞数变化会驱动通讯强度变化。让 LLM 自动报告:每个通讯对的强度变化里,有多少来自细胞比例变化、多少来自 per-cell 表达变化——避免"通讯增强完全被丰度变化带的"这类隐性错误。

7 · 跨阶段:可复现性 + 文档
7.1 env 锁定 + LLM 生成 README
7.2 Methods 草稿
严禁直接交付 LLM 生成的 Methods——必须人工核对:① 工具版本号;② 阈值数字;③ 是否如实披露 LLM 辅助(部分期刊要求)。
8 · 不要让 LLM 做的事(明确边界)
  1. 不要让 LLM 决定生物学结论。"这个亚群是不是病态内皮"必须基于 marker + 通路 + 文献,不是 LLM 一句话。
  2. 不要让 LLM 写双批结果矛盾的解释。SPEC 第 7 节要求"矛盾时以新批为主",矛盾的生物学解释必须由分析者写,LLM 只能润色语言。
  3. 不要让 LLM 编造文献。Methods 里每条引用必须 PubMed 可查。
  4. 不要让 LLM 自动调整阈值让结果"好看"。这是 p-hacking 的 AI 版本,必须禁止。
  5. 不要把未发表小鼠自测数据丢给公网 LLM。建议本地部署(Qwen / DeepSeek 本地推理)或私有 API。
9 · 落地清单(按优先级)
优先级动作预计收益
🔴 P0双向同源基因映射 + 关键 marker 核对(§2.1)跨物种对比地基,错了全盘错
🔴 P0参考基因组版本统一(mm10/mm39 二选一)(§2.2)SPEC 待确认事项,必须先决
🔴 P0pseudo-bulk 强制 + DESeq2 代码审计(§5.1)n=3 统计纪律底线
🟡 P1QC 阈值按样本分布推荐(§3.1)避免误删 CM(高 mt%)
🟡 P1注释 confidence 分层(§4.3)防止过度解读 low-confidence 亚群
🟡 P1双批一致性对照表(§5.2)SPEC 第 6.3 节硬要求
🟢 P2CellChat 版本锁定 + Jaccard 保守通路(§6)防过度解读
🟢 P2env 锁定 + Methods 草稿(§7)可复现性
一句话总结:在本项目中,LLM 的最高价值不是"自动分析",而是"在每个易错环节做第二道核对"——同源表对齐、阈值合理性、注释 confidence、pseudo-bulk 纪律、双批一致性。把这五件事做扎实,Figure 1 的数据质量就能从"可发表"提升到"经得起 reviewer 拷打"。
文档中心