AI 大模型提升科研数据质量建议 — 心脏 I/R 单细胞联合分析项目

0 · 总原则（先读这一段）

大模型不替代湿实验判断，只替代"重复性高、易出错、需要查文档"的工作。
凡涉及生物学解释、统计阈值、跨物种同源关系、临床样本异质性的决策，必须由分析者最终拍板。LLM 角色：① 减少 low-level 错误；② 结果不合理时主动提醒；③ 加速可复现性文档撰写。

🚫 使用红线（四条）

禁止让 LLM 编造基因/通路/文献。所有 LLM 给出的基因名、通路名、文献引用必须用 NCBI / KEGG / PubMed 交叉验证后才能进论文。
禁止把原始 UMI 矩阵或样本元数据直接上传公网 LLM。人源 GSE198784 是公共数据，但小鼠自测数据未发表，须本地化或私有部署模型处理。
LLM 给出的代码必须读完再跑，特别是 merge / join / rename / subset——单细胞分析中最常见的 silent bug 是"对齐错了基因/细胞"。
每个 LLM 介入的环节都要在 Methods 里如实说明（哪些是辅助、哪些是验证），避免触碰期刊 AI 使用披露要求（Nature/Cell 系列已逐步强制）。

1 · 项目阶段 × LLM 介入点对照表

Phase	任务	LLM 能做什么	风险/边界
0 数据准备	同源基因映射、cellranger 整理	自动化映射核对、文件结构 sanity check	同源关系须 biomaRt 双向核对
1 QC	阈值选择、doublet 检测	基于分布推荐阈值、异常样本识别	不能盲信默认值，需物种分调
2 注释	细胞类型 marker 选择	marker 列表交叉验证、新亚群命名建议	MVP 串行瓶颈，质量决定下游
3 丰度/差异	pseudo-bulk、scCODA	代码生成、结果合理性检查	n=3 必须做 pseudo-bulk
4 CellChat	配受体网络	结果解读、保守通路识别	数据库版本要锁定
5 Figure	拼图、Methods 文字	自动化 caption、Methods 草稿	必须人工校对
跨阶段	可复现性	env 锁定、README 生成	—

2 · Phase 0 数据准备：最重要的质量地基

2.1 人-鼠同源基因映射表的"双向核对"

SPEC.md 第 5 节列了"构建人-鼠同源基因映射表"，但没说映射方向必须双向验证——这是后续跨物种对比（Figure 1 A-D vs E-H）出错的最大隐患。

用 biomaRt 做 human→mouse 和 mouse→human 两次查询，取交集作为高置信同源集；只单向映射的基因进"低置信列表"，跨物种通路对比时单独标注。
让 LLM 读 biomaRt 输出，自动列出多对多映射（一个基因映射到多个同源基因），由人工决定保留 1:1 还是取最佳 hit。
生成 homolog_audit.md：① 来源数据库版本；② 丢弃的 ambiguous 基因数；③ 关键 marker（如 Pecam1/PECAM1、Vwf/VWF）是否在表内。

为何关键：跨物种保守通路（CXCL/CCL/选凝素类）的结论完全依赖这张表，错一个基因就可能导致通路"假保守"或"假物种特异"。

2.2 元数据（metadata）一致性校验

LLM 适合做"机械但易错"的元数据核对。在拿到 cellranger 输出后，让 LLM 自动生成 sanity check 报告：

每个样本的 barcodes.tsv.gz / features.tsv.gz / matrix.mtx.gz 维度是否一致
barcodes 数 vs features 数比值是否落在合理区间（10X v3.1 通常 cells > genes）
样本分组（sham / I/R / 辅料 / 治疗）的样本 ID 是否与设计一致
参考基因组版本（SPEC 第 9 节"待确认"的 mm10/mm39）一旦确定，所有样本必须统一，LLM 可读取 cellranger 的 web_summary.html 摘要比对

3 · Phase 1 QC：用 LLM 做"分布感知"的阈值推荐

3.1 不要用通用默认阈值

MVP_PLAN.md 第 6 节给的默认值 nFeature 200–6000, mt < 15% 是兜底值，但心脏组织中：

心肌细胞（CM）线粒体比例天然高（10–30%），15% 阈值会误删大量 CM
内皮细胞 nFeature 偏低，200 阈值过宽

建议：让 LLM 读每个样本的 QC 分布（nFeature / nCount / percent.mt 的分位数表），按"分布拐点 + 物种先验"给每个样本一份建议阈值 + 理由，再由人工拍板。旧批 / 新批分别做 QC 阈值（SPEC 第 7 节"跨物种时相差异"风险点同理适用批次）。

3.2 Doublet 检测的交叉验证

让 LLM 编排 Scrublet + DoubletFinder 两套工具，取交集作为高置信 doublet，只取其一的列入"疑似 doublet"清单供人工核查。

4 · Phase 2 细胞注释：MVP 串行瓶颈，LLM 价值最高

SPEC.md 第 5.5 节明确"注释质量决定后续所有分析"，MVP_PLAN.md 第 5 节也标注这是串行瓶颈。这是 LLM 投入产出比最高的环节。

4.1 Marker 列表的交叉验证

不要只用一组 marker。让 LLM 从多个来源汇总并交叉：

CellMarker 2.0 / PanglaoDB / 论文原生 marker（心脏 I/R scRNA-seq 已发表 ≥10 篇）
对每个主要细胞群（CM / FB / Endo / Pericyte / Mac / Neutro / T / B / NK）输出 ≥5 个 marker，并标注"必备 marker"（缺一个就不该是这型）和"加分 marker"

【示例 prompt】针对小鼠心脏缺血再灌注（再灌注 3 天，心尖+梗死核心区）单细胞数据，请为以下细胞群给出 marker 列表，并标注来源（CellMarker / PanglaoDB / 文献）： - 心肌细胞 CM / 成纤维细胞 FB / 内皮 Endo（含 a/c/v/l 亚群） - 周细胞 Pericyte / 巨噬 Mac（resident vs monocyte-derived） - 中性粒 Neutro / T / B / NK 要求：每个 ≥5 个，禁止杜撰基因，不确定的标 [需核实]。

4.2 内皮亚群命名的人工核查

SPEC.md 把"内皮亚群细分（arterial / venous / capillary / lymphatic）"作为核心差异化。但心脏中淋巴内皮比例极低，若 LLM 自动注释出大量 lymphatic，几乎一定是 capillary 误判。让 LLM 在给出亚群标签的同时报告该亚群占总内皮比例，异常高比例触发人工复核。

4.3 注释不确定性的"显式标注"

让 LLM 在注释表里加一列 confidence（high / medium / low）和 alternative_labels（次优候选）。下游所有差异分析、CellChat 都按 confidence 分层报告，避免 low-confidence 细胞群结果被过度解读。

5 · Phase 3 丰度与差异分析：n=3 的统计纪律

5.1 pseudo-bulk 的强制性

SPEC.md 第 6.2 节已写明"必须做 pseudo-bulk，不能直接对细胞做统计"——这是 Nature Methods 2023 推荐做法，n=3 时尤为重要。LLM 在这里的作用是代码审计：让 LLM 检查 DESeq2/edgeR 脚本是否真的在样本层面聚合，而不是误用细胞层面的 Wilcoxon 当主统计。

5.2 双批一致性的方向性检查

SPEC.md 第 6.3 节要求"旧批 vs 新批主要细胞群变化方向一致，反向必须在文章中明确说明"。让 LLM 自动生成一致性对照表：

细胞群	旧批方向	新批方向	一致？	备注
Mac	↑	↑	✓	—
Endo-cap	↓	↓	✓	—
Neutro	↑	？	待新批完成	—

方向矛盾时优先在 Figure 1 中以新批为主（与 SPEC 第 7 节风险缓解一致），不要试图通过调参把矛盾"调消失"。

5.3 重视效应量，弱化 p 值

SPEC.md 第 7 节已点出"小样本重视效应量"。LLM 帮你在差异表里同时列出 logFC、padj、pct.in、pct.out，并按 |logFC| 排序——只按 padj 排序在小样本下会冒出大量"显著但效应极小"的基因。

6 · Phase 4 CellChat：最容易被过度解读

6.1 数据库版本锁定

SPEC.md 第 9 节把 CellChat 数据库版本（v1 vs v2）列为"待确认"。必须冻结版本：v1 与 v2 的配受体库差异较大，混用会让结果不可复现。LLM 帮你写一段脚本，每次分析前打印 CellChatDB.version，写入日志。

6.2 通路级对比，不做配受体一一对应

SPEC.md 第 3.1 节已明确"通路级别对比"——这是聪明的降风险策略。LLM 帮两件事：

自动提取双物种各自的"内皮→巨噬/中性粒"top 通路
计算 Jaccard 重叠（保守通路集合），输出 ≥2–3 条保守通路（CXCL/CCL/选凝素类是先验候选）

6.3 "通讯增强"≠"生物学重要"

CellChat 输出的 prob 是相对值，细胞数变化会驱动通讯强度变化。让 LLM 自动报告：每个通讯对的强度变化里，有多少来自细胞比例变化、多少来自 per-cell 表达变化——避免"通讯增强完全被丰度变化带的"这类隐性错误。

7 · 跨阶段：可复现性 + 文档

7.1 env 锁定 + LLM 生成 README

sessionInfo() / pip freeze
每步关键参数（QC 阈值、resolution、差异阈值）
输入文件 hash（确保数据版本可追溯）

7.2 Methods 草稿

严禁直接交付 LLM 生成的 Methods——必须人工核对：① 工具版本号；② 阈值数字；③ 是否如实披露 LLM 辅助（部分期刊要求）。

8 · 不要让 LLM 做的事（明确边界）

不要让 LLM 决定生物学结论。"这个亚群是不是病态内皮"必须基于 marker + 通路 + 文献，不是 LLM 一句话。
不要让 LLM 写双批结果矛盾的解释。SPEC 第 7 节要求"矛盾时以新批为主"，矛盾的生物学解释必须由分析者写，LLM 只能润色语言。
不要让 LLM 编造文献。Methods 里每条引用必须 PubMed 可查。
不要让 LLM 自动调整阈值让结果"好看"。这是 p-hacking 的 AI 版本，必须禁止。
不要把未发表小鼠自测数据丢给公网 LLM。建议本地部署（Qwen / DeepSeek 本地推理）或私有 API。

9 · 落地清单（按优先级）

优先级	动作	预计收益
🔴 P0	双向同源基因映射 + 关键 marker 核对（§2.1）	跨物种对比地基，错了全盘错
🔴 P0	参考基因组版本统一（mm10/mm39 二选一）（§2.2）	SPEC 待确认事项，必须先决
🔴 P0	pseudo-bulk 强制 + DESeq2 代码审计（§5.1）	n=3 统计纪律底线
🟡 P1	QC 阈值按样本分布推荐（§3.1）	避免误删 CM（高 mt%）
🟡 P1	注释 confidence 分层（§4.3）	防止过度解读 low-confidence 亚群
🟡 P1	双批一致性对照表（§5.2）	SPEC 第 6.3 节硬要求
🟢 P2	CellChat 版本锁定 + Jaccard 保守通路（§6）	防过度解读
🟢 P2	env 锁定 + Methods 草稿（§7）	可复现性

一句话总结：在本项目中，LLM 的最高价值不是"自动分析"，而是"在每个易错环节做第二道核对"——同源表对齐、阈值合理性、注释 confidence、pseudo-bulk 纪律、双批一致性。把这五件事做扎实，Figure 1 的数据质量就能从"可发表"提升到"经得起 reviewer 拷打"。

文档中心

利用 AI 大模型提升科研数据质量的建议