AI+医疗实战：复查场景下，如何结合历史影像与

AI+医疗实战：复查场景下，如何结合历史影像与病程做时序预测？

很多 AI+医疗模型在论文里表现不错，但一进真实业务，马上会碰到一个特别现实的问题：

病人不是只来一次。

他会复查，会随访，会带着上一份报告、上一次影像、前几次治疗记录一起回来。

这时候如果模型还把每一次检查都当成一张独立图片、一个独立样本来判断，系统很容易出现两种典型问题：

看到了当前异常，却不知道它是新出现、变大了，还是其实已经稳定很久
当前图像看起来差不多，但结合病程和历史变化，其实风险完全不同

所以复查场景里的核心难点，从来不只是“再做一次分类”或者“再生成一份报告”，而是：

怎么把历史影像、历史报告、时间间隔和病程信息真正整合起来，做成有时间感的预测。

这篇文章就专门讲这个问题：

为什么复查场景下单次影像模型往往不够
医疗时序建模到底在解决什么任务
历史影像与病程怎么对齐
常见建模路线有哪些，各自适合什么场景
一个可落地的时序医疗 AI 系统，工程上应该怎么设计

如果你正在做肺结节随访、肿瘤疗效评估、慢病影像追踪、ICU 指标趋势建模或者多次检查报告辅助，这篇会比“静态单次诊断模型”更接近真实工作流。

一、为什么复查场景不能再把每次检查当独立样本？

很多医疗 AI 数据集的构造方式，天然会把问题做成单次样本预测：

输入：一次检查
输出：一个标签

这对 benchmark 很方便，但在复查场景里往往不够。

1）很多临床判断依赖“变化”，不是依赖“绝对值”

比如肺结节场景。

一个 6mm 结节本身未必说明很多，但如果它：

3 个月前是 3mm
现在增长到 6mm
边界也比以前更不规则

那它的风险解释和“长期稳定 6mm”完全不是一回事。

也就是说，临床上很多结论依赖的是：

$\Delta x = x_t - x_{t-1}$

而不是单独的 $x_t$ 。

2）病程上下文本身会改变当前检查的解释方式

同样一张影像，在不同病程阶段可能有完全不同的含义：

治疗前发现病灶 → 更偏诊断
治疗中病灶变化 → 更偏疗效评估
术后残留影像变化 → 更偏复发监测

所以系统不能只问“现在看到了什么”，还得问：

这是在什么时间点看到的
它相对上一次发生了什么变化
变化和治疗/病程是否一致

3）多次检查之间存在强相关，不利用就是浪费信息

真实医疗流程里，历史信息常常是最值钱的先验：

上次影像位置和当前是否一致
上次报告的可疑点，这次有没有进展
某个指标是持续升高，还是短期波动
某种模式是长期稳定，还是突然恶化

如果系统每次都“失忆”，那它在复查场景下就只能做一个半盲判断器。

二、复查场景里的“时序预测”到底在预测什么？

这里先别急着谈模型，先把任务讲清楚。

医疗时序预测不只是下一时刻分类，它大概有四类常见目标。

1）状态预测

给定历史多次检查，预测当前或未来状态：

当前是否恶化
下次复查是否高风险
某病灶是否会进展

这类任务通常输出分类或风险分数。

2）变化检测

重点不是判断“有没有病”，而是判断：

病灶是否变大/变小
新病灶是否出现
组织结构是否发生关键变化

这类任务特别适合影像随访。

3）疗效评估

结合治疗时间线、历史影像和指标，判断：

缓解
稳定
进展
无反应

这类任务往往不能只看图像本身，还要带治疗和病程上下文。

4）时序报告生成

输入不只是当前影像，还包括历史报告和前次结论，输出更像：

本次与前次相比变化如何
哪些异常持续存在
哪些异常新发或加重
impression 应如何更新

这其实已经把时序建模和报告生成结合到一起了。

所以“复查场景建模”不是一个单一技术点，而是一组围绕 longitudinal understanding 的问题。

三、历史影像 + 病程建模，真正难点在哪？

1）时间间隔不规则

医疗数据最大的特点之一，就是采样时间不均匀。

不是所有病人都按固定间隔来：

有人 3 天复查一次
有人 3 个月复查一次
有人中间缺了几次
有人换了医院和设备

这意味着你不能简单把时间步当成均匀序列。

如果强行用普通时序模型，往往会把“时间间隔信息”抹平。

2）历史影像之间不完全可比

同一个病人前后两次检查，可能存在：

不同设备
不同扫描参数
不同体位
不同窗宽窗位
不同切层厚度

如果系统直接比较像素，很容易把采集差异误当病灶变化。

3）报告和病程文本并不是严格标准化的

历史报告经常有这些问题：

不同医生写法不同
术语不统一
结构化程度不一致
重点关注点不同

所以文本时序建模不只是把历史报告拼起来，而是要先做标准化、抽取和对齐。

4）真正关键的是跨时间的“对应关系”

复查建模最难的地方之一，不是当前图看懂了没有，而是：

当前这个异常，和上一次看到的是不是同一个东西？

如果这个对应关系没建好，后面的增长率、稳定性、疗效评估都会漂。

四、常见建模路线有哪些？

1）Early fusion：直接把历史堆进模型

最简单的思路是把多次检查直接拼起来输入：

多张影像一起送进 backbone
当前报告和历史报告一起拼成文本

优点：

简单
原型快
baseline 容易搭

缺点：

时间关系往往隐含在输入顺序里，模型不一定真学到
历史越长越容易爆上下文
可解释性弱

这类方法适合快速 baseline，不适合作为长期系统方案。

2）Late fusion：先单次编码，再做时序聚合

更稳一点的做法是：

每次检查先单独编码
得到每个时间点的表征
再用时序模块做融合

设第 $t$ 次检查输入为 $x_t$ ，编码后得到：

$h_t = f_\theta(x_t)$

然后再做时序建模：

$\mathrm{TemporalModel}(h_1, h_2, \dots, h_T)$

优点：

结构清晰
单次模型和时序模块可分开迭代
更适合工程分层

缺点：

如果单次编码阶段已经丢了关键变化线索，后面很难补回来

3）Difference-aware modeling：显式建模变化量

复查任务里很常见的一种更有临床意义的路线，是显式建模差异：

$d_t = h_t - h_{t-1}$

或者：

$d_t = \phi(h_t, h_{t-1})$

其中 $ϕ\phi$ 可以是：

向量差
拼接后 MLP
cross-attention
registration 后的局部变化图

这种思路特别适合：

肿瘤体积变化
结节增长
病灶新发/消退
疗效评估

因为它不是只让模型自己“猜变化”，而是显式告诉它：

变化本身就是预测目标的一部分。

4）多模态 longitudinal model：影像 + 文本 + 时间联合建模

这条路线更接近真实可用系统。

每个时间点不只是图像，还有文本、结构化指标和时间戳：

$v_t = f_{img}(x_t), \quad s_t = f_{txt}(r_t), \quad m_t = f_{meta}(c_t)$

再联合成时间点表示：

$\nu_t = \mathrm{Fuse}(v_t, s_t, m_t)$

然后在病例级做时序建模：

$\mathrm{TemporalModel}(\nu_1, \nu_2, \dots, \nu_T)$

这条路线虽然复杂，但最像真实医疗业务。

因为很多复查决策本来就不是只看影像，而是：

当前影像
历史影像
历史报告
时间间隔
临床事件

一起决定。

五、时间信息应该怎么编码？

这件事非常重要，但很容易被低估。

1）最差的做法：只按顺序编号

比如：第 1 次、第 2 次、第 3 次。

问题是这会把：

3 天后复查
3 个月后复查

都当成“只差一步”。

在医疗里这通常不合理。

2）更好的做法：显式编码时间间隔

令相邻两次检查的间隔为：

$\Delta t_t = t_t - t_{t-1}$

然后把 $Δtt\Delta t_t$ 作为独立特征送入模型。

这样模型至少能区分：

短期变化
长期变化

3）如果时间跨度很大，建议做分层时间表示

例如同时建模：

天级时间差
月级时间差
治疗阶段标签
事件节点（术后/化疗后/放疗后）

因为很多医疗变化不是纯自然时间过程，而是受临床事件驱动。

六、历史影像与当前影像怎么对齐？

这是复查建模里最影响效果、也最容易偷懒的地方。

1）粗对齐：病例级对齐

最简单的是保证：

同一患者
同一检查类型
合理时间顺序

这一步是最低要求。

2）中等对齐：解剖或器官级对齐

例如胸部、肝脏、脑部等固定器官场景，可以尽量把相近结构放到可比较位置。

3）更强对齐：病灶级对应

这是最有价值、也最难的一层。

系统要回答：

当前病灶 A 对应上次哪一个区域
这是同一病灶变大，还是新病灶出现
多个病灶之间如何做 identity tracking

如果没有这层，模型很多时候只能做“整体印象变化”，很难做精细随访。

七、一个可落地的复查场景 pipeline 应该怎么搭？

如果你真要做一个稍微能落地的系统，我更推荐下面这个结构。

Stage 1：历史数据整理与 patient-level 时间线构建

先别急着上模型，先把病人时间线建好：

患者唯一标识
每次检查时间
检查类型
影像路径
报告文本
临床事件标签

这一步看起来不“智能”，但做不好后面基本全漂。

Stage 2：单次检查编码

对每个时间点分别编码：

当前影像表征
当前报告表征
当前结构化指标表征

Stage 3：变化特征提取

构造：

当前 vs 上次
当前 vs 基线
短期变化 vs 长期变化

例如：

$d_t^{local} = h_t - h_{t-1}$

$d_t^{global} = h_t - h_1$

这样系统既看短期波动，也看整体趋势。

Stage 4：时序聚合

可以根据任务复杂度选：

GRU / LSTM：简单稳妥
Temporal Transformer：表达更强
Time-aware attention：更适合不规则时间间隔

Stage 5：预测与质控

输出不应该只有一个最终分数。

更稳的做法是同时输出：

风险预测
变化摘要
关键证据时间点
不确定性分数
是否建议人工复核

这样才能更接近真实工作流。

八、用公式怎么描述“时序信息真的带来了增益”？

如果你想更工程化地写实验目标，可以把模型写成：

$y^=F(x1:T,r1:T,c1:T,Δt1:T) \hat{y} = F(x_{1:T}, r_{1:T}, c_{1:T}, \Delta t_{1:T})$

其中：

$x_{1:T}$ ：多次影像
$r_{1:T}$ ：多次报告文本
$c_{1:T}$ ：结构化临床上下文
$Δt1:T\Delta t_{1:T}$ ：时间间隔信息

主任务损失可以还是标准分类损失：

$\mathcal{L}_{task} = - \sum_{k=1}^{K} y_k \log p_k$

如果你希望模型更关注变化信息，可以再加变化一致性约束：

$\mathcal{L}_{change} = \sum_{t=2}^{T} \| \psi(h_t, h_{t-1}) - g(\Delta y_t) \|_2^2$

它的直觉是：

表征里的变化
应该和临床上的变化标签

尽量一致。

如果最终任务是报告生成，也可以定义：

$P(o_t \mid x_{1:t}, r_{1:t-1}, c_{1:t})$

这时候系统生成的不只是当前报告，而是“带历史对比的本次结论”。

九、评估这种系统时，最容易做偏的地方是什么？

1）只看当前时点准确率

如果只看当前分类准不准，很可能看不出时序建模的价值。

复查系统更应该看：

进展识别率
稳定病例误报率
新发异常检测率
高风险变化召回率

2）没有 patient-level split

这个问题在时序任务里尤其致命。

如果同一患者不同时间点同时出现在训练和测试里，结果很容易虚高。

3）只比较静态模型和时序模型，不比较不同历史窗口

更合理的实验应该至少比较：

只看当前
当前 + 上一次
当前 + 最近 3 次
当前 + 全历史

这样你才能知道历史信息的有效长度到底是多少。

4）忽略不规则时间间隔影响

如果你的模型把 7 天和 180 天都当成“相邻一次”，很多实验结论都会失真。

十、落地时最常踩的 6 个坑

1）时间线数据清洗没做好

病人 ID、检查时间、检查类型一旦乱，整个 longitudinal 建模基本白做。

2）历史太多就全塞进去

历史越长不一定越好。

很多时候更重要的是：

哪些历史最相关
哪些历史应该被压缩成摘要

3）只建模图像，不建模病程事件

治疗开始、手术、换药、复发这些事件往往对解释影像变化非常关键。

4）把设备差异当成病灶变化

跨设备、跨医院、跨采集条件的分布偏移，特别容易误导时序模型。

5）只输出结论，不输出变化依据

如果医生看不到：

和哪次相比
哪个区域变了
哪些证据支撑“进展”

那系统就很难真正被用起来。

6）不做拒答和人工复核

复查场景里很多变化本来就很细微。

系统如果没有“不确定时转人工”的出口，很容易在最难样本上装得很确定。

十一、我更推荐的迭代顺序

如果你现在从 0 开始做复查场景，我会建议按这个顺序推进。

第一步：先做单次 baseline

先知道当前时点能做到什么水平。

第二步：再加“当前 + 上一次”

不要一上来就全历史建模。

很多场景下，最近一次历史已经能带来明显提升。

第三步：再引入显式变化特征

让模型不只是“多看一张图”，而是真正建模变化。

第四步：把文本和病程事件接进来

这一步开始更像真实临床系统。

第五步：最后再做全历史、长窗口和报告生成闭环

这时再谈长期 memory 和 longitudinal report generation，才更稳。

十二、结语

复查场景下的医疗 AI，真正难点不是“再看一张历史图”，而是：

系统能不能把一个病人看成一个随时间变化的过程，而不是一组彼此独立的样本。

所以如果把这件事说得再直接一点，复查建模真正要解决的是三件事：

当前看到了什么
相比过去变了什么
这种变化在病程里意味着什么

从工程角度看，我更推荐的路线是：

用 patient-level 时间线先把数据底座搭好
用单次编码 + 变化建模做稳基础
用时间间隔和病程事件补足临床语义
用不确定性和人工复核把高风险样本兜住

这样做出来的系统，才更像一个能进真实随访流程的医疗 AI，而不是一个只会看单次截图的静态模型。

如果这条线继续往下写，下一篇很自然就可以接：

AI+医疗落地：数据清洗、标签噪声、患者级划分为什么比模型更重要？

因为只要开始做 longitudinal 医疗 AI，你很快就会发现：

很多所谓模型问题，最后根源其实都在数据治理。

AI+医疗实战：复查场景下，如何结合历史影像与