Pytorch图像去噪实战(九十五):新旧模型A/B评估实战,判断新模型是否真的值得上线一、问题场景:新模型离线指标更高,但到底该不该上线?自动重训后,我们会得到一个新模型。但问题来了:新模型真的比旧模型好吗?只看 PSNR 不够。因为图像去噪服务上线后,用户关心的是:图片是否更自然文字是否更清楚速度是否还能接受失败率是否变高某些场景是否退化用户满意度是否提升所以新模型上线前,必须做 A/B 评估。二、A/B评估分两类离线A/B固定测试集上对比:old_model vs new_model看指标、速度、视觉样例。在线A/B真实用户请求按比例分流:90% old 10% new看用户反馈、错误率、耗时。本文先实现离线 A