大模型流式输出与 SSE 推送：Spring Boot 中的实时响应架构设计-迪斯科星球

大模型流式输出与 SSE 推送：Spring Boot 中的实时响应架构设计

一、等待焦虑与超时风险：大模型实时响应的工程困境

大模型推理的延迟通常在数秒到数十秒之间，传统 HTTP 请求-响应模式下，客户端必须等待模型完成全部生成后才能收到响应。这种"黑盒等待"带来三个核心问题：其一，用户面对长时间白屏，体验极差，对话类场景的容忍阈值通常在 3 秒以内；其二，网关和负载均衡器的超时配置通常为 30-60 秒，长文本生成极易触发超时断连；其三，服务端在生成期间持有连接资源，高并发下线程池和连接池压力巨大。

流式输出（Streaming）是解决上述问题的标准方案——模型每生成一个 Token 就立即推送给客户端，用户看到"逐字打印"的效果。但流式输出在工程实现上并非简单的"边生成边返回"，它涉及 SSE 协议适配、背压控制、异常恢复和资源回收等一系列问题。

二、SSE 协议与流式推理架构：从模型输出到客户端渲染

Server-Sent Events（SSE）是基于 HTTP 的单向推送协议，与 WebSocket 相比更轻量，天然适配大模型的"服务端生成、客户端消费"模式。Spring Boot 中通过SseEmitter或 WebFlux 的Flux<ServerSentEvent>实现流式推送。

sequenceDiagram participant C as 客户端 participant G as Spring Gateway participant S as LLM Service participant M as 大模型 API C->>G: POST /chat/stream (SSE) G->>S: 转发请求 S->>M: 发起流式调用 loop Token 生成循环 M-->>S: Token Chunk S-->>G: SSE: data: {token} G-->>C: SSE: data: {token} end M-->>S: [DONE] 信号 S-->>G: SSE: data: [DONE] G-->>C: SSE: data: [DONE] C->>C: 关闭 EventSource

关键设计点在于"流式透传"——中间层不应缓冲完整响应再转发，而应逐 Chunk 推送。Spring WebFlux 的响应式模型天然支持这种模式，而传统 Servlet 模型需要借助异步 Servlet 或SseEmitter实现。

三、生产级代码实现：流式调用、背压控制与异常恢复

3.1 基于 WebFlux 的流式调用

@Service public class StreamingLlmService { private final WebClient llmClient; private final TokenMeter tokenMeter; // 构造器注入，省略 public Flux<ServerSentEvent<ChatChunk>> streamChat(ChatRequest request) { return llmClient.post() .uri("/v1/chat/completions") .bodyValue(buildStreamRequest(request)) .retrieve() .bodyToFlux(String.class) .takeUntil(data -> "[DONE]".equals(data)) .map(this::parseChunk) .map(chunk -> ServerSentEvent.<ChatChunk>builder() .data(chunk) .build()) // 背压控制：限制内存中缓冲的 Token 数 .onBackpressureBuffer(64, () -> log.warn("背压缓冲区溢出，丢弃最旧数据"), BufferOverflowStrategy.DROP_OLDEST) .doOnNext(chunk -> { if (chunk.data() != null) { tokenMeter.record(chunk.data().getTokens()); } }) .doOnError(e -> log.error("流式调用异常: {}", e.getMessage())) .doFinally(signal -> log.info("流结束: signal={}", signal)); } }

3.2 Servlet 模式下的 SseEmitter 方案

@RestController @RequestMapping("/api/chat") public class ChatStreamController { private final StreamingLlmService llmService; @GetMapping(value = "/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE) public SseEmitter streamChat(@RequestParam String message) { // 超时设置为 5 分钟，覆盖长文本生成场景 SseEmitter emitter = new SseEmitter(300_000L); llmService.streamChat(new ChatRequest(message)) .subscribe( event -> { try { emitter.send(event); } catch (IOException e) { // 客户端断连，取消上游订阅 emitter.completeWithError(e); } }, emitter::completeWithError, emitter::complete ); // 客户端主动断连时的清理逻辑 emitter.onCompletion(() -> log.info("SSE 连接正常关闭")); emitter.onTimeout(() -> { log.warn("SSE 连接超时"); emitter.complete(); }); return emitter; } }

3.3 异常恢复与重试

public Flux<ServerSentEvent<ChatChunk>> streamWithRetry(ChatRequest request) { return llmService.streamChat(request) // 单个 Chunk 解析失败不中断整个流 .onErrorResume(ParseException.class, e -> { log.warn("Chunk 解析失败，跳过: {}", e.getMessage()); return Flux.empty(); }) // 上游连接断开时，携带上下文重试 .retryWhen(Retry.backoff(3, Duration.ofSeconds(1)) .filter(e -> e instanceof WebClientException) .doBeforeRetry(signal -> log.info( "流式重试: attempt={}", signal.totalRetries())) ); }

四、流式架构的隐性代价：背压、一致性与资源回收

背压控制的精度权衡：onBackpressureBuffer的缓冲区大小直接影响内存占用和延迟。缓冲区过小（如 16）会导致频繁丢数据，客户端看到的文本出现跳跃；缓冲区过大（如 1024）则在高并发场景下内存压力显著。生产环境建议根据下游消费速度动态调整，或采用onBackpressureDrop策略配合客户端重连补全。

SSE 的断连恢复局限：SSE 协议本身不支持断点续传。一旦网络中断，客户端只能重新发起请求，而大模型无法从断点继续生成。工程上可以通过"已生成文本回放"策略缓解——客户端重连时携带已接收的 Token 列表，服务端将其作为上下文前缀重新发起调用。但这会增加 Token 消耗和重复计算成本。

Servlet 模式的线程占用：SseEmitter虽然是异步的，但在 Tomcat 默认配置下仍占用一个 Servlet 线程。当并发流式连接数超过线程池容量时，新请求会被拒绝。WebFlux 基于事件循环模型，单线程可处理数千并发连接，是流式场景的首选方案。

Token 计量的精度问题：流式场景下，Token 计量需要逐 Chunk 累加，而非一次性获取。部分大模型 API 在流式响应中不返回 Token 使用量，只能在流结束后通过单独的 API 查询，增加了计量延迟和一致性风险。

五、总结

大模型流式输出将"等待完整响应"转化为"逐 Token 推送"，本质上是将服务端的生成延迟分散到客户端的渐进渲染中。本文方案的核心链路为：WebFlux 流式调用 → 背压控制 → SSE 推送 → 异常恢复。落地时需重点关注三个参数：SseEmitter 超时时间（建议 5 分钟起）、背压缓冲区大小（建议 64-128）、重试次数（建议 3 次）。推荐优先采用 WebFlux 方案，Servlet 模式仅用于无法升级的技术栈。上线前务必进行断连恢复的混沌测试，验证客户端重连和服务端资源回收的可靠性。

企业官网建设流程全解析