分布式事务反直觉陷阱：从 2PC 到 Saga 的选型与踩坑实录-迪斯科星球

分布式事务反直觉陷阱：从 2PC 到 Saga 的选型与踩坑实录

一、分布式事务的"正确性幻觉"

分布式事务的理论基础看似完备：2PC 保证原子性，Paxos/Raft 保证共识，隔离级别定义了并发语义。但在生产环境中，分布式事务的正确性远比理论描述的脆弱。原因在于：理论假设网络可靠、时钟同步、节点不崩溃，而现实是网络分区、时钟漂移、GC 停顿随时发生。

某次生产事故：订单服务调用支付服务扣款，使用 2PC 协议。支付服务的 Coordinator 在 Prepare 阶段成功后、Commit 阶段前发生 Full GC，停顿 12 秒。订单服务的事务超时回滚，但支付服务已 Prepare 成功，持有行锁不释放。其他事务等待该锁，形成级联阻塞，最终 2000 个事务超时回滚。

核心痛点：2PC 的阻塞特性使其在任何参与者故障时都会持有锁资源，形成系统性的可用性风险。而 Saga 虽然避免了阻塞，但补偿操作的语义正确性难以保证——不是所有操作都能完美回滚。

二、2PC 与 Saga 的执行模型对比

sequenceDiagram participant App as 应用层 participant C as Coordinator participant P1 as 参与者 1 (订单) participant P2 as 参与者 2 (支付) Note over App,P2: 2PC 流程 App->>C: 开启事务 C->>P1: Prepare P1-->>C: Prepared (持有锁) C->>P2: Prepare P2-->>C: Prepared (持有锁) Note over C: Coordinator GC 停顿 12s App->>C: 事务超时 C->>P1: Rollback C->>P2: Rollback Note over P1,P2: 锁释放，但期间其他事务被阻塞 rect rgb(255, 243, 224) Note over App,P2: Saga 流程 App->>P1: T1: 创建订单 P1-->>App: 成功 App->>P2: T2: 扣款 P2--xApp: 失败 App->>P1: C1: 取消订单（补偿） P1-->>App: 补偿成功 end

2.1 2PC 的阻塞问题

2PC 的 Prepare 阶段要求所有参与者将事务状态持久化并持有锁，直到 Coordinator 发出 Commit 或 Rollback。如果 Coordinator 故障，参与者必须等待 Coordinator 恢复才能释放锁。这就是 2PC 的"阻塞点"——一个节点的故障可以阻塞整个系统。

2.2 Saga 的补偿问题

Saga 将长事务拆分为多个本地事务，每个本地事务提交后立即释放锁。如果某个步骤失败，执行之前步骤的补偿操作。但补偿操作的语义正确性是核心挑战：

不可逆操作：支付退款可能因银行限制而失败。
补偿期间的新数据：订单取消后，用户又发起了退款申请。
补偿的幂等性：网络超时导致补偿操作重复执行。

三、生产级 Saga 实现与补偿设计

3.1 Saga 编排器

import uuid import logging from enum import Enum from typing import Callable, List, Dict, Any, Optional from dataclasses import dataclass, field from datetime import datetime class SagaStepStatus(Enum): PENDING = "pending" EXECUTING = "executing" COMPENSATING = "compensating" DONE = "done" FAILED = "failed" @dataclass class SagaStep: """Saga 步骤定义""" name: str execute: Callable[[], Any] # 正向操作 compensate: Callable[[Any], Any] # 补偿操作 status: SagaStepStatus = SagaStepStatus.PENDING execute_result: Any = None # 正向操作结果，传给补偿操作 max_retries: int = 3 # 最大重试次数 retry_count: int = 0 @dataclass class SagaExecution: """Saga 执行实例""" saga_id: str = field(default_factory=lambda: str(uuid.uuid4())) steps: List[SagaStep] = field(default_factory=list) current_step: int = 0 is_compensating: bool = False created_at: datetime = field(default_factory=datetime.utcnow) class SagaOrchestrator: """ Saga 编排器：管理分布式事务的正向执行和补偿回滚。 为什么用编排模式而非协调模式： 编排模式中，中心编排器控制流程，逻辑清晰、易调试； 协调模式中，各服务通过事件通信，耦合低但调试困难。 生产环境优先选择可调试性。 """ def __init__(self, state_store: 'SagaStateStore'): self.state_store = state_store self.executions: Dict[str, SagaExecution] = {} def define_saga(self) -> str: """创建新的 Saga 实例""" execution = SagaExecution() self.executions[execution.saga_id] = execution return execution.saga_id def add_step( self, saga_id: str, name: str, execute: Callable, compensate: Callable, max_retries: int = 3 ): """添加步骤到 Saga""" step = SagaStep( name=name, execute=execute, compensate=compensate, max_retries=max_retries ) self.executions[saga_id].steps.append(step) def execute(self, saga_id: str) -> Dict: """ 执行 Saga：依次执行各步骤，失败时触发补偿。 返回执行结果摘要。 """ execution = self.executions[saga_id] # 持久化初始状态：确保崩溃后可恢复 self.state_store.save(execution) for i, step in enumerate(execution.steps): execution.current_step = i step.status = SagaStepStatus.EXECUTING self.state_store.save(execution) try: step.execute_result = self._execute_with_retry( step.execute, step.max_retries ) step.status = SagaStepStatus.DONE self.state_store.save(execution) logging.info( f"Saga {saga_id} 步骤 {step.name} 执行成功" ) except Exception as e: step.status = SagaStepStatus.FAILED logging.error( f"Saga {saga_id} 步骤 {step.name} 执行失败: {e}" ) # 触发补偿 self._compensate(execution, i) return { 'saga_id': saga_id, 'status': 'compensated', 'failed_step': step.name, 'error': str(e) } return { 'saga_id': saga_id, 'status': 'completed', 'steps_completed': len(execution.steps) } def _execute_with_retry( self, fn: Callable, max_retries: int ) -> Any: """ 带重试的执行。 为什么需要重试：网络抖动导致的临时故障， 重试可覆盖大部分瞬时错误。 为什么限制重试次数：避免无限重试耗尽资源， 超过重试次数说明是持久性故障，需要补偿。 """ last_error = None for attempt in range(max_retries): try: return fn() except Exception as e: last_error = e logging.warning( f"执行失败 (第 {attempt + 1}/{max_retries} 次): {e}" ) raise last_error def _compensate( self, execution: SagaExecution, failed_from: int ): """ 执行补偿：从失败步骤的前一步开始，逆序执行补偿操作。 为什么逆序：后执行的步骤依赖先执行的步骤， 补偿时必须先撤销后执行的步骤，再撤销先执行的步骤。 """ execution.is_compensating = True self.state_store.save(execution) for i in range(failed_from - 1, -1, -1): step = execution.steps[i] step.status = SagaStepStatus.COMPENSATING self.state_store.save(execution) try: # 补偿操作也需重试和幂等保证 self._execute_with_retry( lambda s=step: s.compensate(s.execute_result), step.max_retries ) step.status = SagaStepStatus.FAILED # 已补偿 logging.info( f"Saga {execution.saga_id} 步骤 {step.name} 补偿成功" ) except Exception as e: # 补偿失败：需要人工介入 logging.critical( f"Saga {execution.saga_id} 步骤 {step.name} " f"补偿失败: {e}, 需人工介入" ) self.state_store.mark_for_manual_intervention( execution.saga_id, step.name, str(e) ) break self.state_store.save(execution) class SagaStateStore: """ Saga 状态持久化存储。 为什么需要持久化：编排器崩溃后需要恢复 Saga 状态， 继续执行未完成的步骤或补偿。 """ def save(self, execution: SagaExecution): """持久化 Saga 执行状态""" # 生产实现：写入数据库，保证原子性 pass def mark_for_manual_intervention( self, saga_id: str, step_name: str, error: str ): """标记需要人工介入的补偿失败""" # 写入告警表，触发运维通知 pass def recover_unfinished(self) -> List[SagaExecution]: """恢复未完成的 Saga 实例""" # 启动时扫描状态表，找出未完成的 Saga pass

3.2 幂等补偿的关键设计

# 订单服务的幂等补偿示例 class OrderCompensation: """订单补偿操作：必须幂等，防止重复执行""" def __init__(self, order_repo): self.order_repo = order_repo def cancel_order(self, execute_result: dict) -> dict: """ 取消订单的补偿操作。 为什么必须幂等：网络超时可能导致编排器重试补偿， 如果补偿不是幂等的，重复执行会产生错误结果。 """ order_id = execute_result['order_id'] # 幂等检查：如果订单已经是取消状态，直接返回成功 order = self.order_repo.get(order_id) if order is None or order.status == 'CANCELLED': return {'order_id': order_id, 'status': 'already_cancelled'} # 业务约束：已发货的订单不能直接取消 # 为什么需要业务约束：补偿不是简单的"撤销"， # 必须考虑业务状态机，避免补偿导致数据不一致 if order.status == 'SHIPPED': # 触发退货流程而非直接取消 return self._initiate_return(order) order.status = 'CANCELLED' order.cancelled_at = datetime.utcnow() self.order_repo.save(order) return {'order_id': order_id, 'status': 'cancelled'} def _initiate_return(self, order) -> dict: """已发货订单走退货流程""" return { 'order_id': order.id, 'status': 'return_initiated', 'note': '订单已发货，补偿转为退货流程' }

四、分布式事务方案的架构权衡

4.1 2PC vs Saga vs TCC 对比

维度	2PC	Saga	TCC
隔离性	强（持有锁）	弱（无锁）	中（Try 预留资源）
可用性	低（阻塞）	高（非阻塞）	中（Try 可能失败）
实现复杂度	低	中	高（需实现 Try/Confirm/Cancel）
补偿语义	自动回滚	业务补偿	业务补偿
性能	低（锁等待）	高（无锁）	中（预留开销）

4.2 Saga 的"脏读"问题

Saga 在步骤间不持有锁，中间状态对其他事务可见。例如：订单创建成功、支付尚未完成时，其他事务可能读到"已创建但未支付"的订单。解决方案：在业务层增加状态机约束，未完成的 Saga 步骤对应的数据标记为"处理中"，其他事务根据业务规则决定是否可读。

4.3 适用边界

场景	推荐方案	原因
强一致性要求（金融）	2PC / TCC	隔离性保证
最终一致性可接受（电商）	Saga	可用性优先
长事务（秒级以上）	Saga	2PC 锁持有时间过长
跨公司事务	Saga	无法要求对方实现 TCC

五、总结

分布式事务没有银弹。2PC 的强一致性以可用性为代价，Saga 的高可用性以隔离性为代价。选型的核心依据是业务对一致性和可用性的优先级。

落地路线建议：第一步，梳理业务中的分布式事务场景，按一致性要求分级；第二步，对强一致性场景使用 2PC（配合超时和死锁检测），对最终一致性场景使用 Saga；第三步，为所有补偿操作设计幂等和业务约束，确保补偿的语义正确性；第四步，部署 Saga 状态持久化和恢复机制，确保编排器崩溃后事务可继续。对于补偿失败的场景，必须有告警和人工介入通道，这是分布式事务的最后防线。

企业官网建设流程全解析