需求拆解与数据观测：高并发技术产品的 DAU 观测体系与看板设计-迪斯科星球

需求拆解与数据观测：高并发技术产品的 DAU 观测体系与看板设计

前言

之前在负责一个B端协同平台，产品经理拿着竞品分析报告冲进技术评审会："人家DAU是我们3倍，我们必须在Q2赶上！"

我打开后台看了一眼——我们的API网关日均处理8000万次请求，峰值QPS超过2万。但问题是，我们根本说不清楚这些请求里，哪些是用户主动行为、哪些是定时任务轮询、哪些是爬虫。

这就是B端高并发产品做DAU分析最头痛的难题：流量大不代表用户多，用户多不代表活跃，活跃不代表健康。

这篇文章分享一下我搭建的B端产品DAU观测体系，包含实时数据处理管道和监控告警的完整代码实现。

一、从需求到指标：DAU拆解方法论

B端产品的DAU不能简单地"日活 = 去重用户数"。我设计了一套三层拆解模型：

层	指标	口径	业务含义
L1 流量层	原始DAU	API去重UserID	系统访问规模
L2 行为层	有效DAU	排除轮询/爬虫后的用户数	真实活跃用户
L3 价值层	核心DAU	完成≥1个核心业务动作的用户	产品价值交付

笔者的经验：B端产品的**"有效DAU"和"核心DAU"之比通常在3:1到5:1之间**。如果这个比例超过10:1，说明产品存在大量"僵尸活跃"——用户被强制登录但没有真正使用产品。

二、实时数据处理管道

为了实现分钟级的DAU观测，我用Go搭建了一个实时数据处理管道：

package main import ( "context" "encoding/json" "fmt" "log" "time" "github.com/redis/go-redis/v9" ) type UserEvent struct { UserID string `json:"user_id"` Action string `json:"action"` Timestamp int64 `json:"timestamp"` Source string `json:"source"` // api, sdk, cron, crawler IsCore bool `json:"is_core"` } type DAUMonitor struct { rdb *redis.Client ctx context.Context } func NewDAUMonitor(addr string) *DAUMonitor { rdb := redis.NewClient(&redis.Options{Addr: addr}) return &DAUMonitor{ rdb: rdb, ctx: context.Background(), } } // ProcessEvent 实时处理用户事件,更新各层DAU计数器 func (m *DAUMonitor) ProcessEvent(event UserEvent) error { today := time.Now().Format("2006-01-02") pipe := m.rdb.Pipeline() // L1: 原始DAU - 简单的HyperLogLog去重 pipe.PFAdd(m.ctx, fmt.Sprintf("dau:raw:%s", today), event.UserID) // L2: 有效DAU - 排除非人类流量 if event.Source != "crawler" && event.Source != "cron" { pipe.PFAdd(m.ctx, fmt.Sprintf("dau:valid:%s", today), event.UserID) } // L3: 核心DAU - 只计核心业务动作 if event.IsCore { pipe.PFAdd(m.ctx, fmt.Sprintf("dau:core:%s", today), event.UserID) } _, err := pipe.Exec(m.ctx) return err } // GetDAUReport 获取当前DAU快照 func (m *DAUMonitor) GetDAUReport() (map[string]int64, error) { today := time.Now().Format("2006-01-02") report := make(map[string]int64) keys := []string{"dau:raw", "dau:valid", "dau:core"} for _, key := range keys { count, err := m.rdb.PFCount(m.ctx, fmt.Sprintf("%s:%s", key, today)).Result() if err != nil { return nil, err } report[key] = count } return report, nil }

这个管道的核心设计思路：

HyperLogLog去重：Redis的PFAdd/PFCount能在极低内存消耗下完成海量去重，12KB内存就能支持亿级去重，误差控制在0.81%以内
三层计数器：分别追踪原始、有效、核心DAU，避免单一指标误导
管道批量写入：使用Pipeline减少Redis网络往返，单机可以支撑10万+ QPS

三、监控告警：当DAU异常时第一时间知道

DAU监控不能等第二天再看报表。我实现了一套滑动窗口告警系统，在DAU出现异常波动时实时通知：

import time import statistics from collections import deque class SlidingWindowDAUAlert: def __init__(self, window_size=7, z_threshold=3.0): self.window_size = window_size self.z_threshold = z_threshold self.history = deque(maxlen=window_size) def feed(self, dau_value): self.history.append(dau_value) if len(self.history) < self.window_size: return None mean = statistics.mean(self.history) stdev = statistics.stdev(self.history) if len(self.history) > 1 else 0 if stdev == 0: return None z_score = (dau_value - mean) / stdev if abs(z_score) > self.z_threshold: direction = "飙升" if z_score > 0 else "暴跌" severity = "严重" if abs(z_score) > 5 else "警告" return { "level": severity, "message": f"DAU {direction}！当前值: {dau_value}, " f"均值: {mean:.0f}, Z-Score: {z_score:.2f}", "z_score": z_score, "timestamp": time.strftime("%Y-%m-%d %H:%M:%S") } return None alert_system = SlidingWindowDAUAlert(window_size=7, z_threshold=2.5) # 模拟实时DAU数据流 dau_stream = [8520, 8610, 8430, 8790, 8550, 8490, 8620, 8570, 12100, 8510] for dau in dau_stream: alert = alert_system.feed(dau) if alert: print(f"[{alert['level']}] {alert['message']}") # 输出: [警告] DAU 飙升！当前值: 12100, 均值: 8582, Z-Score: 4.81

为什么用Z-Score而不是固定阈值？因为B端产品的DAU有天然的周期波动——工作日高、周末低、月初更高、月末回调。固定阈值会导致大量误报，而Z-Score能自动适应基线变化。

四、从观测到行动

数据不会自己解决问题，观测体系的最终目的是指导决策。我们在实践中沉淀了三条经验：

核心DAU下降比原始DAU上涨更值得关注。原始DAU涨1000可能只是爬虫变多了，但核心DAU跌100说明产品价值传递出了问题。
结合跳出率交叉验证。DAU高但跳出率>70%，说明用户被"骗"进来了但没找到价值——这是产品引导的问题，不是流量的问题。
告警要分级。Z-Score 2.5-5发企业微信通知给值班人，Z-Score >5直接电话叫醒负责人。不要让工程师对告警产生"狼来了"的麻木感。

这套体系上线后，我们曾成功预警过一次核心DAU的异常下跌——原因是某个核心接口因升级导致超时率飙升到30%。从告警触发到问题定位，只用了11分钟。

如果你也在做B端产品的可观测性建设，欢迎聊聊你们的DAU口径是怎么定义的。

企业官网建设流程全解析