我把91大事件的缓存管理拆给你看：其实一点都不玄学（一条讲透）

V5IfhMOK8g ⋅ 02-28 ⋅ 207 阅读 ⋅ 破解专区

一条讲透：把复杂问题拆成“读优先、写弱化、分层冗余、用策略防踩雷”四步走，缓存从概念变成可落地的工程实践。

先说背景（我设一个常见场景，便于对号入座）

91大事件是个高并发的事件订阅/分发系统：大量用户读同一条事件展示页，同时事件频繁产生、更新或下线；要求读延迟低、成本可控、数据不“黑屏”。
常见痛点：热点 Key 导致的雪崩、缓存穿透、更新一致性难、缓存抖动（TTL 同步过期）、运维监控不足。

下面直接给方案和可执行细节。

总体思路（工程化四步） 1) 读优先：以 cache-aside 为主，尽量让读发生在缓存层； 2) 写弱化：对非强一致场景采用异步写、版本号或事件驱动失效； 3) 分层冗余：local LRU + 分布式 Redis + （必要时）CDN，把不同粒度的请求放到不同层； 4) 防踩雷策略：单flight、互斥重建、随机提前刷新、布隆过滤器等防护手段。

关键点与实现细节（可直接落地）

Key 设计与版本管理

形式化的命名：entity:91:event:{event_id}:v{version}，读写在版本上做文章。
更新时不立即删除旧 key，而是写新版本并让旧版本带软过期（serve-stale）一段时间，避免瞬间失效。
版本号策略：事件有小变更（只改展示）和大变更（数据模式变化）分开，只有大变更才强制版本号跳变。

读流程（推荐实现）

先查本地进程 cache（LRU），没命中再查 Redis（分布式），仍未命中则去 DB。
Redis miss 到 DB 后把结果回写 Redis（cache-aside）。写回时设两层 TTL：硬过期（max TTL）和软过期（refresh threshold）。
如果命中但到达 refresh threshold，触发异步后台刷新（不阻塞当前请求），当前请求继续返回旧值（serve stale）。这样把重建压力平滑化。

防止缓存雪崩 / stampede

单 flight（singleflight）或互斥锁：在短时间内只有一个进程去回源重建 cache，其他请求等待或返回旧数据。
随机化 TTL：比如基础 TTL = 600s，加上 0~60s 随机抖动，避免大规模 key 同时到期。
预防性重建（probabilistic early refresh）：当 key 的剩余寿命小于某个阈值且访问频繁时，按概率提前刷新。

热点 Key 的特殊处理

对热点事件做读写分离：热点数据可放到独立 Redis 分片或内存缓存中，避免影响其他冷数据。
将热点内容拆分成更细粒度（分页、分片、聚合层），避免一个超大对象被频繁刷新。
对极端热点使用限流或后端降级策略（例如返回上一次快照、简单版数据或短期缓存）。

写入与一致性策略

若强一致：使用写穿（write-through）或同步双写，但成本高，延迟敏感时慎用。
常见折中：写入 DB 主库后发异步消息到缓存失效队列（消息 + consumer 去删除或更新缓存），或直接写新版本 key。
使用幂等更新：更新操作附带版本号，避免并发写造成回滚。

防穿透 & 无效请求

布隆过滤器：在 Redis 前用布隆过滤器快速拦截不存在的 event_id，防止频繁查询 DB。
对不存在的 key 缓存空结果但 TTL 很短（例如 60s），减少对 DB 的重复压力。

多级缓存架构举例（从快到慢）

L1：服务内缓存（LRU）——用于极低延迟、频繁访问的小对象。
L2：Redis 集群（主缓存）——大多数场景的命中点。
L3：CDN/边缘缓存（对静态或可长期缓存的展示页）——减轻源站压力。
DB/后端：最终一致性来源。

运维、监控与指标

必备指标：cache hit rate、miss qps、avg latency（各层）、重建时长、重建失败率、热点 key 列表。
告警维度：总命中率下降、单 key 重建频率异常、单实例 Redis 内存接近阈值、失败回源率上升。
Tracing：链路追踪能快速定位是缓存未命中还是后端慢。设置 SLO（例如 95% 请求 < 100ms）并用缓存指标做细分。

灰度和回滚要点（线上演练）

新缓存策略先在小流量或单服务灰度，观测 hit rate / miss 的波动。
回滚策略：保留旧版本 key，变更路径默认支持回退到旧版本；确保消息队列有可重跑性。

两个简单伪代码流程（便于直接编码）

读取（伪代码）

try local_cache.get(key) -> if hit return
val = redis.get(key) -> if hit: if ttl < refreshthreshold and not alreadyrefreshing(key): async refresh(key) return val
acquire singleflight for key -> if winner: val = db.query(key) redis.set(key, val, ttl) release singleflight else wait for winner or return stale/empty

更新（伪代码）

db.update(event)
publish msg to cache-invalidate-topic with eventid and newversion
consumer: on msg -> redis.set(versionedkey, newvalue, ttl) or redis.del(old_key)

常见权衡（一句话提醒）

更强的一致性通常带来更高的延迟与成本；服务可承受的窗口越大，就越能通过异步、版本和 serve-stale 把读压平。

落地清单（可直接复制到你的运维任务单）

规范 key 命名与版本控制策略（完成）
实施本地 LRU + Redis 分层缓存（完成）
加入单 flight 或互斥重建库（完成）
为热点 key 做单独分片/专用缓存（完成）
部署布隆过滤器防穿透（完成）
建立缓存相关 dashboard 与告警（完成）
做灰度发布与故障演练（完成）

结尾（干货结论）缓存不是玄学，是一套工程取舍：把常规读用缓存挡住，把写用版本和异步削峰，把雷区用单flight/布隆/分层来保护。把上述策略按你服务的痛点组合起来，91大事件的缓存问题就能被拆解成一组可测、可控、可演练的步骤。

如果你愿意，我可以把这个方案细化成具体架构图和示例代码（Redis + singleflight + Kafka/消息队列的实现），方便直接落地。

- THE END -

这事儿我忍了很久，今天91网页版让我最破防的一次：原来收藏夹整理才是核心（别说我没提醒）

冷门但很稳：91在线越用越“像”，因为片单规划在收敛（建议反复看）