你知道吗?Pulsar 也会重复消费?

开发 后端
最近帮同事一起排查了一个问题:在使用 Pulsar 消费时,发生了同一条消息反复消费的情况。

背景

许久没有分享 Java 相关的问题排查了,最近帮同事一起排查了一个问题:

在使用 Pulsar 消费时,发生了同一条消息反复消费的情况。

排查

当他告诉我这个现象的时候我就持怀疑态度,根据之前使用的经验 Pulsar 在官方文档以及 API 中都解释过:

只有当设置了消费的 ackTimeout 并超时消费时才会重复投递消息,默认情况下是关闭的,查看代码也确实没有开启。

那会不会是调用了 negativeAcknowledge() 方法呢(调用该方法也会触发重新投递),因为我们使用了一个第三方库 https://github.com/majusko/pulsar-java-spring-boot-starter 只有当抛出异常时才会调用该方法。

查阅代码之后也没有地方抛出异常,甚至整个过程中都没看到异常产生;这就有点诡异了。

复现

为了捋清楚整个事情的来龙去脉,详细了解了他的使用流程;

其实也就是业务出现了 bug,他在消息消费时 debug 然后进行单步调试,当走完一次调试后,没多久马上又收到了同样的消息。

但奇怪的是也不是每次 debug 后都能重复消费,我们都说如果一个 bug 能 100% 完全复现,那基本上就解决一大半了。

所以我们排查的第一步就是完全复现这个问题。

为了排除掉是 IDEA 的问题(虽然极大概率不太可能)既然是 debug 的时候产生的问题,那其实转换到代码也就是 sleep 嘛,所以我们打算在消费逻辑里直接 sleep 一段时间看能否复现。

经过测试,sleep 几秒到几十秒都无法复现,最后索性 sleep 一分钟,神奇的事情发生了,每次都成功复现!

既然能成功复现那就好说了,因为我自己的业务代码也有使用到 Pulsar 的地方,为了方便调试就准备在自己的项目里再复现一次。

结果诡异的事情再次发生,我这里又不能复现了。

虽然这才是符合预期的,但这就没法调了呀。

本着相信现代科学的前提,我们俩唯一的区别就是项目不一样了,为此我对比了两边的代码。

  @PulsarConsumer(
topic = xx,
clazz = Xx.class,
subscriptionType = SubscriptionType.Shared
)
public void consume(Data msg) {
log.info("consume msg:{}", msg.getOrderId());
Lock lock = redisLockRegistry.obtain(msg.getOrderId());
if (lock.tryLock()) {
try {
orderService.do(msg.getOrderId());
} catch (Exception e) {
log.error("consumer msg:{} err:", msg.toString(), e);
} finally {
lock.unlock();
}
}

}

结果不出所料,同事那边的代码加了锁;一个基于 Redis 的分布式锁,这时我一拍大腿不会是解锁的时候超时了导致抛了异常吧。

为了验证这个问题,在能复现的基础上我在框架的 Pulsar 消费处打了断点:

果然破案了,异常提示已经非常清楚了:加锁已经过了超时时间。

进入异常后直接 negative 消息,同时异常也被吃掉了,所以之前没有发现。

查阅了 RedisLockRegistry 的源码,默认超时时间正好是一分钟,所以之前我们 sleep 几十秒也无法复现这个问题。

总结

事后我向同事了解了下为啥这里要加锁,因为我看下来完全没有加锁的必要;结果他是因为从别人那里复制的代码才加上的,压根没想那么多。

所以这事也能得出一些教训:

  • ctrl C/V 虽然方便,但也得充分考虑自己的业务场景。
  • 使用一些第三方 API 时,需要充分了解其作用、参数。
责任编辑:姜华 来源: 今日头条
相关推荐

2023-12-20 08:23:53

NIO组件非阻塞

2023-12-12 08:41:01

2023-04-26 10:21:04

2022-12-12 08:17:29

2022-06-24 08:20:04

CAP网络通信

2024-01-09 07:29:05

Argo代码库应用程序

2017-10-16 13:45:04

2019-12-12 09:23:29

Hello World操作系统函数库

2021-02-02 08:21:28

网络面试通信

2022-03-10 08:25:27

JavaScrip变量作用域

2019-06-14 15:36:13

Windows 10安全PC

2021-12-08 07:31:40

Linux安全病毒

2020-10-28 11:20:55

vue项目技

2022-05-27 08:55:15

工具自动化软件

2021-02-20 08:21:18

Hive动态分区

2019-01-07 13:01:08

Linux惊叹用法命令

2016-11-22 15:43:13

机房制冷发展史

2017-12-25 09:30:00

互联网视频流量耗费成本

2022-10-11 08:14:14

多线程锁机制

2020-11-18 07:52:08

点赞
收藏

51CTO技术栈公众号