当前位置：首页 > news >正文

RocketMQ源码级实现原理-消息过滤与重试

news 2025/7/17 6:42:06

消息过滤与重试

What is going to happen when consumer listener returns “RECONSUME_LATER”?

在Consumer的消息消费监听器中，如果抛出来RuntimeException并且你自己没有捕获，那也等同于直接返回了“RECONSUME_LATER”

消费失败时，重试消息的处理逻辑：

注意，最原始的消息为1号消息，是存在程序员自定义的业务topic中的，而一旦1号消息消费失败，会被客户端重新发回broker端

broker端接收到这条发回的消息后，先把1号消息的原业务topic更改为 %RETRY%consumer group，然后将此消息的topic改为SCHEDULE_TOPIC_XXXX，将此消息的属性key为PROPERTY_REAL_TOPIC对应的value中保存 %RETRY%consumer group这个topic，并将这条消息写入commitlog成为2号消息（注意，这里还会把消息的retryTimes + 1）

2号消息存储的topic为SCHEDULE_TOPIC_XXXX，一旦2号消息到达了指定的延迟时间后，会被再次取出成为3号消息，此时将2号消息的属性key为PROPERTY_REAL_TOPIC对应的value中保存的topic值 %RETRY%consumer group取出来，设置为3号消息的topic，并将3号消息重新投递到topic为%RETRY%consumer group对应的队列中去

后续，就可以按照正常的逻辑进行消费了

这里是分为了18个等级，分别对应18个queue，这也就有点类似于kafka中的时间轮，将相同延迟级别的消息放入同一个queue，方便统一管理控制

在kafka中是使用了时间轮，进行了更为精确的时间控制

具体的延迟实现逻辑：

18个延迟级别，分别对应18个ConsumeQueue，并且这18个ConsumeQueue同属于同一个topic：SCHEDULE_TOPIC_XXXX

针对这18个ConsumeQueue，每个都创建了一个专属的延时TimeTask并丢入了一个统一的Timer定时任务实例中，这18个任务初始默认都是1s后执行

每个专属的延时TimeTask的执行逻辑是，

先从delayLevel.json中先加载已有的消费进度，从而得到下一次要消费的offset，通过这个offset去对应的ConsumeQueue中拿到对应的索引条目，从中拿到phyOffset、size、tagHash，
需要注意的是，如果往Commitlog中写入的延时消息时，ReputMessageService会把写入的ConsumeQueue对应的索引条目中tagHash，改写为该延时消息下次要执行的时间对应的时间戳nextExecTimestamp
专属的延时TimeTask拿到该延时消息对应的索引条目的nextExecTimestamp后，与当前时间戳now取一个差值countdown
如果countdown<=0，说明当前消息已经到了需要被消费的时候了，那么就把这个索引条目对应的延时消息从commitlog中取出，并将该消息对应的topic从SCHEDULE_TOPIC_XXXX，改成该延时消息的属性key为PROPERTY_REAL_TOPIC对应的value中保存的topic值 %RETRY%consumer group，然后把改完后的3号消息，重新调用DefaultMessageStore#putMessage()方法，把该三3号消息投入Commitlog，后续就进去了正常的消费逻辑
如果countdown<=0，说明当前消息需要再等countdown毫秒才可以被消费，此时就重新new出一个延时TimeTask并带上offset，然后把这个TimeTask丢入Timer中，指定再等countdown毫秒执行这个TimeTask

注意，这里有一个兜底策略，就是如果每个延迟队列很长时间都没有新消息进来，那么每个延迟队列对应的TimeTask，也会每隔100ms被丢入Timer中一次。具体逻辑就是，该延迟队列的上一个TimeTask执行过程中发现该延迟队列没有新的延迟消息，则会在最后，往timer中丢入一个TimeTask，并指定这个TimeTask在100ms后执行，以此循环往复

消费过滤

Where does RocketMQ filter messages? Broker or Consumer?