一文读懂fgc之cms

news/2025/2/1 3:34:16 标签: jvm, java, 实践

一文读懂 fgc之cms-实战篇

1. 前言

线上应用运行过程中可能会出现内存使用率较高,甚至达到95+仍然不触发fgc的情况,存在内存打满风险,持续触发fgc回收;或者内存占用率较低时触发了fgc,导致某些接口tp99,tp999上升,触发下游系统以及自身系统频繁告警。

java8cms_3">2. java8场景下为什么要使用cms

在Java 8场景下,使用CMS(Concurrent Mark Sweep)收集器的原因主要基于以下几点:

2.1 CMS收集器的设计特性

并发垃圾收集:CMS收集器使用并发线程跟踪可达对象,以减少Major GC(即老年代垃圾收集)带来的暂停时间。它允许应用程序线程和垃圾收集线程在Major GC期间并发运行,从而降低了应用程序的停顿时间。

分代收集:CMS收集器也是基于“代”的收集器,支持Minor GC和Major GC。Minor GC可以与正在进行的Major GC交叉进行,提高了垃圾收集的效率。

两次主要停顿:CMS收集器在GC过程中会有两次短暂的停顿:初始化标记(initial mark pause)和再标记(remark pause)。初始化标记停顿较短,用于标记从GC root能直接访问到的对象;再标记停顿稍长,用于处理并发跟踪阶段中程序线程引用发生变化的对象。

浮动垃圾:由于并发GC期间对象状态可能发生变化,因此会产生浮动垃圾(Floating Garbage)。浮动垃圾的数量取决于并发收集周期的持续时间和应用程序引用更新的频率。可以通过增大老年代空间来缓解浮动垃圾带来的问题。

2.2 CMS收集器的适用场景

需要短暂停顿时间的应用:CMS收集器非常适合那些需要低停顿时间的应用程序,如大型数据应用和多处理器环境下的应用。在这些环境中,CMS收集器能够充分利用多处理器的优势,通过并发执行垃圾收集来降低应用程序的停顿时间。

偏好更短GC暂停时间的应用:对于那些能够忍受GC分享处理器资源,但希望有更短GC暂停时间的应用来说,CMS收集器是一个很好的选择。

2.3 注意事项

并发模式失败:如果CMS收集器无法在老年代满之前完成垃圾收集,或者老年代的可用空间无法满足某次分配操作,那么会发生并发模式失败(Concurrent Mode Failure),导致应用程序线程暂停并完成GC。
此时,可以通过调整CMS收集器的参数来避免并发模式失败。

3. cms触发的时机

这里我们仅介绍配置CMSInitiatingOccupancyFraction参数的场景(一般都会改这个参数的默认值):如果大于阈值(默认92%,阈值参数为CMSInitiatingOccupancyFraction),则进行CMS GC。
那么这里说的阈值是什么呢?指的是老年代被使用的内存空间的阈值。

一定注意,这里说的是老年代被使用的内存空间,我们通过jvm监控一般看到的都是整个堆内存的占比,所以通过这个监控看到的fgc数据可能与CMSInitiatingOccupancyFraction设定不一致。这里我们可以结合精细化的监控来分析。

举个例子,在8C16G的机器上,假设堆内存为10000M,新生代为5000M,元空间为500M(元空间使用本地内存(即操作系统的内存),而不是堆内存,因此它的大小不再受限于JVM的堆内存设置。元空间主要用于存放类的元数据信息,包括类的名称、成员变量、方法等信息)。那么老年代大概就是5000M,如果设置了-XX:CMSInitiatingOccupancyFraction=75。结合上文,触发fgc的一种场景就是老年代占用达到3750M左右。

4. 如何根据运行情况调整fgc触发的时机

这里我们仅介绍CMSInitiatingOccupancyFraction作用的场景。如果我们设定了-XX:CMSInitiatingOccupancyFraction=75,可以观察一段时间线上应用的jvm监控。执行fgc时,如果堆内存整体使用率较低,这时我们可以适当增大CMSInitiatingOccupancyFraction延迟fgc触发的时机再观察调整,比如先增加到80;如果堆内存整体使用率较高,或使用率较高时仍不触发fgc,那么就需要考虑减小CMSInitiatingOccupancyFraction以加快fgc触发的时机,比如先调到70。

5. 一切的理论都要基于实践进行验证

大部分开发者可能在部署时很少关注jvm参数,或者关注的较少,大都其他地复制直接使用。但是线上运行场景繁杂,统一的参数并不能满足所有的场景。这时我们就需要结合实际的监控 + 理论来不断的调整,直到应用达到最佳运行状态。比如调整增大堆内存以延缓gc,增大新生代以减少ygc从而提高tp999,调整CMSInitiatingOccupancyFraction适配。
我负责有个toC的大流量应用,在过年期间出现流量升高,tp999上升,部分扩容后只是短暂缓解了问题,考虑随意扩容可能造成机器过度浪费,于是先降低限流值保障稳定的同时寻求其他方案。观察tp999上升的机器,可以发现jvm监控数据都出现了多次的ygc,于是考虑用一个分组来实验,调整新生代大小来降低ygc的频率。实验运行一段时后果然tp999稳定了很多,于是逐步灰度到全量的机器,保障了线上接口的稳定性。


http://www.niftyadmin.cn/n/5838986.html

相关文章

SQL99之内连接查询

SQL99是SQL语言的一个标准,于1999年发布。内连接查询是SQL中非常常用的一种查询方式,用于根据指定的条件从两个或多个表中获取相关联的数据。下面将详细介绍SQL99中的内连接查询,并以通熟易懂的语言进行讲解,同时给出代码例子、注…

(java) IO流

学习IO流之前,我们需要先认识file对象,帮助我们更好的使用IO流 1.1 file 作用:关联硬盘上的文件 写法: File(String path); (推荐)File(String parent, String child); //由父级路径,再子级路径拼接而成File(File p…

QEMU 和 GDB 调试 Linux 内核

使用 QEMU 和 GDB 调试 Linux 内核是一种非常强大的方法,可以帮助开发人员调试和分析内核的行为。下面将详细介绍如何设置和使用 QEMU 和 GDB 来调试 Linux 内核。 环境准备 ::: tip 系统环境 22.04.3-Ubuntugcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0GNU gdb (U…

数学建模算法汇总(全网最全,含matlab案例代码)

数学建模常用的算法分类 全国大学生数学建模竞赛中,常见的算法模型有以下30种: 最小二乘法数值分析方法图论算法线性规划整数规划动态规划贪心算法分支定界法蒙特卡洛方法随机游走算法遗传算法粒子群算法神经网络算法人工智能算法模糊数学时间序列分析马…

PyTorch 与 Python 版本对应关系

PyTorch 支持多个 Python 版本,但不同版本的 PyTorch 可能对 Python 版本有不同的要求。一般来说: PyTorch 与 Python 版本对应关系 PyTorch 版本支持的 Python 版本2.2.x3.8 - 3.122.1.x3.8 - 3.112.0.x3.8 - 3.101.13.x3.7 - 3.101.12.x3.7 - 3.101.…

7层还是4层?网络模型又为什么要分层?

~犬📰余~ “我欲贱而贵,愚而智,贫而富,可乎? 曰:其唯学乎” 一、为什么要分层 \quad 网络通信的复杂性促使我们需要一种分层的方法来理解和管理网络。就像建筑一样,我们不会把所有功能都混在一起…

举例说明python单利模式的必要性

单例模式的核心目的是确保一个类只有一个实例,并提供一个全局访问点来获取这个实例。这种设计模式在某些场景下非常必要,尤其是在需要严格控制资源访问、共享状态或配置管理的场景中。下面通过几个具体的例子来说明Python中单例模式的必要性。 1. 数据库…

python-leetcode-填充每个节点的下一个右侧节点指针 II

117. 填充每个节点的下一个右侧节点指针 II - 力扣(LeetCode) """ # Definition for a Node. class Node:def __init__(self, val: int 0, left: Node None, right: Node None, next: Node None):self.val valself.left leftself.r…