深入理解JVM1-1-自动内存管理-Java内存区域与内存溢出异常

2022-03-11 JVM PV:

Java内存区域与内存溢出异常

运行时数据区域

Java虚拟机在执行Java程序的过程中会把管理的内存划分为若干个不同的数据区域。

具体如下图。

Java虚拟机运行时数据区

Java堆

Java堆（Java Heap）是虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域，在虚拟机启动时启动。此内存区域的唯一目的就是存放内存实例，Java世界里几乎所有的对象实例都在这里分配。

Java堆是垃圾收集器管理的内存区域，因此其也被称为GC堆。从内存回收的角度来看，由于现代垃圾收集器大部分都基于分代收集理论，所以Java堆中经常出现“新生代”，“老年代”，“永久代”，“Eden空间”，“From Survivor空间”，“To Survivor空间”等名词。

方法区（非-堆）

方法区（Method Area）与Java堆一样，是各个线程共享的内存区域，它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译后的代码缓存等数据。虽然《Java虚拟机规范》中把方法区描述为堆的一个逻辑部分，但是它却又一个别名叫做“非堆”（Non-Heap），目的是与Java堆区分开来。

Java虚拟机栈（线程私有）

Java虚拟机栈（Java Virtual Machine Stack）也是线程私有的，它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的线程内存模型：每个方法被执行的时候，Java虚拟机都会同步创建一个栈帧（Stack Frame）用于存储局部变量表、操作数栈、动态连接、方法出口等信息。每个方法被调用直至执行完毕的过程，就对应着一个栈帧在虚拟机栈中从入栈到出栈的过程。

而局部变量存放了编译器可知的各种Java虚拟机基本数据库类型（boolean、byte、char、short、int、float、long、double）、对象引用（reference类型，它并不等于对象本身，可能是一个指向内存起始地址的引用指针，也可能是指向一个代码对象的句柄或者其他与此对象相关的位置）和returnAddress类型（指向了一条字节码指令的地址）

本地方法栈

本地方法栈（Native Method Stacks）与虚拟机栈所发挥的作用非常相似，且u别是虚拟机栈为悉尼及执行Java方法（也就是字节码）服务，而本地方法栈则是为虚拟机使用到本地（Native）方法服务。

程序计数器（线程私有）

程序计数器（Program Counter Register）是一块较小的内存，它可以看作是当前线程所执行的字节码的行号指示器。在Java虚拟机的概念模型里，字节码解释器工作时就是通过改变这个计数器的值来选取下一条要执行的字节码指令，它是程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。

值得注意的是：只有当线程执行的是Java方法的时候，这个计数器才记录正在执行的虚拟机字节码指令的地址；如果执行的是原生（Native）方法，这个计数器就为空。

运行常量池

运行时常量池（Running Constant Pool）是方法区的一部分。class文件中除了有类的版本、字段、接口等描述信息外，还有一项信息是常量池表（Constant Pool Tables），用于存放编译期间生成的各种字面量与符号引用，这部分内容将在类加载后存放到方法区的运行时常量池中。

运行时常量池相对于Class文件常量池的另外一个重要特征是具备动态性，Java语言并不要求常量一定只有编译期才能产生，也就是说，并非预置入Class文件中常量池的内容才能进入运行时常量池，运行期间也可以将新的常量放入池中。这种特性被开发人员用得最多的便是String类的intern()方法

直接内存

直接内存（Direct Memory）并不是虚拟机运行时数据区的一部分，也不是《Java虚拟机规范》中定义的内存区域。但也被频繁使用，而且也可能导致OutOfMemoryError异常。

在JDK1.4中新加入了NIO（New Input/Output）类，引用了一种基于通道（Channel）与缓冲区（Buffer）的I/O方式。它可以使用Native函数库直接分配堆外内存，然后通过一个存储在Java堆里面的DirectByteBuffer对象作为这块内存的引用进行操作。这样能在一些场景中显著提升性能，因为避免了在Java堆和Native堆中来回复制数据。

直接内存不会受到Java堆大小的限制，但是也会受到物理机内存的限制。

HotSpot虚拟机

下面简单陈述一下HotSpot虚拟机在Java堆中对象分配、布局和访问的过程。

对象的创建

当虚拟机遇到一条字节码new指令时，会经历一下步骤：

检查这个指令的参数是否能在常量池定位到一个类的符号引用。
- 如果能够定位到，则检查这个符号引用代表的类是否已被加载、解析和初始化过。
- 如果没有则必须先执行响应的类加载过程
在类加载通过后，接下来虚拟机将为新生对象分配内存。对象所需的内存大小在类加载完成后便可以完全确定。为对象分配空间的任务实际上便等同于把一块确定大小的内存块从Java堆中划分出来。
- 一般在内存分配的时候可能会存在多种方案，例如，假如堆中所有被分配的内存都在一侧，而没分配的内存在另一侧，那分配的时候只需要将指针向空闲方向挪动一定距离，这种分配方式被称为指针碰撞。但如果不是分侧分开的，那就需要虚拟机维护一个列表，记录哪些内存是可用的，再分配的时候将对应的位置划分给实例对象，然后更新记录表。
- 另外在内存分配的时候还可能会遇到冲突的问题，如不同的线程对相同内存区域的划分问题。针对这种问题，一般有两种方案:
  - 对分配内存空间的动作同步处理-实际上虚拟机是采用CAS配上失败重试的方式更新线程操作的原子性。
  - 把内存分配的动作按照线程划分在不同的空间之中进行，即每个线程在Java堆中预先分配一小块内存，称为本地线程分配缓冲（Thread Local Allocation Buffer，ATLAB）哪个线程要分配内存，就在哪个线程的本地缓冲区中分配，只有本地缓冲区用完了，分配新的缓冲区时才需要同步锁。
内存分配完之后，虚拟机必须将分配到的内存空间（不包括对象头）都初始化为零值，如果使用了TLAB的话，这一项工作也可以提前至TLAB分配时新婚便进行。
接下来虚拟机还要对对象进行必要的设置，例如这个对象是哪个类的实例、如何才能找到类的元信息、对象哈希码、对象的GC分代年龄等信息。这些信息会被存放在对象头（Object Header）中。
在上面的工作完成之后，在虚拟机的视角来看，一个新的对象已经产生了。但从Java程序的视角来看，对象创建才刚刚开始-构造函数，即Class文件中的<init>()方法还没有执行。所有的字段都默认为零值，对象需要的其他资源和状态信息也还没按照预定的意图构造好。

对象的内存布局

在HotSpot虚拟机中，对象在堆内存中的存储布局可以划分为三个部分：

对象头（Header）
实例数据（Instance Data）
对齐填充填充（padding）

对象头

HotSpot虚拟机对象的对象头部分包括两类信息。

第一类是用于存储对象自身的运行时数据，如哈希、GC分代年龄、所状态标志、线程持有的锁、偏向线程的ID、偏向时间戳等，这部分数据的长度在32位和64位的虚拟机中（未开启压缩指针）中分别为32比特和64比特，官方称之为“Mark Word”。由于对象需要存储的信息有很多，其已经超出了对应头部的长度，所以其还设置了标志位，用来标志相同位置可能存放的不同类型的信息。

另一类信息是类型指针，即对象指向它的类型元数据的指针，Java虚拟机通过这个指针来确定该对象是哪个类的实例。但并不是所有的虚拟机实现都必须在对象数据上保留类型指针，换句话说，查找对象的元数据信息并不一定要经过对象本身。此外如果对象是一个Java数据，那么在对象头重还必须有一块用于记录数组长度的数据，因为虚拟机可以通过普通Java对象的元数据信息确定Java对象的大小，但数据的长度是不确定的，将无法通过元数据重的信息推断出数据的大小。

实例数据

实例数据部分是对象真正存储的有效信息。即程序中所定义的各种类型的字段内容，无论是从父类继承下来的，还是在父类中定义的字段都必须记录起来。这部分的顺序会受到虚拟机分配策略参数（-XX:FieldAllocationStyle参数）和字段在源码中定义的顺序的影响。HotSpot虚拟机默认的分配顺序为long/double、int、short/char、byte/boolean、oops(Ordinary Object Pointers)。从上面默认的分配策略中可以看出，相同宽度的字段总是被分配到一起存放，在满足这个前提条件的情况下，在父类中定义的变量会出现在子类之前。

对齐填充

对象的第三部分是对其填充，这并不是必然存在的，也没有特别的含义，它仅仅起着占位符的作用。由于HotSpot虚拟机的自动对其内存管理系统要求对象的起始地址必须是8字节的整倍数，换句话说就是任何对象的大小都必须是8字节的整倍数。对象头已经被设计为8字节的倍数，因此，如果对象实例数据部分没有对其的话，就需要通过对其填充来补全。

对象的访问定位

创建对象是为了后续使用该对象，我们的Java程序会通过栈上的reference数据来操作堆上的具体对象。由于《Java虚拟机规范》里面只规定了它是一个指向对象的引用，没有定义这个引用应该通过什么方式去定位、访问到堆中的对象的具体位置，所以对象访问方式也是由虚拟机实现的，主流的访问方式主要有使用句柄和直接指针两种：

如果使用访问句柄的话，Java堆中将会划分出一部分内存作为句柄池，reference中存储的就是对象的句柄地址，而句柄中包含了对象实例数据和类型数据各自具体的地址信息（原理如图）。
如果使用直接指针访问的话，Java堆中对象的内存布局就必须考虑如何放置访问类型数据的相关信息reference中存储的直接就是对象地址，如果只是访问对象本身的话，就不需要多一次间接访问的开销（原理如图）。

这两种对象访问方式各有优势：

使用句柄来访问的最大好处就是reference中存储的是稳定的句柄，在对象被移动的时候（垃圾收集时移动对象是非常普遍的行为）时只会改变句柄的实例数据指针，而reference本身不需要修改。
使用直接指针来访问最大好处就是更快，因为它节省了一次指针定位的时间开销。由于对象呢噶访问在Java虚拟机中非常频繁，因此这类开销积少成多也是一项极为可观的执行成本。

通过句柄访问对象

通过直接访问对象

引用

本系列文章内容均来自于《深入理解Java虚拟机-JVM高级特征与最佳性能实践》