带你深入理解内存对齐最底层原理

相信绝大多数的人都了解内存对齐，都知道变量应该按8字节去对齐，这样性能高。但是其最最底层的原理是啥呢？有的人可能会说，因为高速缓存是以8字节为单位进行的。读者你很聪明，这是原因之一。但我今天想挖的是更底层一点的原理，让我们去内存的物理构成里找找答案！

内存物理结构

前面我们说过内存是由chip构成。每个chip内部，是由8个bank组成的。其构造如下图：
图1.png

而每一个bank是一个二维平面上的矩阵，前面文章中我们说到过。矩阵中每一个元素中都是保存了1个字节，也就是8个bit。
图2.png

内存编址方式

那么对于我们在应用程序中内存中地址连续的8个字节,例如0x0000-0x0007，是从位于bank上的呢？直观感觉，应该是在第一个bank上吗？其实不是的，程序员视角看起来连续的地址0x0000-0x0007，实际上位8个bank中的，每一个bank只保存了一个字节。在物理上，他们并不连续。下图很好地阐述了实际情况。
图4.png

你可能想知道这是为什么，原因是电路工作效率。内存中的8个bank是可以并行工作的。如果你想读取址0x0000-0x0007，每个bank工作一次，拼起来就是你要的数据，IO效率会比较高。但要存在一个bank里，那这个bank只能自己干活。只能串行进行读取，需要读8次，这样速度会慢很多。

结论

所以，内存对齐最最底层的原因是内存的IO是以8个字节64bit为单位进行的。 对于64位数据宽度的内存，假如cpu也是64位的cpu（现在的计算机基本都是这样的），每次内存IO获取数据都是从同行同列的8个bank中各自读取一个字节拼起来的。从内存的0地址开始，0-7字节的数据可以一次IO读取出来，8-15字节的数据也可以一次读取出来。

再换个例子假如你指定要获取的是0x0001-0x0008，也是8字节，但是不是0开头的，内存需要怎么工作呢？没有好办法，内存只好先工作一次把0x0000-0x0007取出来，然后再把0x0008-0x0015取出来，把两次的结果都返回给你。 CPU和内存IO的硬件限制导致没办法一次跨在两个数据宽度中间进行IO。这样你的应用程序就会变慢，算是计算机因为你不懂内存对齐而给你的一点点惩罚。

扩展1：事实上，编译和链接器会自动替开发者对齐内存的，尽量帮你保证一个变量不跨列寻址。但是他不能做到十分完美。
扩展2：其实在内存硬件层上，还有操作系统层。操作系统还管理了CPU的一级、二级、三级缓存。不知道你有没有印象，我们前面的文章说过高速缓存里的Cache Line是64字节，它是内存IO单位的8倍，不会让内存IO浪费。

写在最后，由于我的这些知识在公众号里文章比较分散，很多人似乎没有理解到我对知识组织的体系结构。而且图文也不像视频那样理解起来更直接。所以我在知识星球上规划了视频系列课程，包括硬件原理、内存管理、进程管理、文件系统、网络管理、Golang语言、容器原理、性能观测、性能优化九大部分大约 120 节内容，每周更新。加入方式参见我要开始搞知识星球啦、如何才能高效地学习技术,我投“融汇贯通”一票

Github：https://github.com/yanfeizhang/coder-kung-fu
关注公众号：微信扫描下方二维码

开发内功修炼@张彦飞

内存物理结构

内存编址方式

结论

张彦飞（@开发内功修炼）

相关推荐