干货| PostgreSQL数据表文件底层结构布局分析

发布网友发布时间：2024-10-24 08:56

共1个回答

热心网友时间：2024-11-05 14:26

PostgreSQL提供了稳定、可靠的数据存储与管理功能，用户无需深究其底层原理，只需完成建库、建表、插入数据等基本操作，数据即可被持久化于PostgreSQL数据库中。然而，对于数据存储在磁盘上的位置、形式以及格式，我们充满好奇。本文旨在通过源码分析与实践操作，深入解析PostgreSQL底层数据的存储方式。

在PostgreSQL中，每个表由一个或多个堆文件表示，每个文件默认为1GB大小。当文件达到1GB后，PostgreSQL会创建新的堆文件。文件命名遵循特定规则：表OID加上序号ID（从1开始递增）。例如，一个名为student的表对应的堆文件名是16387。

数据库和表文件名由OID命名，定义在postgres_ext.h文件中。当数据被存储在PostgreSQL中时，用户插入的数据会依次存储在常规文件中，这些文件被称为堆文件。堆文件有四种类型：普通堆文件、临时堆文件、序列堆文件和TOAST表堆文件。其中，普通堆文件用于常规数据存储。

在研究表文件之前，需知晓PostgreSQL的数据目录位置，即PGDATA。通过psql命令SHOW DATA_DIRECTORY可以获取。对于关系型数据库，所有表都按数据库进行管理，即表属于特定数据库。

在没有数据时，文件大小为0字节。插入数据后，文件大小会增加至8KB。PostgreSQL在向表中插入数据时，以8KB为单位进行管理。文件大小达到1GB后，创建新文件，继续上述过程。

堆表文件由页组成，页的默认大小为8KB。每个页包含页头、行指针和堆元组。页头数据结构包括页的最后更改的LSN、校验和、位标志、空闲空间的开始和结束位置、特殊空间起始偏移量、页面大小及版本号、可删除的旧XID、行指针数组。

行指针数组用于索引元组，数组元素个数取决于页中元组的数量。元组结构分为普通数据元组和TOAST元组，用于存储变长数据。普通元组包含堆元组头部、位图和用户存储的数据。头部结构包含事务ID、事务ID、命令ID、元组表示符和元组状态信息。

为了查看堆表文件的详细信息，PostgreSQL提供扩展功能如pageinspect，可通过SQL命令创建使用。使用page_header()、get_raw_page()、heap_page_items()等函数可获取页头信息、元组头部信息和数据信息。

借助工具如hexdump和od，可以将二进制文件转换为十六进制编码，便于分析堆表文件的数据内容。通过分析页头、行指针和元组结构，可以深入了解PostgreSQL表文件的底层布局。

全部栏目

干货| PostgreSQL数据表文件底层结构布局分析