发布网友 发布时间:2024-10-24 08:56
共1个回答
热心网友 时间:2024-11-05 14:26
PostgreSQL提供了稳定、可靠的数据存储与管理功能,用户无需深究其底层原理,只需完成建库、建表、插入数据等基本操作,数据即可被持久化于PostgreSQL数据库中。然而,对于数据存储在磁盘上的位置、形式以及格式,我们充满好奇。本文旨在通过源码分析与实践操作,深入解析PostgreSQL底层数据的存储方式。
在PostgreSQL中,每个表由一个或多个堆文件表示,每个文件默认为1GB大小。当文件达到1GB后,PostgreSQL会创建新的堆文件。文件命名遵循特定规则:表OID加上序号ID(从1开始递增)。例如,一个名为student的表对应的堆文件名是16387。
数据库和表文件名由OID命名,定义在postgres_ext.h文件中。当数据被存储在PostgreSQL中时,用户插入的数据会依次存储在常规文件中,这些文件被称为堆文件。堆文件有四种类型:普通堆文件、临时堆文件、序列堆文件和TOAST表堆文件。其中,普通堆文件用于常规数据存储。
在研究表文件之前,需知晓PostgreSQL的数据目录位置,即PGDATA。通过psql命令SHOW DATA_DIRECTORY可以获取。对于关系型数据库,所有表都按数据库进行管理,即表属于特定数据库。
在没有数据时,文件大小为0字节。插入数据后,文件大小会增加至8KB。PostgreSQL在向表中插入数据时,以8KB为单位进行管理。文件大小达到1GB后,创建新文件,继续上述过程。
堆表文件由页组成,页的默认大小为8KB。每个页包含页头、行指针和堆元组。页头数据结构包括页的最后更改的LSN、校验和、位标志、空闲空间的开始和结束位置、特殊空间起始偏移量、页面大小及版本号、可删除的旧XID、行指针数组。
行指针数组用于索引元组,数组元素个数取决于页中元组的数量。元组结构分为普通数据元组和TOAST元组,用于存储变长数据。普通元组包含堆元组头部、位图和用户存储的数据。头部结构包含事务ID、事务ID、命令ID、元组表示符和元组状态信息。
为了查看堆表文件的详细信息,PostgreSQL提供扩展功能如pageinspect,可通过SQL命令创建使用。使用page_header()、get_raw_page()、heap_page_items()等函数可获取页头信息、元组头部信息和数据信息。
借助工具如hexdump和od,可以将二进制文件转换为十六进制编码,便于分析堆表文件的数据内容。通过分析页头、行指针和元组结构,可以深入了解PostgreSQL表文件的底层布局。