阿里云云原生数据仓库AnalyticDB PostgreSQL版对接使用指南

时间：2026-06-26 16:12

阿里云AnalyticDBPostgreSQL版是一款高性能云原生实时MPP数据仓库，兼容PG和Oracle生态，支持向量化计算与事务处理，内置向量检索、RAG等AI能力，具备高并发弹性扩展。通过JDBC ODBC标准接口，可与QuickBI、DataWorks、Flink、DTS等工具集成，并提供COPY、OSS外部表、SDK等多种数据导入方式。

1. 产品概述：什么是云原生数据仓库 AnalyticDB PostgreSQL 版

如果数据仓库界有一个“全能选手”，那阿里云AnalyticDB PostgreSQL版一定榜上有名。它不只是一款兼容ANSI SQL 2003、PostgreSQL和Oracle生态的MPP数据仓库，更像是一个在Greenplum开源基础上持续打磨、深度优化的“性能怪兽”。它支持向量化计算，在Multi-Master架构下完整支持事务处理，对外接口完全兼容社区版Greenplum，这意味着你几乎可以无缝迁移过来。

更让人兴奋的是，它不仅仅是一个传统意义上的数仓。它还内置了丰富的AI能力，包括向量检索、一站式RAG（检索增强生成）服务、企业知识库管理、文搜图与图搜图等解决方案。这意味着你可以在一个平台上完成从数据存储、分析到智能应用构建的全链路工作，而不必在多个系统之间来回折腾。

阿里云云原生数据仓库 AnalyticDB PostgreSQL 版对接使用完全指南

在生态集成方面，它也相当开放。JDBC、ODBC、libpq这些标准客户端接口全都支持，任何通过这些标准接口连接的工具或应用都可以轻松上手。从DMS、DataWorks、Dataphin这样的数据开发管理工具，到Quick BI、Tableau、QlikView、FineBI这些BI可视化工具，再到Flink、DataHub等流处理引擎，以及DataStage、Informatica、Kettle等ETL工具，还有DTS、DataX、OGG这样的数据迁移工具，基本上你能想到的主流生态，它都能无缝对接。

2. 准备工作：实例创建与连接信息获取

在正式开始“玩转”AnalyticDB PostgreSQL版之前，有几项准备工作必不可少。首先，登录阿里云控制台，进入云原生数据仓库AnalyticDB PostgreSQL版产品页面，按照指引创建实例。创建时需要选择地域、实例规格（存储弹性模式或Serverless模式）、存储类型等参数。实例创建完成后，系统会分配一个内网地址和一个可选的公网地址，格式通常为 xxxxxxxxxxxxxxxxxxxxx.gpdb.rds.aliyuncs.com。

连接数据库需要获取的信息其实就那么几样：数据库地址（内网或外网）、端口（默认为5432）、数据库名称、Schema名称以及登录用户名和密码。这些信息在控制台的实例详情页中都能找到。如果是通过VPC内网连接，确保客户端所在的ECS或服务与AnalyticDB PostgreSQL版实例位于同一VPC下就行。

安全方面，AnalyticDB PostgreSQL版采用的是白名单机制。你需要把客户端的IP地址或IP地址段添加到白名单中，否则所有连接请求都会被无情拒绝。对于VPC内网访问，还得确保安全组规则允许相应端口通信。如果通过Quick BI等云产品对接，别忘了把对应产品的IP地址段也加到白名单里。

3. 标准接口连接：JDBC、ODBC 与 libpq

因为AnalyticDB PostgreSQL版兼容PostgreSQL有线协议，所以标准的PostgreSQL系列客户端工具和驱动都能直接使用。最常用的方式就是JDBC和Python的psycopg2库。

3.1 JDBC 连接示例

AnalyticDB PostgreSQL版支持使用PostgreSQL或Greenplum的JDBC驱动包。不过需要注意，对于7.0版本的实例，JDBC版本需要V42.2.0及以上。下面是一个完整的JDBC连接示例：

在实际生产环境中，强烈建议把敏感凭证（用户名、密码、连接地址）通过环境变量或配置中心来管理，硬编码在代码里可是个大坑。

3.2 Python psycopg2 连接示例

如果你是个Python开发者，那么psycopg2库就是你的首选。下面是一个简单的连接与查询示例：

使用环境变量来存储凭证是安全最佳实践。另外，通过gp_segment_id可以查看数据在各个计算节点上的分布情况，对于判断是否存在数据倾斜非常有用。

3.3 ODBC 与 libpq

除了JDBC和Python，AnalyticDB PostgreSQL版还支持ODBC和libpq标准接口。ODBC驱动可以用于Excel、Access等桌面工具以及各类支持ODBC的ETL工具。而libpq是PostgreSQL的C语言客户端库，适合需要高性能底层访问的场景。任何支持这些标准接口的工具或应用，理论上都可以直接对接。

4. BI 工具对接：Quick BI 与 Tableau 等

AnalyticDB PostgreSQL版与主流BI工具的集成生态相当完善。Quick BI作为阿里云自研的BI平台，支持以公网或阿里云VPC两种方式连接AnalyticDB PostgreSQL版数据源。在Quick BI中，进入数据源管理页面，选择阿里云数据库页签下的AnalyticDB PostgreSQL版，填写显示名称、数据库地址、端口、数据库名、Schema、用户名和密码即可完成配置。如果使用VPC数据源，还需要填写购买者AccessKey ID和AccessKey Secret，并确保该账号具备目标实例的Read权限。

Tableau、QlikView、FineBI等第三方BI工具，同样可以通过JDBC或ODBC驱动连接。以Tableau为例，下载PostgreSQL JDBC驱动后，在Tableau中新建PostgreSQL数据源，填写服务器地址、端口、数据库、用户名和密码就搞定了。对于需要处理大规模数据集的场景，建议使用VPC内网连接，这样可以降低网络延迟和流量费用。

在BI对接过程中，如果遇到连接失败，最常见的问题就是白名单。首先检查白名单是否正确添加了BI工具所在服务器的IP地址。对于Quick BI，需要把Quick BI的IP地址段加入白名单。其次，确认数据库账号是否有足够的权限访问目标Schema和表。对于VPC数据源，还要确认AccessKey是否具备相应权限。

5. 数据开发与调度：DataWorks 集成

DataWorks作为阿里云的一站式数据开发与治理平台，与AnalyticDB PostgreSQL版有着深度集成。通过DataWorks，你可以完成AnalyticDB PostgreSQL版任务的开发、周期性调度以及与其他作业的整合操作。

5.1 绑定计算资源

使用DataWorks开发AnalyticDB PostgreSQL版任务前，需要先把AnalyticDB PostgreSQL版实例绑定为DataWorks的计算资源。绑定后，系统会自动在当前工作空间的数据源中同步创建一个同名的AnalyticDB PostgreSQL版数据源。绑定操作在DataWorks控制台的数据源管理页面完成，需要填写实例的连接信息、数据库名称和账号密码。

5.2 创建 AnalyticDB PostgreSQL 节点

完成计算资源绑定后，就可以在DataWorks的数据开发（DataStudio）中创建AnalyticDB PostgreSQL节点了。操作路径为：登录DataWorks控制台，切换至目标地域，选择对应工作空间后进入数据开发页面。在目标业务流程上右键选择新建节点，选择AnalyticDB PostgreSQL节点，输入节点名称即可完成创建。节点创建后，你可以在代码编辑区编写符合PostgreSQL语法的SQL语句。

5.3 任务调度与调试

DataWorks支持对AnalyticDB PostgreSQL节点配置调度属性，实现周期性执行。在节点编辑页面右侧的调度配置中，可以设置调度周期、重跑属性、依赖的上游节点等。配置完成后，通过工具栏的调试功能运行任务，查看执行结果是否符合预期。对于使用调度参数变量的任务，可以在调试时为变量赋值。

DataWorks数据集成还支持AnalyticDB PostgreSQL版与其他数据源之间的双向数据同步。配置好数据源后，通过向导模式或脚本模式配置同步任务，就可以完成数据从源端到AnalyticDB PostgreSQL版的导入，或反向导出。数据集成支持增量同步，通过配置增量同步策略，可以灵活地将变化的数据同步到目标表。

6. 数据迁移与同步：DTS 数据传输服务

数据传输服务DTS（Data Transmission Service）是阿里云提供的数据迁移与同步服务，支持将多种数据源的数据迁移或同步至AnalyticDB PostgreSQL版。DTS支持全量数据迁移、增量数据迁移以及全量+增量迁移三种模式。

6.1 RDS MySQL 同步至 AnalyticDB PostgreSQL 版

DTS支持将RDS MySQL实例的数据同步至AnalyticDB PostgreSQL版。配置流程包括：在DTS控制台创建同步任务，选择源库（RDS MySQL）和目标库（AnalyticDB PostgreSQL版），配置同步对象（库、表级别），选择同步类型（全量初始化+增量同步），完成预检查后启动任务。对于增量同步，需要确保源库的Binlog日志保存足够长的时间。

6.2 自建 PostgreSQL 迁移至 AnalyticDB PostgreSQL 版

自建PostgreSQL数据库可以通过DTS迁移至AnalyticDB PostgreSQL版。迁移前需要确保目标AnalyticDB PostgreSQL版实例已创建。在DTS中配置源库信息（自建PostgreSQL的连接地址、端口、账号、密码）和目标库信息，选择迁移对象后启动任务。如果源库启用了逻辑复制，DTS还可以捕获增量变更，实现近实时的数据同步。

6.3 AnalyticDB PostgreSQL 版实例间的数据迁移

对于同账号下AnalyticDB PostgreSQL版实例之间的数据迁移，目前仅支持数据迁移，不支持数据同步。迁移过程中如果业务不暂停，可能会对性能产生一定影响，迁移速度也会降低，所以强烈建议在业务停写的情况下进行迁移。迁移对网络连通性有要求，建议源端和目标端实例在同一VPC下。目标实例的Segment节点数量应大于或等于源集群的节点数量。迁移完成后，实例会自动执行ANALYZE收集统计信息。

对于从Amazon Redshift迁移至AnalyticDB PostgreSQL版，可以通过阿里云在线迁移服务或ossimport迁移工具完成。迁移流程包括DDL转换、数据导出到OSS、再从OSS导入AnalyticDB PostgreSQL版。

7. 实时数据写入：Flink 对接

阿里云Realtime Compute for Apache Flink支持通过AnalyticDB PostgreSQL版连接器将实时数据写入AnalyticDB PostgreSQL版。不过需要注意，该功能暂不支持Serverless模式，且需要Flink Realtime Compute引擎VVR 6.0.0及以上版本。对于7.0版本实例，需要VVR 8.0.1及以上版本。

7.1 前置条件

使用Flink写入AnalyticDB PostgreSQL版需要满足几个条件：已创建Flink全托管工作空间；已创建AnalyticDB PostgreSQL版实例；AnalyticDB PostgreSQL版实例和Flink全托管工作空间位于同一VPC下。

7.2 配置步骤

首先，把Flink工作空间所属的网段加入AnalyticDB PostgreSQL版的白名单。然后，在AnalyticDB PostgreSQL版实例中创建目标表，建表SQL示例如下：

接下来在Flink控制台的数据连接页面，上传AnalyticDB PostgreSQL版自定义Connector的JAR包。JAR包的版本需要与Flink引擎版本一致。上传完成后，系统会自动解析连接器内容。最后创建Flink作业，在作业中配置source和sink，将实时数据流写入AnalyticDB PostgreSQL版。

8. 数据导入的多种方式

AnalyticDB PostgreSQL版提供了丰富的数据导入方式，以满足不同场景下的数据加载需求。

8.1 COPY 命令

COPY命令是最直接的数据导入方式，用于将本地文本文件数据导入AnalyticDB PostgreSQL版。示例命令如下：

对于大规模数据导入，COPY命令可能存在性能瓶颈。不过AnalyticDB PostgreSQL版还提供了COPY ON CONFLICT功能，当数据与表的约束冲突时，不会导致COPY命令报错退出。

8.2 OSS 外部表（gpossext）

通过OSS外部表功能（gpossext），可以将数据从OSS云存储并行导入AnalyticDB PostgreSQL版。这种方式充分利用了MPP架构的并行处理能力，特别适合TB级以上数据量的导入。同时，它也支持将数据从AnalyticDB PostgreSQL版并行导出到OSS，并支持GZIP压缩以节省存储空间和成本。

8.3 Client SDK 高性能写入

AnalyticDB PostgreSQL版Client SDK通过API形式为用户提供高性能写入能力，支持用户定制化开发或对接写入程序。与COPY/INSERT导入方式相比，Client SDK通过并行化等内部机制大幅提升了写入性能。SDK还自动管理连接池和缓存，开发者无需担心这些底层问题。对于需要高吞吐写入的场景（如日志数据实时入库），Client SDK是推荐的选择。

8.4 INSERT ON CONFLICT

当主键冲突时，可以使用INSERT ON CONFLICT语法将对主键的INSERT行为转换为UPDATE行为，实现覆盖写入。这个功能在数据同步场景中非常实用，可以避免因主键重复导致的写入失败。

9. 同构数据源访问：跨实例联合查询

AnalyticDB PostgreSQL版支持同构数据源访问功能，允许用户在同一阿里云账号下，将不同实例作为外部数据源进行联合查询。这个功能在保证数据实时性的同时，能有效减少数据冗余。发起查询的实例称为本地实例，作为外部数据源的实例称为远程实例。

使用同构数据源访问需要满足版本要求：AnalyticDB PostgreSQL 6.0版需要内核版本v6.6.0.0及以上，7.0版需要v7.0.3.0及以上。本地实例与远程实例须位于同一VPC。使用前需要为两个实例创建初始账号，并将客户端的IP地址或IP地址段分别添加到两个实例的白名单中。

具体操作流程如下：首先在本地实例A上创建数据库和Schema；然后在远程实例B上创建数据库、Schema和测试表；接下来在本地实例A的控制台外部数据源管理中新增数据源，配置远程实例B的连接信息；最后在本地实例A中创建外部表，就可以像查询本地表一样查询远程实例B的数据了。

10. 性能调优最佳实践

性能是数据仓库使用的核心关注点。AnalyticDB PostgreSQL版提供了多层次的性能调优手段，涵盖统计信息、优化器、索引、分布键、分区表等多个维度。

10.1 统计信息收集

查询优化器基于表的统计信息生成执行计划。过时或缺失的统计信息会导致优化器做出错误的估算，生成低效的执行计划。在大批量数据加载后，或者表中超过20%的行被更新后，应当执行ANALYZE命令收集统计信息：

对于大多数工作负载，对修改过的表执行ANALYZE your_table就足够了。只有在需要更精细控制时（比如用于JOIN键、过滤条件或索引列），才使用列级别的ANALYZE。

10.2 优化器选择

AnalyticDB PostgreSQL版包含两种查询优化器：Legacy优化器和ORCA优化器。Legacy优化器在V4.3版本中为默认，适合高并发简单查询、3表以内的JOIN以及INSERT/UPDATE/DELETE工作负载。ORCA优化器在V6.0版本中为默认，适合复杂查询、3表以上的JOIN、ETL和报表工作负载，以及带子查询的SQL。ORCA优化器会探索更多的执行路径，因此生成计划的时间稍长。

可以在会话级别切换优化器：

对于特定的慢查询，还可以使用pg_hint_plan扩展，通过HINT语句影响执行计划，比如启用或禁用ORCA优化器、改变JOIN类型和JOIN顺序等。

10.3 索引使用

索引可以加速基于过滤条件扫描表中少量数据的查询。AnalyticDB PostgreSQL版支持多种索引类型。B-tree索引是默认类型，仅支持=、<、<=、>、>=和BETWEEN这些操作符。对于!=或<>条件，B-tree索引无法生效。建议为WHERE子句中频繁使用的列创建索引：

对于LIKE模式匹配，如果通配符在开头（如'%abc'），B-tree索引就无法使用了，这时可以考虑使用GiST或GIN索引配合pg_trgm扩展，或使用全文检索功能。

10.4 分布键设计

在MPP架构中，分布键的选择对查询性能至关重要。当分布键与JOIN键匹配时，AnalyticDB PostgreSQL版可以在每个计算节点内本地执行JOIN，无需数据重分布——这是最快的JOIN模式。设计分布键时应遵循几个原则：选择JOIN频繁使用的列作为分布键；选择数据分布均匀的列，避免数据倾斜；选择高基数列，确保数据在各个节点上均匀分散。

10.5 分区表设计

分区表可以将大表按范围、列表或哈希等方式分割成多个子分区。AnalyticDB PostgreSQL 7.0版本新增了对哈希分区和表达式分区的支持。分区裁剪（Partition Pruning）机制会在查询执行前，根据过滤条件仅扫描满足条件的部分分区，大幅提升查询性能。

10.6 列存与压缩

默认情况下，AnalyticDB PostgreSQL版创建的表使用行存储且不压缩。对于以分析查询为主、只涉及部分列的工作负载，列存储能带来显著的性能提升。创建列存表时可以在CREATE TABLE语句中指定存储选项。

11. 向量检索与 AI 应用构建

AnalyticDB PostgreSQL版将向量检索引擎FastANN作为索引插件集成到数据库中。这意味着你可以在使用向量检索的同时使用结构化和半结构化索引，实现混合查询。该产品支持稠密向量和稀疏向量两种向量类型。

11.1 向量检索与全文检索双路召回

当结构化数据与非结构化数据需要同时检索时，AnalyticDB PostgreSQL版支持混合查询，既支持结构化字段过滤，也支持半结构化字段过滤，同时支持与文本字段的全文检索索引一起进行双路召回。全文检索擅长精确的关键词匹配，但无法理解同义词和释义等语义关系。双路召回将向量检索和全文检索并行执行，然后合并并重排结果，最大化召回率。7.0版本对这一能力做了进一步增强。

11.2 基于 OpenAPI 构建 RAG 应用

AnalyticDB PostgreSQL版提供了OpenAPI和Python SDK，你可以快速构建RAG（检索增强生成）应用。使用前需要在控制台授权创建服务关联角色。RAG应用的典型流程包括：配置SDK客户端、初始化向量数据库、创建命名空间（Namespace）和集合（Collection）、上传文档并进行向量化、通过向量检索或全文检索召回相关文档块、通过LangChain等框架生成基于上下文的回答。

AnalyticDB PostgreSQL版还提供了高级接口（HighLevel API），当你仅拥有原始文档或文本时，可以直接使用产品的文档理解、分块（Chunk）、嵌入（Embedding）、重排序（Rerank）等相关能力。同时，产品还提供了专用的adbpg_doc_parser工具，用于替代通用的文本分块方案，支持更精细的文档结构解析。

11.3 Dify 插件集成

AnalyticDB PostgreSQL版提供了Dify插件，支持知识图谱、全文检索与向量检索的深度融合，可以有效解决长尾查询与语义理解难题，提升问答准确度。通过Dify插件，开发者可以快速将AnalyticDB PostgreSQL版作为知识库后端，构建企业级的智能问答应用。

12. 监控与报警

云监控（CloudMonitor）是阿里云提供的监控服务，支持对AnalyticDB PostgreSQL版实例进行实时监控和报警。在云监控控制台，选择云产品为AnalyticDB PostgreSQL，即可查看实例的各类监控指标。监控指标分为实例维度和节点维度两组。

创建报警规则时，选择产品为AnalyticDB for PostgreSQL，设置监控指标、阈值、统计周期和报警级别。当监控数据满足报警条件时，系统会通过信息、邮件、钉钉等方式通知报警联系组中的所有联系人。用户还可以将报警规则保存为模板，方便在多个实例间复用。对于快速上手的用户，云监控提供了一键报警功能，打开开关即可启用预置的报警规则。

常见的监控报警场景包括：CPU使用率过高、内存使用率过高、磁盘使用率超过阈值、连接数过多、慢查询数量异常等。通过合理的报警配置，可以及时发现并处理潜在的性能问题和容量瓶颈。

13. 总结

从产品概述到性能调优，从数据迁移到AI应用构建，阿里云云原生数据仓库AnalyticDB PostgreSQL版确实是一款功能强大、生态丰富的MPP数据仓库服务。无论你是数据分析师、数据工程师还是应用开发者，都能从中找到适合自身场景的对接方案。通过合理利用该产品的各项能力，构建高性能、低成本、智能化的云原生数据仓库与AI应用，其实并没有想象中那么复杂。

常见问题问答

问1：AnalyticDB PostgreSQL版与标准PostgreSQL有什么区别？

答：AnalyticDB PostgreSQL版在PostgreSQL基础上引入了MPP大规模并行处理架构，支持水平扩展和多节点并行计算，适合PB级数据仓库分析场景。而标准PostgreSQL是单机数据库，更适合OLTP事务处理和小规模数据分析。两者在语法上高度兼容，AnalyticDB PostgreSQL版支持标准PostgreSQL的SQL语法和PL/pgSQL存储过程。

问2：如何选择AnalyticDB PostgreSQL版的存储弹性模式与Serverless模式？

答：存储弹性模式适合负载稳定、可预见的场景，按计算节点规格和存储空间付费，性能稳定可预期。Serverless模式适合负载波动大、间歇性使用的场景，按实际使用的计算和存储资源弹性计费，更加灵活和经济。需要注意的是，部分功能如Flink写入暂不支持Serverless模式。

问3：AnalyticDB PostgreSQL版连接不上，最常见的原因是什么？

答：最常见的原因是IP白名单未正确配置。请检查客户端的IP地址是否已添加到实例的白名单中。其次是网络问题，如果使用VPC内网连接，确保客户端与实例在同一VPC下。另外，确认数据库账号和密码是否正确，以及实例状态是否正常运行。

问4：如何判断一条SQL查询是否需要优化？

答：可以通过EXPLAIN ANALYZE查看查询的执行计划。如果执行计划中间出现了全表扫描（Seq Scan）而过滤条件列没有索引、数据重分布（Redistribute Motion）代价过高、或者某个节点的处理时间远长于其他节点（数据倾斜），则说明需要优化。还可以在控制台的诊断与优化 > 慢SQL列表中查看耗时较长的查询。

问5：AnalyticDB PostgreSQL版支持向量检索吗？如何开启？

答：支持。AnalyticDB PostgreSQL版内置了FastANN向量检索引擎，作为索引插件集成到数据库中。使用前需要初始化向量数据库，每个实例仅需执行一次。初始化完成后，即可创建向量表、构建向量索引，执行向量检索、全文检索以及混合检索。7.0版本对向量检索能力做了进一步增强。

问6：如何降低AnalyticDB PostgreSQL版的使用成本？

答：首先，合理选择实例规格，避免过度配置。其次，利用列存储和压缩功能减少存储空间。第三，对于不常访问的冷数据，可以通过分区表进行冷热分离管理。第四，使用Serverless模式应对波动的负载。最后，通过监控报警及时发现资源浪费。

来源：https://developer.aliyun.com/article/1742628

其他

上一篇阿里云轻量消息队列MNS配置流程：从开通到生产级部署 下一篇阿里云Linux云服务器vsftpd从零搭建FTP站点攻略

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。