第一节:数据库与数据仓库
引言
回顾数据管理的发展历程,我们大致走过了三个阶段:从最初的人工管理,到后来的文件系统管理,再到如今的数据库系统管理。数据库的出现,真正实现了数据的永久存储、有序组织和高效共享。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
不过,在数据库系统应用的早期,人们对数据的利用大多还停留在基础的“增删改查”(CRUD)层面。这当然没问题,事务处理是业务的基石。
但故事不会止步于此。当数据积累到一定规模,企业的需求自然会升级——他们不再满足于简单的记录和查询,而是希望从海量数据中进行统计、多维分析,甚至挖掘出更深层的商业价值。这时候,一个尴尬的局面出现了:传统的、为高频事务处理而设计的操作型数据库,在面对这类复杂的分析型任务时,往往力不从心。
正是这个矛盾,催生了数据仓库的诞生。仔细对比你会发现,传统的数据库与数据仓库,在存放的数据特征、性能要求、应用范围乃至面向的使用人员上,都存在着根本性的差异。
两种数据处理模式:操作性数据处理和分析型数据处理
在计算机系统中,数据处理主要遵循两种截然不同的模型:操作性数据处理和分析型数据处理。它们也常被称为联机事务处理(OLTP)和联机分析处理(OLAP)。
操作性数据处理:这指的是对数据库进行的日常联机操作,核心任务是完成数据的收集、整理、存储以及实时的增、删、改、查。这类工作通常由一线业务人员和基层管理人员来完成,追求的是高并发和快速响应。
分析型数据处理:这则是对数据的“再加工”过程。它通常面向海量的历史数据,进行复杂的查询、统计和分析,目的是从中提炼出有价值的信息和洞察,以支持决策。执行这类任务的主力,往往是数据分析师和中高级管理人员。
两类数据:操作型数据和分析型数据
两种处理模式,自然对应着两类特征迥异的数据。
操作型数据的特点是:细节的、当前的、可更新的、由事务驱动。每次操作涉及的数据量小,逻辑相对简单,通常针对的是单一数据单元。
分析型数据则恰恰相反:它是综合的、历史的、不可更新的、由分析驱动。一次分析操作往往需要扫描庞大的数据集合,计算复杂,关注的是数据整体的规律和趋势。
具体来说,操作型数据服务于企业的日常运营。数据库里存放的是最新的、细节的交易记录,任何修改都会实时更新。数据组织方式的核心目标,是优化事务处理的性能。
而分析型数据则支撑企业的管理决策。数据仓库中主要存放历史数据和经过汇总的综合数据。当操作集中在查询与分析时,为了提升效率,数据的组织会以便于快速检索和分析为首要目标,甚至可以容忍一定的数据冗余。
数据的局限性
传统数据库在操作性处理上取得了辉煌的成功,但在应对分析型需求时,却暴露出一系列瓶颈。
第一,数据是分散的。操作性处理通常只涉及单一部门或系统,导致企业数据被割裂在各个独立的操作型数据库中。而分析型操作恰恰需要跨部门、跨系统的全局视野。
第二,数据不一致问题。当试图从各个源头抽取数据时,你会发现“同名异义”、“异名同义”、计量单位不统一、字段长度不一致等问题比比皆是。在分析之前,必须花费大量精力进行数据清洗和预处理。
第三,历史数据缺失。分析决策离不开历史趋势的支撑,但操作型数据库为了保持性能,通常只保留短期的、当前的数据。
第四,数据粒度不匹配。分析关注宏观的综合指标,而操作型数据库存储的是最细颗粒度的交易记录。如果每次分析前都要对海量细节数据进行实时汇总,效率将极其低下。
正是为了克服这些困难,让两种数据处理模式都能高效运转,数据仓库的概念应运而生。
简单总结一下:数据库与数据仓库分工明确。数据库负责存放操作型数据,专注于事务处理,追求极致的处理效率;数据仓库则负责存放分析型数据,专注于决策支持,追求的是强大的分析与查询效率。两者功能不同,用途各异,其底层结构设计自然也大相径庭。
数据仓库的定义
那么,究竟什么是数据仓库?一个经典的定义是:数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,其根本目的是为了更好地支持企业或组织的决策分析。
这四个特征至关重要:面向主题、集成的、不可更新的、随时间不断变化的。
它的核心用途始终是:面向企业决策分析。
说得更直白些,数据仓库就是一种面向特定决策主题(如客户、产品)、从多个数据源集成数据、同时包含当前数据及不同粒度历史数据、并以查询和分析为主的数据库系统。它的存在,就是为了给企业决策提供一个坚实、统一的数据基石。
数据仓库数据的特征
下面,我们来逐一拆解数据仓库的四个核心特征。
1. 面向主题的
“面向主题”的数据组织方式,是相对于“面向应用”而言的。这可能是理解数据仓库的关键。
什么是面向主题?简单说,就是在更高的抽象层次上,对分析对象(即“主题”)进行完整、一致的数据描述。它能统一地刻画该主题所涉及的所有数据以及数据间的关联。
想象一下典型的企业信息化建设:通常会按采购、销售、库存、人事、财务等业务线来建立子系统,每个子系统背后都是一个独立的操作型数据库。这就是典型的“面向应用”。
如果现在想分析“顾客”这个主题,会发生什么?你需要从销售库、客服库、财务库等多个地方费力地抽取数据,还要面对之前提到的各种不一致问题。这显然无法满足高效、准确的分析需求。
而“面向主题”的思路则不同。它会根据分析的需要,将“顾客”这个分析对象所关联的所有数据,从企业各个角落收集、汇聚、整合起来,形成一个关于“顾客”的完整、一致、统一的数据集合。这里的主题,就是诸如“顾客”、“商品”、“供应商”这样的分析对象。
两者的侧重点截然不同:面向应用关心的是“做什么事”(处理什么业务),而面向主题关心的是“分析谁”(谁是被分析的对象)。面向主题的组织方式,其精髓就在于形成关于某个主题的一致性信息集合。
2. 集成的
既然数据仓库中的数据按主题组织,其来源必然是分散的各个操作性数据库、文件或网络。来源多,就意味着不一致:同名不同义、同义不同名、单位各异、格式不一……
因此,在数据进入仓库之前,必须经过一系列严格的预处理步骤:清洗、转换、去重。同时,数据还需要从“面向应用”的原始形态,转变为“面向主题”的新形态。不仅如此,数据仓库中不仅需要细节数据,更需要大量预先计算好的综合数据(如月度销售额、客户年消费总额),这就涉及对数据的聚合与计算。只有完成了这些步骤,数据才能被加载到数据仓库中。
3. 不可更新的
“不可更新”指的是,数据一旦进入数据仓库,通常就不允许再进行修改,而是会被长期保存。这是因为数据仓库中反映的是一段相当长时期内的历史快照,它记录的是过去某个时间点的状态。数据一般按照固定的周期(如每天、每周)进行刷新和追加加载。
4. 随时间不断变化的
数据仓库并非一成不变,它会随着时间推移不断增长。因为它需要定期从操作型数据库等数据源中,捕获新的数据(包括新的历史数据和新的综合数据),并将其加载进来。
同时,数据仓库中的数据也有生命周期,超过存储期限的旧数据会被移除。另外,仓库中存在大量按时间维度组织的综合数据(如日汇总表、月报表),这也要求系统必须按照固定的时间周期,定期执行数据的加载和汇总任务。
数据仓库的功能
总而言之,数据仓库本质上是一种经过特殊设计和处理的数据存储。它将来自不同源头、结构各异的异构数据进行清洗、转换、加工和集成,然后存储起来,专门服务于企业的分析查询需求,最终为决策制定提供强有力的数据支持。

转载于:https://www.cnblogs.com/zja001/p/10282276.html
相关攻略
引言 回顾数据管理的发展历程,我们大致走过了三个阶段:从最初的人工管理,到后来的文件系统管理,再到如今的数据库系统管理。数据库的出现,真正实现了数据的永久存储、有序组织和高效共享。 不过,在数据库系统应用的早期,人们对数据的利用大多还停留在基础的“增删改查”(CRUD)层面。这当然没问题,事务处理是
数据仓库概述:定义、优势与现代演进 1 数据仓库的定义 数据仓库是一个专门为深度分析与商业智能(BI)构建的数据管理系统。与处理日常交易的操作型数据库不同,它的核心使命是整合与分析海量历史数据,为战略决策提供坚实的数据基石。企业日常运营中产生的各类数据,最终都会汇聚于此,经过处理转化为宝贵的业务洞察
文章主标题(保留原文) 今天,我们就来深入探讨一个核心问题。许多人在执行过程中常常感到困惑:为何付出同等努力,结果却大相径庭?这背后,一个至关重要的环节往往被大多数人忽略了。 第一个核心概念:理解底层运行逻辑 事实可能出乎你的意料。绝大多数人在起步阶段就陷入了误区,他们热衷于追逐复杂的技巧,却忽视了
数据库与数据仓库:别再傻傻分不清楚 说到“数据库”,相信大家都不陌生,但一提起“数据仓库”,很多人可能就开始犯嘀咕了。这两个概念听起来像兄弟,实际用起来却大相径庭,常常让人混淆。今天,咱们就来彻底捋一捋,把数据库和数据仓库的那点事儿讲清楚。 一、数据管理发展历程 要想搞懂区别,得先看看它们从哪儿来。
大数据数仓领域的元数据管理系统 在构建和维护企业级数据仓库的过程中,选择合适的元数据管理工具至关重要,它能显著提升数据治理效率。这类系统不仅是数据的“身份证”和“说明书”,更是厘清数据血缘关系、保障数据质量、实现高效数据资产管理的核心平台。市场上的元数据管理解决方案主要分为开源工具、云平台内置服务以
热门专题
热门推荐
小米电视设置小爱唤醒,只需在系统设置中开启“语音唤醒”功能即可实现远场声控 想让你的小米电视“听话”?其实很简单,核心就是打开系统里的“语音唤醒”开关。具体操作路径非常清晰:从主界面进入“设置”,然后找到“小爱同学”选项,进入后开启“语音唤醒”功能。部分机型的入口可能略有不同,有时需要在“应用”分类
目录 resolv 是什么? 三代币模型:构建自平衡的经济生态 今天、明天和未来 30 天的价格预测 Resolv (RESOLV) 价格预测 2025-2030 Resolv(RESOLV)2025年每月价格预测 Resolv (RESOLV) 2026 年价格预测 Resolv (RESOLV)
啪嗒砰1 2replay购买指南:重温经典节奏之旅 在众多独具创意的游戏系列中,啪嗒砰以其将节奏与策略完美融合的玩法,始终占据着特殊的一席之地。对于希望重温这份经典乐趣的玩家而言,《啪嗒砰1 2replay》无疑是最佳选择。那么,如何才能顺利地将它收入囊中呢?这份详尽的购买指南将为你梳理清楚每一个关
《红色沙漠》的最新更新带来了不少惊喜,可重复挑战的Boss战、伪装商店,还有几只可以收为宠物的传奇动物。两只传奇鸟类里,机械风格的“铁鹰”固然拉风,但如果你偏爱更可爱、体型更小巧的伙伴,那“风信子金刚鹦鹉”值得你花点心思。 不过,想让它乖乖跟你走,得先完成几个步骤。下面就是《红色沙漠》中收服风信子金
狂徒贼补偿增益提升至9%!暴雪修正12 0 5版本诡诈者天赋削弱,确保强度持平 了解最新职业平衡调整详情。 暴雪在5月5日的周常维护后,更新了职业平衡调整说明,其中一项关键改动是提高了对狂徒盗贼的补偿性增益幅度。事情的起因,还得从12 0 5版本补丁说起。在那个补丁中,诡诈者英雄天赋“云层覆盖”经过





