根据前一节的内容,您可能会认为数据库相当复杂。这是一个合理的假设,它也有助于解释为什么数据集成作为一个学科仍在发展,尽管它已经存在了几十年。数据集成的目标是从不同来源收集数据,将其组合并以一种看起来统一的整体方式呈现。然而,这个过程的成功在很大程度上取决于数据质量,因为劣质数据可能导致不准确的结论或见解。
假设您即将出差,并且想在决定出城路线之前了解交通状况。以下是不同的数据集成方法将如何处理您的查询。
手动集成方法会将所有工作留给您。首先,您必须知道在哪里查找您的数据。您需要知道交通报告和您所在城镇地图的物理位置。您需要直接从各自的数据库中检索交通报告和地图数据,然后将这两组数据进行比较,以找出最佳的出城路线。
如果您使用通用用户界面方法,工作量会少一些。您将使用诸如互联网之类的界面进行查询。查询结果将作为视图显示在界面上。您仍然需要将交通报告与地图进行比较以确定最佳路线,但至少界面会负责定位和检索数据。
一些集成方法依赖应用程序为您完成所有工作。这些应用程序通常被称为数据集成工具,是专门设计用于为您定位、检索和集成信息的程序。数据科学家通常开发这些应用程序,以确保数据集成过程顺利运行并提供准确的结果。
在集成过程中,应用程序必须处理数据,以便一个来源的信息与另一个来源的信息兼容。在我们的例子中,这意味着您将向应用程序提交一个查询,它将呈现一个将您城镇地图与交通报告数据结合起来的视图。这种方法的问题在于,随着数据源和格式数量的增加,应用程序会变得复杂且难以编程。
还有一种常见的数据存储方法,也称为数据仓库。使用这种方法,您打算集成的各种数据库中的所有数据都会被提取、转换和加载。这意味着数据仓库首先从各种数据源中拉取所有数据。然后,数据仓库将所有数据转换为通用格式,以便一套数据与另一套数据兼容。然后它将这些新数据加载到自己的数据库中。当您提交查询时,数据仓库会定位数据,检索它并以集成视图的形式呈现给您。
以上述例子来说,数据仓库会找到它所拥有的关于交通报告和您城镇地图的最新信息。然后它会将两者整合,并将视图发送回给您。这种系统有几个优点和缺点,我们将在下一节中探讨。
大多数数据集成系统设计者都认为最终目标是尽可能减少最终用户的工作量,因此他们倾向于关注应用程序和数据仓库技术。
数据仓库究竟是做什么的?接下来揭晓!