语义网如何工作

A globe with different words written on it.
万维网通过一系列命令和元数据运行。hh5800 / Getty Images

万维网是一个有趣的悖论——它由计算机构建,却为人服务。你每天访问的网站都使用自然语言、图像和页面布局来呈现信息,以便你轻松理解。尽管计算机在创建和维护万维网方面至关重要,但它们本身并不能真正理解所有这些信息。它们无法像你一样阅读、理解关系或做出决策。

语义网旨在帮助计算机“阅读”和使用网络。其核心思想相当简单——添加到网页中的**元数据**可以使现有的万维网变得机器可读。这并不会赋予人工智能或使计算机拥有自我意识,但它将为机器提供工具,使其能够查找、交换并在有限程度上解释信息。它是对万维网的扩展,而非替代。

广告

这听起来可能有点抽象,事实也确实如此。虽然有些网站已经在使用语义网的概念,但许多必要的工具仍在开发中。在本文中,我们将通过将语义网背后的概念和工具应用于一个遥远星系,来使其变得更易理解。

为什么需要语义网?

假设你想在线购买一套《星球大战三部曲》的盒装光碟,并且你有一些基本的购买标准。首先,你想要宽屏而非全屏的DVD,并且是带有额外特典碟片的套装。其次,你想要最低的价格,但偏好购买全新而非二手的。最后,你不想支付过高的运费和处理费,但也不想等待太久的送达时间。

在Web发展到目前这个阶段,你最好的选择是查看不同零售商的网页,比较价格、运输时间和费率。你也可以寻找一个能同时比较多家零售商价格和运输选项的网站。无论哪种方式,你都必须完成大部分的虚拟跑腿工作,然后自己做出购买决定并下订单。

广告

有了语义网,你将有另一个选择。你可以将你的偏好输入一个计算机化的**代理**,它将搜索网络,为你找到最佳选项,并下订单。然后,该代理可以在你的电脑上打开个人理财软件,记录你的支出金额,并可以在你的日历上标记DVD应到货的日期。你的代理还会学习你的习惯和偏好,因此如果你在某个特定网站有过糟糕的购物体验,它就会知道不再使用该网站。

该代理不会像人一样通过查看图片和阅读描述来完成任务,而是通过搜索明确识别和定义代理所需信息的**元数据**。元数据只是描述其他数据的机器可读数据。在语义网中,元数据对阅读页面的人来说是不可见的,但对计算机来说却是清晰可见的。元数据还可以实现更复杂、更集中的网页搜索,并获得更准确的结果。借用万维网发明者蒂姆·伯纳斯-李的话说,这些工具将使万维网——目前类似于一本巨型书——变成一个巨型数据库。

接下来,我们将探讨使文档机器可读的工具。

广告

标记:XML 和 RDF

一个 RDF 三元组包含一个主体(Anakin Skywalker)、一个客体(Luke Skywalker)以及一个连接两者的属性。

假设你想让计算机理解这个句子

阿纳金·天行者是卢克·天行者的父亲。

你很容易就能理解这句话的意思——阿纳金和卢克·天行者都是人,并且他们之间存在某种关系。你知道父亲是一种亲属关系,并且这句话也意味着卢克是阿纳金的儿子。但如果没有帮助,计算机无法理解这些。为了让计算机理解这个句子的含义,你需要添加机器可读的信息,描述阿纳金和卢克是谁以及他们的关系是什么。这始于两个工具——**可扩展标记语言 (XML)** 和**资源描述框架 (RDF)**。

广告

XML 是一种**标记语言**,类似于你上网时可能多少有些熟悉的超文本标记语言 (HTML)。HTML 管理你在网页上看到的信息的外观。XML 通过添加描述数据的**标签**来补充(但不替代)HTML。这些标签对阅读文档的人来说是不可见的,但对计算机来说是可见的。标签已在网络上使用,现有的**机器人**,例如为搜索引擎收集数据的机器人,可以读取它们。

RDF 的作用正如其名称所示——它使用 XML 标签提供了一个描述**资源**的框架。在 RDF 术语中,世界上几乎所有事物都是资源。这个框架将资源(任何名词,如阿纳金·天行者或《星球大战》三部曲)与网络上的特定项目或位置配对,以便计算机确切地知道该资源是什么。明确识别资源可以防止计算机将阿纳金·天行者与塞巴斯蒂安·肖或海登·克里斯滕森混淆,或者将原版三部曲与《单人星球大战三部曲》混淆。

为此,RDF 使用以 XML 标签形式编写的**三元组**,将此信息表示为**图**。这些三元组由**主体**、**属性**和**客体**组成,类似于句子的主语、谓语和宾语。(有些资料将其称为主体、谓词和客体。)RDF 已存在于网络上——例如,它是 RSS 订阅源创建的一部分。

到目前为止,在这个例子中,计算机知道这个句子中有两个对象,并且它们之间存在关系。但它不知道这些对象是什么,也不知道它们之间如何关联。接下来,我们将探讨添加这一层意义的工具。

广告

知其所指:URI

URI 为计算机提供了三元组中每个项目的特定参考点——无需解释,也无产生误解的可能。

即使有了 XML 和 RDF 提供的框架,计算机仍然需要一种非常直接、具体的方式来理解这些资源是谁或是什么。为此,RDF 使用**统一资源标识符 (URI)** 来引导计算机找到代表该资源的文档或对象。你已经熟悉 URI 最常见的形式——以 *http://* 开头的统一资源定位符 (URL)。URI 可以指向网络上的任何内容,也可以指向不属于网络的、例如计算机化住宅中的电器等对象。邮件、FTP 和 Telnet 地址是 URI 的其他一些示例。

在我们的例子中,我们将使用《星球大战》官方网站上角色页面作为他们的 URI。

广告

现在计算机知道主体和客体是什么了——阿纳金·天行者是由第一个 URI 代表的实体,卢克·天行者是由第二个 URI 代表的实体。但你会注意到,我们三元组中的中间 URI——表示属性的那个——并没有指向《星球大战》网站。相反,它指向 十万个为什么 服务器上一个虚构的文档。如果那个页面确实存在,它就会是我们的 **XML 命名空间**。

与使用标准标签(如 <b> 用于粗体和 <u> 用于下划线)的 HTML 不同,XML 没有标准标签。这很有用——它允许开发人员为特定目的创建独特的标签。但这意味着浏览器不会自动知道这些标签的含义。XML 命名空间基本上是一个文档,它告诉应用程序另一个文档中所有标签的含义。XML 文档的创建者会在文档开头用一行代码声明命名空间。在我们的例子中,我们的命名空间声明会是这样:

<rdf:RDF xmlns:hsw=https://www.十万个为什么.com/example/RDF/relationship#>

那行代码告诉计算机:“你看到的任何以‘hsw’开头的标签都使用此文档中找到的词汇。你可以在这里查找任何以‘hsw’开头的标签。” 这样,人们就可以创建文档所需的 XML 标签,而不会与网络上的其他 XML 文档冲突。

XML 和 RDF 是语义网的“官方语言”,但它们本身不足以让整个网络对计算机可用。接下来,我们将探讨其他一些层次。

广告

语言和词汇:RDFS、OWL 和 SKOS

《星球大战》本体中可能找到的极少量资源和连接示例。你可以通过观看电影和浏览网页自行理解这些,但计算机必须有清晰的轮廓才能理解它。

语义网的另一个障碍是计算机不具备人类那样的词汇量。你一生都在使用语言,因此你可能很容易看出不同单词和概念之间的联系,并根据语境推断含义。不幸的是,人们不能简单地给计算机一本词典、一本年鉴和一套百科全书,让计算机自行学习所有这些。为了理解词语的含义以及词语之间的关系,计算机必须拥有描述所有词语的**文档**和建立必要联系的**逻辑**。

在语义网中,这来源于**模式**和**本体**。它们是帮助计算机理解人类词汇的两个相关工具。本体简单来说就是描述对象及其相互关系的词汇表。模式是一种组织信息的方法。与 RDF 标签一样,对模式和本体的访问作为元数据包含在文档中,并且文档创建者必须在文档开头声明引用的本体。

广告

语义网上使用的模式和本体工具包括

  • **RDF 词汇描述语言模式 (RDFS)** - RDFS 为资源添加类、子类和属性,创建了一个基本的语言框架。例如,资源*达戈巴*是*行星*类的一个子类。达戈巴的一个属性可以是*沼泽地*。
  • **简单知识组织系统 (SKOS)** - SKOS 根据**更宽泛**或**更狭窄**的术语对资源进行分类,允许指定**首选**和**替代**标签,并能让人们快速将同义词库和词汇表**移植**到网络上。例如,在《星球大战》词汇表中,*西斯尊主*的更狭窄术语可以是达斯·西迪厄斯,而更宽泛的术语可以是*反派*。同样地,汉·索洛的替代标签可能是*牧牛人*和*激光脑*。
  • **网络本体语言 (OWL)** - OWL 是最复杂的层次,它将本体形式化,描述类之间的关系,并使用逻辑进行推导。它还可以基于现有信息构建新的类。OWL 有三种复杂程度——Lite、描述语言 (DL) 和 Full。

本体的麻烦在于它们非常难以创建、实施和维护。根据其范围,它们可能非常庞大,定义了广泛的概念和关系。由于这些困难,一些开发人员更倾向于关注逻辑和规则而非本体。关于这些规则应扮演的角色存在分歧,这可能是语义网的一个潜在陷阱。

接下来,我们将通过回顾我们最初的例子——那些《星球大战三部曲》DVD——来将所有内容联系起来。

广告

融会贯通

在我们最初的例子中,我们谈到了在线购买《星球大战》DVD。以下是语义网如何让整个过程变得更容易:

  • 每个网站都会有文本和图片(供人阅读),以及元数据(供计算机阅读),描述其网站上可供购买的 DVD。
  • 元数据将使用 RDF 三元组和 XML 标签,使 DVD 的所有属性(如状况和价格)变得机器可读。
  • 在必要时,商家将使用本体来为计算机提供描述所有这些对象及其属性所需的词汇。所有购物网站都可以使用相同的本体,这样所有的元数据都将采用通用语言。
  • 销售 DVD 的每个网站还将采用适当的安全和加密措施来保护客户信息。
  • 计算机化的应用程序或代理将读取在不同网站上找到的所有元数据。这些应用程序还可以比较信息,验证来源是否准确和可信。

当然,网络是庞大的,将所有这些元数据添加到现有页面是一项巨大的工程。接下来,我们将探讨这个问题以及语义网的其他一些潜在障碍。

广告

W3C 与语义网的未来

与万维网一样,语义网是**去中心化**的——没有任何一个组织或机构可以控制其所有规则和内容。然而,一些个人和组织在语义网指南和协议的开发中扮演了领导角色。其中包括万维网联盟 (W3C)、其主任蒂姆·伯纳斯-李及其成员组织。W3C 不是一个研究组织,因此大学、其他组织和公众也在语义网开发中发挥着积极作用。

万维网的某些领域已经整合了语义网组件。这包括使用 RDF 的 RSS 订阅源,以及旨在创建机器可读个人网页的 Friend-of-a-Friend (FOAF) 项目。

广告

但语义网的大部分功能和实用性仍在开发中,并且存在一些相当大的障碍需要克服。去中心化赋予开发人员创建他们所需的确切标签和本体的自由。但是,这也意味着不同的开发人员可能会使用不同的标签来描述同一事物,这可能使机器比较变得困难。批评者还质疑“身份问题”——URI 是代表网页,还是代表页面描述的概念或对象?例如,“http://www.starwars.com” 是指《星球大战》电影,还是仅仅指该网页?

一些开发人员就是否应该更侧重规则或本体,在语义网上存在分歧。批评者还表示,该项目极不切实际。首先,人们实际上并不按照 RDF 使用的图表来思考。其次,企业和现有网站似乎不太可能投入时间精力来添加所有必需的元数据。将来,现成的软件可能包含在创建新文档时添加元数据的选项,但该工具仍然可能无法使该项目在更大规模上可行。

要了解更多关于万维网和语义网的信息,请查看下一页的链接。

广告

常见问题

什么是语义网的例子?
语义网是一个数据网络。它包括数据库中的结构化数据、文档中的非结构化数据等等。所有这些数据都可以使用语义网技术连接起来。
为什么 Web 3.0 被称为语义网?
Web 3.0 被称为语义网,因为它是一个可以由机器处理的数据网络。

更多信息

相关文章

更多精彩链接

  • Adams, Katherine. “语义网:区分分类法和本体” Online; 2002年7/8月;
  • Beckett, Dave. “Dave Beckett 的资源描述框架 (RDF) 资源指南。” http://planetrdf.com/guide/
  • Clark, Kendall. “SPARQL:Web 2.0 遇上语义网” O'Reilly. http://www.oreillynet.com/pub/wlg/7823
  • Greenberg, Jane 等。“元数据:语义网的基本组成部分。” 美国信息科学与技术学会公报,2003年4/5月。
  • Greenberg, Jane. “元数据生成:过程、人员和工具。” 美国信息科学与技术学会公报,2002年12月/2003年1月。
  • Greenberg, Jane. “语义网:不仅仅是愿景。” 美国信息科学与技术学会公报,2003年4/5月。
  • Gruber, Tom. “什么是本体?” http://www-ksl.stanford.edu/kst/what-is-an-ontology.html
  • Hardin, Steve. “蒂姆·伯纳斯-李:语义网 - 机器可处理数据的网络。” 美国信息科学与技术学会公报,2005年2/3月
  • Hawke, Sandro. “语义网如何工作。” http://www.w3.org/2002/03/semweb/
  • Hendler, James. “科学与语义网。” 科学。2003年1月24日。
  • Horrocks, Ian 等。“语义网架构:堆栈还是双塔?” http://www.cs.man.ac.uk/~horrocks/Publications/download/2005/HPPH05.pdf
  • Jacob, Elin K. “本体与语义网。” 美国信息科学与技术学会公报;2003年4/5月。
  • Miller, Eric 和 Ralph Swick. “W3C 语义网活动概述。” 美国信息科学与技术学会公报,2003年4/5月。
  • Parsia, Bijan. “语义网服务。” 美国信息科学与技术学会公报,2003年4/5月。
  • Shirky, Clay. “语义网、三段论与世界观。” http://www.shirky.com/writings/semantic_syllogism.html
  • Swartz, Aaron. “广度上的语义网。” http://logicerror.com/semanticWeb-long
  • Van Eman, Jay. “OWL 从完整词库导出。” 美国信息科学与技术学会公报,2005年10/11月。
  • W3C:我们如何在语义网上识别事物。http://www.w3.org/2001/03/identification-problem/
  • W3C:OWL 网络本体语言指南 http://www.w3.org/TR/owl-guide/
  • W3C:RDF 入门 http://www.w3.org/TR/rdf-primer/
  • W3C:语义网活动声明。http://www.w3.org/2001/sw/Activity
  • W3C:SKOS 核心指南 http://www.w3.org/TR/swbp-skos-core-guide/
  • W3C:语义网技术教程 http://www.w3.org/Consortium/Offices/Presentations/RDFTutorial/

广告

加载中...