新闻标识语言NewsML

在XML文档格式基础上,专为特定领域设计的各种XML方言,在各行业领域中一直有着广泛的应用。如描述站点消息来源的Atom格式,业务过程执行语言BPEL,OGC组织定义的地理标志语言GML,Google Earth和Google Map使用的要素标记语言KML,以及用于数字版权描述的开放数字许可语言ODRL等。

在新闻传媒领域,发生在世界各地,由不同语言进行传播的新闻事件、体育赛事、财经数据等海量信息汇总在一起,常使得数据交换和展示的工作变得极为复杂。如何让多种来源的新闻信息在交换时具备良好的格式定义,让不同语言的信息提供者能够得到具有统一结构定义的新闻数据,为了解决这样的问题,新闻标准化机构就制定了面向新闻稿件制定的数据格式标识语言NewsML,以帮助新闻工作者在收到信息的同时即可获得准确的新闻元数据,并且NewsML同样是基于XML定义的内容规则描述方言。

NewsML文档包括用来定义NewsML文本逻辑的Schema结构,定义NewsML文档显示格式的XSL样式表,以及符合Schema格式定义新闻主体和元数据。其中Schema定义了新闻信息标记符的语法描述规则,指定NewsML文档包含的元素、元素属性以及元素间的关系;可扩展样式语言XSL定义新闻内容的显示格式,能够将新闻内容以多种样式展示。

除对新闻信息内容进行组织描述外, NewsML提供了强大的元数据描述能力,能够将新闻的每个部分附上元数据来描述其特性。在常见的新闻稿件中,一般包含稿件日期、标题、作者、资料来源、分类类别等稿件标识信息,在NewsML标识语言中,不仅包含上述新闻标识信息,还包含题注、关键字、出版者、审改人、签发人、语言、分类、版权、受众对象、重要性、原稿条目、相关超文本链接等多项拓展信息,这些新闻元数据大大提高了媒体间信息交换、新闻管理以及检索的效率。同时,由NewsML描述的新闻图片,也将作者、版权、背景描述等元数据加入图片附带的信息中。NewsML通过对新闻信息和元数据的有效标记,为新闻描述提供了更细的粒度,以方便其准确检索使用和自动化处理。

NewsML最初由英国路透社设计,希望通过创建一种新的描述格式来包装多媒体新闻资源。目前NewsML的管理和维护工作由国际出版电信联盟(IPTC)负责。IPTC联盟的主要职责是制定和维护各类新闻传媒所需的信息和数据标准,包括NewsML、EventsML、SportsML等各种新闻信息描述标准的定义,并提供新闻编码、图片元数据等相关新闻数据标准。

目前NewsML的最新版本为NewsML-G2 2.7规范,NewsML用于通用化的多媒体新闻描述,此外,为了更准确的描述特定类型新闻信息,IPTC还定制了用于新闻事件描述的EventsML-G2标准,以及报道体育赛事的SportsML-G2标准,为常用的新闻形式提供细节更为丰富的可定制内容。