eCl@ss信息分类系统

信息分类是将具备某种共同属性或特征的事物或概念集合在一起,把不包含这种共同属性或特征的信息区别开来的过程。信息分类是IT公司对各机构实施较大规模信息化建设过程中的基础要素,通过信息有效分类及统一规则的编码赋码,可以按逻辑关系或层级次序对各种看似杂乱无章的信息和数据进行排列组合,使其在分类体系上具备规则。

在传统的信息分类方法中,最通用的是线分类法、面分类法和混合分类法。线分类法将选定的对象属性作为划分基础来进行层级类目划分,如行政区划代码;面分类法将对象本身固有的若干属性或特征划分成一组独立的类目,每组类目构成一个面,按一定顺序将相互之间没有隶属关系的面平行排列形成分类,如职务名称代码;混合分类法将线分类和面分类组合使用,以其中一种分类法为主,另一种作补充对信息进行分类,混合分类在处理企业信息化建设中的复杂分类时较常使用。

随着企业信息化建设的发展和深入,基础的信息分类方法已无法满足复杂信息类型的分类和描述需求。随之出现了与面向对象程序设计思想类似的分类体系,其中典型的代表是来自德国的eCl@ss分类系统

eCl@ss是对产品和服务进行分类与描述的国际标准,由德国eCl@ss协会发起,由各大跨国信息技术公司和各个行业的领导企业特别是制造型企业共同参与并研究制定的分类系统。与传统的信息分类编码区别最大的是,eCl@ss不仅涵盖25个不同行业,四个层级,超过75000项类目和主题词的分类体系,还包含用于对产品和服务进行描述的属性集合以及各属性的值域范围。

eCl@ss分类体系的制定和维护都是一个相对庞大的系统工程,目前在协会的推动下,由不同行业的专家进行维护,并不断推进各类目及属性的更新和完善。在企业电子商务应用中,eCl@ss分类为企业采购带来巨大的经济优势,买方可以借助分类及属性方便的获取供应产品元数据,以扩大供应商范围并减少交易费用,通过增强产品及零部件的可比性来提升市场透明度。由于买卖双方使用相同的数据结构进行信息交换,对于供应商同样可以起到减少交易费用,拓宽供应范围的作用。

eCl@ss分类体系的方法依据ISO标准13584的第42部分:结构化零件族方法学来构建。eCl@ss分类体系中包含类表、关键词表、类和属性的关联映射表、属性表、值域表、属性和值域的关联映射表。其基本思想是通过关联映射文件,在不断扩充的类目、属性和值域之间建立联系。eCl@ss的上下级类目具备属性的继承关系,即子类目顺承父类目对应的各项属性,并在此基础上关联自身特有的描述属性,并向其下一级子类顺承。

由于不同行业的产品或服务共享一些通用的基本属性,eCl@ss还设置了标准属性集与基本属性集。标准属性集是为描述某类产品专门制定的,而基本属性集一般都是由下面五个属性组成的:EAN代码、制造商名称、产品编号、产品名称以及产品类型描述。其中EAN代码是国际物品编码协会统一制定的商品条码,是由国家代码、厂商代码及检查码等项组成的数字码,通常以一维或二维条码的形式印制在商品的外包装上。

在贸易全球化的趋势下,信息技术和通讯科技的发展将各类企业更紧密的联系在一起。随着企业间数据交换的需求不断增加,对产品和服务进行分类与描述的统一标准将越来越重要。致力于成为世界上最重要分类标准的eCl@ss,为电子商务过程中各个参与方提供了数据交换的基础,通过统一的规范帮助企业节约时间和沟通成本。

目前,源于德国的eCl@ss体系,已拥有德国铁路巴斯夫化工、戴姆勒-克莱斯勒、宝马、保时捷、大众、奥迪等一大批企业用户。eCl@ss分类及属性描述也被翻译成英语、法语、西班牙语和中文,正在从拥有广泛工业基础支撑的欧洲逐步延伸至美国和亚洲,并努力成为被全世界理解和使用的信息分类及描述国际化标准。

本文曾发表于《程序员》杂志-2012年03期“程序天下事”栏目。

通用智能语言UBL

近日,OASIS发布了通用商业语言UBL(Universal Business Language)的2.1版本征求意见稿,这个版本在保持与UBL 2.0版本良好兼容性的同时,面向电子业务应用对UBL语言进行了多处增补。在新版本中,UBL还针对财经业务进行了优化和增强,改进了UBL与财务系统基础设施的接口互操作性,并在标准UBL语言基础上添加了拓展,以实现借助XAdES格式对UBL文档进行XML高级数字签名的功能。

自2004年由OASIS技术委员会制定第一个版本以来,通用商业语言UBL就一直致力于促进电子数据格式的标准化,来保证企业间信息与数据交换的有效性和一致性。在UBL规范中,以通用XML库的形式给出了电子业务文档格式的定义,包括产品预售、业务订单、数据交换、发票单据、付款支付等各个业务环节。在设计上,UBL遵循面向对象理念,能够在不同业务领域间有效进行条目重用。UBL具备严格的标签命名方式,设计者同时借助了CCTS语义原子性方法来保证UBL规范对信息描述的精确性。此外,在可拓展性方面,UBL文档的参考引用、标识符、代码段可以根据具体的业务环境进行定制和修改,并能够借助XML映射将UBL文档转换成各类其他文档类型。

对于特定的大型行业信息化系统建设来说,准确清晰的业务逻辑描述往往比具体功能的技术实现更为关键。UBL提供了将电子业务交易过程中纸质文件转换为以XML格式为载体的非结构化信息标准文本格式的方法和途径,借助通用的标准规范,来保证企业在进行电子业务在线交易时,使用标准通用的格式进行文档和数据交换。

UBL规范吸纳了业界多个数据标准化组织共同参与,以便于UBL能够直接植入已有的在线交易、业务审计、记录管理等业务系统中使用。此外, UBL自2.0版本以来,就与电子数据交换格式EDI(Electronic Data Interchange)及其派生的XML标准保持兼容,以便融合EDI中定义的贸易、运输、保险、银行、海关等行业信息交换格式,在以贸易为中心的电子业务应用系统中进行处理。

创建于1993年的结构化信息标准促进组织OASIS一直推进着UBL规范的发展和更新。OASIS最初以标准广义标记语言SGML(Standard Generalized Markup Language)组织的形式成立,旨在推动产品互操作性架构的建立以及SGML语言的定义。在1998年更名为OASIS开放组织后,向将业务拓展到更为广阔的范畴,并成为推动电子商务标准发展、融合及采纳的非营利性国际组织,为数据安全、网络服务、接口一致性、电子交易、产品供应链、公众服务,及企业间互操作提供通用性标准。OASIS制定的各种规范帮助商业需求被精确描述,减少标准重复开发并保证标准的延续性,在协调各行业标准化组织的基础上通过一系列基础性工作推进软件供应商之间的合作。更为重要的是,OASIS各项标准均以免费且公开的形式向公众开放使用。

目前UBL已经在欧洲政府采购联盟PEPPOL(含12个欧盟成员国),电子货运管理(EFM)等多个领域内得到成功应用,如果您所在的机构感兴趣使用UBL定义的低成本、迅捷、安全的电子文档处理方式来提高工作效率,升级传统业务流程,不妨访问UBL官方站点,更进一步了解UBL通用智能语言规范的细节内容。

本文曾发表于《程序员》杂志-2011年12期“程序天下事”栏目。

Mark Logic非结构化数据存储服务

近日,AmazonMark Logic公司开展合作,在AWS云服务中加入XML格式数据的搜索与处理功能,以针对特殊用户的需求增强云服务的适用性。Mark Logic为Amazon的用户提供运行在AMI服务器映像上的XML服务器资源,以及虚拟化的XML数据存储服务。

对大多数国内数据库使用者来说,Mark Logic的知名度与主流数据库厂商相去较远,用户并不算多。但在业界,Mark Logic却是非结构化数据管理技术的领导者,其主要用户覆盖新闻出版部门、政府机构、财经信息服务等不同的专业领域。

Mark Logic公司的拳头产品MarkLogic Server是以文档为中心的领域专用数据库,专门针对半结构化和非结构化数据进行设计和优化,能够实现TB级非结构化数据资源的全文检索。MarkLogic Server支持针对Web内容、XML文档和JSON内容的RESTFul和HTTP请求。在数据模型组织方面,MarkLogic Server采用XML树状结构组织,数据查询和检索使用的DML和DDL语言为XQuery,此外,Mark Logic 还是XQuery标准发展和应用的推动者。

较之同类数据库,MarkLogic在技术上有着独特的优势。MarkLogic始终保持着远超同类数据库(如IBM DB2 Viper 2)的XML文档处理速度,并且能够保证数据在事务处理过程中的原子性、一致性、独立性和持久性要求。此外,MarkLogic对XML文档提供多种形式的索引,索引包含文档实体、父子关系以及要素取值等内容。由于MarkLogic可以在不预先建立文档Schema的基础上自动索引XML包含的所有要素,所以MarkLogic对文档的管理几乎不需借助DDL数据库模式定义。

MarkLogic已广泛应用在信息服务领域,用户包含世界领先的科技及医学期刊数据库Elsevier;为法律和学术领域提供专业信息服务的LexisNexis数据集团;提供金融财经领域高质量信息及工作流程解决方案的威科集团(Wolters Kluwer)及摩根大通银行;帮助全球性出版、财经、传媒服务集团McGraw-Hill对外提供信息服务,并辅助其旗下的标准普尔为全球资本市场提供信用评级、指数服务、风险评估和数据服务。此外,MarkLogic还被美国陆军、美国国防部等不少政府机构采用来建立信息管理业务。

如今,随着大型跨国企业数据量的逐步增加,越来越多传统的数据库应用已不能满足企业的需求。在存储和服务器成本的不断降低的趋势下,不少企业开始寻找在云端存储以XML形式存在的媒体文件、文档、网页等信息的有效途径。

MarkLogic已在帮助拥有海量非结构化数据的大型企业摆脱传统数据库组织数据并建立索引的束缚,快速搭建数据搜索和查询应用。这样的趋势正快步走向云端,为那些希望使用云服务来增强非结构化信息索引能力的中小型企业带来新的机遇。

本文曾发表于《程序员》杂志-2011年06期“工具点评”栏目。

新闻标识语言NewsML

在XML文档格式基础上,专为特定领域设计的各种XML方言,在各行业领域中一直有着广泛的应用。如描述站点消息来源的Atom格式,业务过程执行语言BPEL,OGC组织定义的地理标志语言GML,Google Earth和Google Map使用的要素标记语言KML,以及用于数字版权描述的开放数字许可语言ODRL等。

在新闻传媒领域,发生在世界各地,由不同语言进行传播的新闻事件、体育赛事、财经数据等海量信息汇总在一起,常使得数据交换和展示的工作变得极为复杂。如何让多种来源的新闻信息在交换时具备良好的格式定义,让不同语言的信息提供者能够得到具有统一结构定义的新闻数据,为了解决这样的问题,新闻标准化机构就制定了面向新闻稿件制定的数据格式标识语言NewsML,以帮助新闻工作者在收到信息的同时即可获得准确的新闻元数据,并且NewsML同样是基于XML定义的内容规则描述方言。

NewsML文档包括用来定义NewsML文本逻辑的Schema结构,定义NewsML文档显示格式的XSL样式表,以及符合Schema格式定义新闻主体和元数据。其中Schema定义了新闻信息标记符的语法描述规则,指定NewsML文档包含的元素、元素属性以及元素间的关系;可扩展样式语言XSL定义新闻内容的显示格式,能够将新闻内容以多种样式展示。

除对新闻信息内容进行组织描述外, NewsML提供了强大的元数据描述能力,能够将新闻的每个部分附上元数据来描述其特性。在常见的新闻稿件中,一般包含稿件日期、标题、作者、资料来源、分类类别等稿件标识信息,在NewsML标识语言中,不仅包含上述新闻标识信息,还包含题注、关键字、出版者、审改人、签发人、语言、分类、版权、受众对象、重要性、原稿条目、相关超文本链接等多项拓展信息,这些新闻元数据大大提高了媒体间信息交换、新闻管理以及检索的效率。同时,由NewsML描述的新闻图片,也将作者、版权、背景描述等元数据加入图片附带的信息中。NewsML通过对新闻信息和元数据的有效标记,为新闻描述提供了更细的粒度,以方便其准确检索使用和自动化处理。

NewsML最初由英国路透社设计,希望通过创建一种新的描述格式来包装多媒体新闻资源。目前NewsML的管理和维护工作由国际出版电信联盟(IPTC)负责。IPTC联盟的主要职责是制定和维护各类新闻传媒所需的信息和数据标准,包括NewsML、EventsML、SportsML等各种新闻信息描述标准的定义,并提供新闻编码、图片元数据等相关新闻数据标准。

目前NewsML的最新版本为NewsML-G2 2.7规范,NewsML用于通用化的多媒体新闻描述,此外,为了更准确的描述特定类型新闻信息,IPTC还定制了用于新闻事件描述的EventsML-G2标准,以及报道体育赛事的SportsML-G2标准,为常用的新闻形式提供细节更为丰富的可定制内容。

DOI:国际化的数字对象标识符

ISO近期以100%的赞成率投票通过了一项新的国际标准ISO 26324:数字对象唯一标识符(Digital Object Unique Identifier),简称DOI标识。DOI由统一资源定位符URL演变而来,为网络环境下的信息资源实体确定唯一的标识规则。

ISO国际标准化组织是成立于1947年2月的全球性非政府组织,总部设在瑞士日内瓦。ISO标准的制修订工作由各技术委员会负责,ISO/TC46第46技术委员会是信息与文献技术委员会,负责制定和推广与信息和文献工作相关的国际标准,DOI标准由ISO/ TC46的分技术委员会SC9(标识与描述)归口管理。除DOI标准外,技术委员会还负责国际标准书号ISBN、国际连续出版物号ISSN和国际标准音像号ISAN等标准的制修订工作。

在信息化时代,数据和信息本身的价值往往比作为载体的管理信息系统更重要。在DOI出现前,大量有价值的数据因知识产权得不到保护而不愿共享。此外,很多具有研究和使用价值的数据由于缺乏统一标识规范,常会造成无序的引用和歧义。针对上述问题,数字对象唯一标识DOI通过构建数据资源标识方法,为数据提供注册、解析和查询途径,在推动数据资源共享的同时为数据的网络传播提供版权信息。

DOI标识编码由前缀和后缀两部分组成,中间用/分割。为满足可扩展的数据资源编码需求,DOI没有限制前缀和后缀的字符长度。DOI前缀由目录代码和登记机构代码两部分组成,所有DOI代码目录定义为10.,即DOI 代码均以10.开头。登记机构代码通过向国际DOI基金会(IDF)申请获得。登记机构代码的分配根据信息资源编码需求制定,如出版商可为其所有数字出版物申请统一前缀,也可以为数字图书、音像制品等各类出版物申请不同前缀。DOI 后缀是在特定前缀下的唯一标识,由登记机构分配并确保其唯一性。后缀可以是任何字母或数字编码,如机器码、ISBN 或ISSN等已有规范码,具体编码方案由登记机构设定。根据编码规则,DOI数据资源命名规范通常定义为:统一前缀/类型标识.机构名.内部标识码.扩展码的形式。

目前国外ElsevierBlackwellSpringerJohn Wiley等大型数字资源提供商已开始使用DOI对其出版的电子文献和数字内容进行标引,帮助基础性数据资源的快捷获取和灵活引用,同时为了便于数字资源的共享与交换,DOI登记机构还会在唯一编码基础上提供数据资源的命名、注册、解析、查询和变更等管理功能。DOI能够实现资源实体的永久性标识,便于数字资源的归档与检索。目前专业的DOI检索站点 CrossRef已与Google搜索技术结合,在DOI检索过程中提供数字文档的全文检索,为用户建立检索结果到数字文献全文间的获取通道。

由于DOI标识的唯一性、持久性、兼容性、互操作性、动态更新等特点,在正式成为ISO标准后,必将会在信息资源标识引用过程中起到越来越重要的基础性作用。

本文曾发表于《程序员》杂志-2011年01期”程序天下事”栏目。