开源GIS实验田

OpenSource GIS Space

  • 内容导航

  • 最新评论

    • Gao Ang: 这将是一次开源GIS百科全书式的大会 ...
    • SHG: 恭喜恭喜 希望到时有更多国外的专...
    • Gao Ang: 这个示例可以搜索指定位置500m范围内...
    • suan: 你好,我想請問你GOOGLE MAPS API的問題 ...
    • Gao Ang: 静态地图现在支持用户自定义图标,...
  • 热门主题

  • 随机阅读

    • 2012 年二月
      « 十二    
       12345
      6789101112
      13141516171819
      20212223242526
      272829  
    • Gao Ang

      GaoMiao's Portrait
      有了理想
      就不要寻找放弃的理由

      站点搜索

    • 只言片语

      等青春轻飘的烟雾把少年的欢乐袅袅曳去,之后,我们就能取得一切值得吸取的东西。 ——普希金

    Archive for the '标准研究' Category

    通用智能语言UBL

    6th 十二月 2011

    近日,OASIS发布了通用商业语言UBL(Universal Business Language)的2.1版本征求意见稿,这个版本在保持与UBL 2.0版本良好兼容性的同时,面向电子业务应用对UBL语言进行了多处增补。在新版本中,UBL还针对财经业务进行了优化和增强,改进了UBL与财务系统基础设施的接口互操作性,并在标准UBL语言基础上添加了拓展,以实现借助XAdES格式对UBL文档进行XML高级数字签名的功能。

    自2004年由OASIS技术委员会制定第一个版本以来,通用商业语言UBL就一直致力于促进电子数据格式的标准化,来保证企业间信息与数据交换的有效性和一致性。在UBL规范中,以通用XML库的形式给出了电子业务文档格式的定义,包括产品预售、业务订单、数据交换、发票单据、付款支付等各个业务环节。在设计上,UBL遵循面向对象理念,能够在不同业务领域间有效进行条目重用。UBL具备严格的标签命名方式,设计者同时借助了CCTS语义原子性方法来保证UBL规范对信息描述的精确性。此外,在可拓展性方面,UBL文档的参考引用、标识符、代码段可以根据具体的业务环境进行定制和修改,并能够借助XML映射将UBL文档转换成各类其他文档类型。

    对于特定的大型行业信息化系统建设来说,准确清晰的业务逻辑描述往往比具体功能的技术实现更为关键。UBL提供了将电子业务交易过程中纸质文件转换为以XML格式为载体的非结构化信息标准文本格式的方法和途径,借助通用的标准规范,来保证企业在进行电子业务在线交易时,使用标准通用的格式进行文档和数据交换。

    UBL规范吸纳了业界多个数据标准化组织共同参与,以便于UBL能够直接植入已有的在线交易、业务审计、记录管理等业务系统中使用。此外, UBL自2.0版本以来,就与电子数据交换格式EDI(Electronic Data Interchange)及其派生的XML标准保持兼容,以便融合EDI中定义的贸易、运输、保险、银行、海关等行业信息交换格式,在以贸易为中心的电子业务应用系统中进行处理。

    创建于1993年的结构化信息标准促进组织OASIS一直推进着UBL规范的发展和更新。OASIS最初以标准广义标记语言SGML(Standard Generalized Markup Language)组织的形式成立,旨在推动产品互操作性架构的建立以及SGML语言的定义。在1998年更名为OASIS开放组织后,向将业务拓展到更为广阔的范畴,并成为推动电子商务标准发展、融合及采纳的非营利性国际组织,为数据安全、网络服务、接口一致性、电子交易、产品供应链、公众服务,及企业间互操作提供通用性标准。OASIS制定的各种规范帮助商业需求被精确描述,减少标准重复开发并保证标准的延续性,在协调各行业标准化组织的基础上通过一系列基础性工作推进软件供应商之间的合作。更为重要的是,OASIS各项标准均以免费且公开的形式向公众开放使用。

    目前UBL已经在欧洲政府采购联盟PEPPOL(含12个欧盟成员国),电子货运管理(EFM)等多个领域内得到成功应用,如果您所在的机构感兴趣使用UBL定义的低成本、迅捷、安全的电子文档处理方式来提高工作效率,升级传统业务流程,不妨访问UBL官方站点,更进一步了解UBL通用智能语言规范的细节内容。

    本文曾发表于《程序员》杂志-2011年12期“程序天下事”栏目。

    Posted in 标准研究 | No Comments »

    Mark Logic非结构化数据存储服务

    13th 六月 2011

    近日,AmazonMark Logic公司开展合作,在AWS云服务中加入XML格式数据的搜索与处理功能,以针对特殊用户的需求增强云服务的适用性。Mark Logic为Amazon的用户提供运行在AMI服务器映像上的XML服务器资源,以及虚拟化的XML数据存储服务。

    对大多数国内数据库使用者来说,Mark Logic的知名度与主流数据库厂商相去较远,用户并不算多。但在业界,Mark Logic却是非结构化数据管理技术的领导者,其主要用户覆盖新闻出版部门、政府机构、财经信息服务等不同的专业领域。

    Mark Logic公司的拳头产品MarkLogic Server是以文档为中心的领域专用数据库,专门针对半结构化和非结构化数据进行设计和优化,能够实现TB级非结构化数据资源的全文检索。MarkLogic Server支持针对Web内容、XML文档和JSON内容的RESTFul和HTTP请求。在数据模型组织方面,MarkLogic Server采用XML树状结构组织,数据查询和检索使用的DML和DDL语言为XQuery,此外,Mark Logic 还是XQuery标准发展和应用的推动者。

    较之同类数据库,MarkLogic在技术上有着独特的优势。MarkLogic始终保持着远超同类数据库(如IBM DB2 Viper 2)的XML文档处理速度,并且能够保证数据在事务处理过程中的原子性、一致性、独立性和持久性要求。此外,MarkLogic对XML文档提供多种形式的索引,索引包含文档实体、父子关系以及要素取值等内容。由于MarkLogic可以在不预先建立文档Schema的基础上自动索引XML包含的所有要素,所以MarkLogic对文档的管理几乎不需借助DDL数据库模式定义。

    MarkLogic已广泛应用在信息服务领域,用户包含世界领先的科技及医学期刊数据库Elsevier;为法律和学术领域提供专业信息服务的LexisNexis数据集团;提供金融财经领域高质量信息及工作流程解决方案的威科集团(Wolters Kluwer)及摩根大通银行;帮助全球性出版、财经、传媒服务集团McGraw-Hill对外提供信息服务,并辅助其旗下的标准普尔为全球资本市场提供信用评级、指数服务、风险评估和数据服务。此外,MarkLogic还被美国陆军、美国国防部等不少政府机构采用来建立信息管理业务。

    如今,随着大型跨国企业数据量的逐步增加,越来越多传统的数据库应用已不能满足企业的需求。在存储和服务器成本的不断降低的趋势下,不少企业开始寻找在云端存储以XML形式存在的媒体文件、文档、网页等信息的有效途径。

    MarkLogic已在帮助拥有海量非结构化数据的大型企业摆脱传统数据库组织数据并建立索引的束缚,快速搭建数据搜索和查询应用。这样的趋势正快步走向云端,为那些希望使用云服务来增强非结构化信息索引能力的中小型企业带来新的机遇。

    本文曾发表于《程序员》杂志-2011年06期“工具点评”栏目。

    Posted in 标准研究 | No Comments »

    新闻标识语言NewsML

    2nd 四月 2011

    在XML文档格式基础上,专为特定领域设计的各种XML方言,在各行业领域中一直有着广泛的应用。如描述站点消息来源的Atom格式,业务过程执行语言BPEL,OGC组织定义的地理标志语言GML,Google Earth和Google Map使用的要素标记语言KML,以及用于数字版权描述的开放数字许可语言ODRL等。

    在新闻传媒领域,发生在世界各地,由不同语言进行传播的新闻事件、体育赛事、财经数据等海量信息汇总在一起,常使得数据交换和展示的工作变得极为复杂。如何让多种来源的新闻信息在交换时具备良好的格式定义,让不同语言的信息提供者能够得到具有统一结构定义的新闻数据,为了解决这样的问题,新闻标准化机构就制定了面向新闻稿件制定的数据格式标识语言NewsML,以帮助新闻工作者在收到信息的同时即可获得准确的新闻元数据,并且NewsML同样是基于XML定义的内容规则描述方言。

    NewsML文档包括用来定义NewsML文本逻辑的Schema结构,定义NewsML文档显示格式的XSL样式表,以及符合Schema格式定义新闻主体和元数据。其中Schema定义了新闻信息标记符的语法描述规则,指定NewsML文档包含的元素、元素属性以及元素间的关系;可扩展样式语言XSL定义新闻内容的显示格式,能够将新闻内容以多种样式展示。

    除对新闻信息内容进行组织描述外, NewsML提供了强大的元数据描述能力,能够将新闻的每个部分附上元数据来描述其特性。在常见的新闻稿件中,一般包含稿件日期、标题、作者、资料来源、分类类别等稿件标识信息,在NewsML标识语言中,不仅包含上述新闻标识信息,还包含题注、关键字、出版者、审改人、签发人、语言、分类、版权、受众对象、重要性、原稿条目、相关超文本链接等多项拓展信息,这些新闻元数据大大提高了媒体间信息交换、新闻管理以及检索的效率。同时,由NewsML描述的新闻图片,也将作者、版权、背景描述等元数据加入图片附带的信息中。NewsML通过对新闻信息和元数据的有效标记,为新闻描述提供了更细的粒度,以方便其准确检索使用和自动化处理。

    NewsML最初由英国路透社设计,希望通过创建一种新的描述格式来包装多媒体新闻资源。目前NewsML的管理和维护工作由国际出版电信联盟(IPTC)负责。IPTC联盟的主要职责是制定和维护各类新闻传媒所需的信息和数据标准,包括NewsML、EventsML、SportsML等各种新闻信息描述标准的定义,并提供新闻编码、图片元数据等相关新闻数据标准。

    目前NewsML的最新版本为NewsML-G2 2.7规范,NewsML用于通用化的多媒体新闻描述,此外,为了更准确的描述特定类型新闻信息,IPTC还定制了用于新闻事件描述的EventsML-G2标准,以及报道体育赛事的SportsML-G2标准,为常用的新闻形式提供细节更为丰富的可定制内容。

    Posted in 标准研究 | No Comments »

    DOI:国际化的数字对象标识符

    7th 一月 2011

    ISO近期以100%的赞成率投票通过了一项新的国际标准ISO 26324:数字对象唯一标识符(Digital Object Unique Identifier),简称DOI标识。DOI由统一资源定位符URL演变而来,为网络环境下的信息资源实体确定唯一的标识规则。

    ISO国际标准化组织是成立于1947年2月的全球性非政府组织,总部设在瑞士日内瓦。ISO标准的制修订工作由各技术委员会负责,ISO/TC46第46技术委员会是信息与文献技术委员会,负责制定和推广与信息和文献工作相关的国际标准,DOI标准由ISO/ TC46的分技术委员会SC9(标识与描述)归口管理。除DOI标准外,技术委员会还负责国际标准书号ISBN、国际连续出版物号ISSN和国际标准音像号ISAN等标准的制修订工作。

    在信息化时代,数据和信息本身的价值往往比作为载体的管理信息系统更重要。在DOI出现前,大量有价值的数据因知识产权得不到保护而不愿共享。此外,很多具有研究和使用价值的数据由于缺乏统一标识规范,常会造成无序的引用和歧义。针对上述问题,数字对象唯一标识DOI通过构建数据资源标识方法,为数据提供注册、解析和查询途径,在推动数据资源共享的同时为数据的网络传播提供版权信息。

    DOI标识编码由前缀和后缀两部分组成,中间用/分割。为满足可扩展的数据资源编码需求,DOI没有限制前缀和后缀的字符长度。DOI前缀由目录代码和登记机构代码两部分组成,所有DOI代码目录定义为10.,即DOI 代码均以10.开头。登记机构代码通过向国际DOI基金会(IDF)申请获得。登记机构代码的分配根据信息资源编码需求制定,如出版商可为其所有数字出版物申请统一前缀,也可以为数字图书、音像制品等各类出版物申请不同前缀。DOI 后缀是在特定前缀下的唯一标识,由登记机构分配并确保其唯一性。后缀可以是任何字母或数字编码,如机器码、ISBN 或ISSN等已有规范码,具体编码方案由登记机构设定。根据编码规则,DOI数据资源命名规范通常定义为:统一前缀/类型标识.机构名.内部标识码.扩展码的形式。

    目前国外ElsevierBlackwellSpringerJohn Wiley等大型数字资源提供商已开始使用DOI对其出版的电子文献和数字内容进行标引,帮助基础性数据资源的快捷获取和灵活引用,同时为了便于数字资源的共享与交换,DOI登记机构还会在唯一编码基础上提供数据资源的命名、注册、解析、查询和变更等管理功能。DOI能够实现资源实体的永久性标识,便于数字资源的归档与检索。目前专业的DOI检索站点 CrossRef已与Google搜索技术结合,在DOI检索过程中提供数字文档的全文检索,为用户建立检索结果到数字文献全文间的获取通道。

    由于DOI标识的唯一性、持久性、兼容性、互操作性、动态更新等特点,在正式成为ISO标准后,必将会在信息资源标识引用过程中起到越来越重要的基础性作用。

    本文曾发表于《程序员》杂志-2011年01期”程序天下事”栏目。

    Posted in 标准研究 | No Comments »

    通用对象标识符OID

    22nd 十二月 2010

    对象标识符OID(Object Identifier)是由国际标准化组织ISO和国际电信联盟ITU联合制定的标识规则,用于规定信息处理系统及网络通信中的数字对象唯一标识方法,其描述对象是具有名称标识的信息、定义或者规范。

    OID最初由抽象语法标记ASN.1(Abstract Syntax Notation One)引入。ASN.1是ISO/IEC和国际电信联盟ITU-T共同制定的标准集,用于描述数据的编码、传输和解码方式。ASN.1定义了信息表示的抽象句法,但不限定具体的编码方法。ASN.1提供了基本编码规则、规范编码规则、唯一编码规则、压缩编码规则等一系列编码方法,同时制订了编码扩展方法,以适应没有规范定义的编码描述。目前GB/T 16262定义了我国的ASN.1抽象语法记法标准,包含基本记法规范、信息客体规范、约束规范、参数化规范等内容。

    OID采用树状编码方式,按命名空间分配层级结构,树状结构节点数目没有限制。OID命名包含数字或字母两种形式的可变长字符串,不同层次间采用点分的十进制符号表示,并在注册机构内唯一,以便OID解码后得到唯一对象的特性和信息。在OID树顶层,从根节点开始有ITU、ISO和ISO与ITU联合三个分支,在ISO国家成员体节点下,根据ISO 3166国家代码标准根据所属国分配标识,下层分支节点基于应用进行标识划分。

    基于分层结构的OID设计有效保证其编码的灵活性和可扩展性,能够对多种应用领域进行标识,在不改变已有编码机制的同时保证人类和机器可读。目前OID在ISO、ITU标准中已开始大量采用,使用者可以通过OID维护机构提供的解析系统,来获取OID包含的各种信息。随着物联网技术的发展,越来越多承载信息的对象将进入网络中互联互通,OID标识将越来越广泛的应用在RFID标签、生物芯片、网络传输、信息安全、无线通信、电子文件格式等领域中,帮助信息有效地交换和沟通。

    Posted in 标准研究 | No Comments »

    在线咨询交换标准ONIX

    12th 十月 2010

    在线信息交换标准ONIX(Online Information eXchange)是针对数字出版物制定的在线元数据信息描述和元数据交换标准。ONIX的目标是为在线书店提供标准化的出版物元数据,以满足各式出版物的在线信息交换需求。

    ONIX在英国图书工业交流会(Book Industry Communication)BIC Basic以及EDItEUR的EPICS等标准基础上建立。目前ONIX由欧洲电子数据交换组织EDItEUR(Electronic Data Interchange to Europe)维护和更新。

    ONIX标准为电子出版物建立了一套整合的发布、流通和信息传递机制,用以支持信息和数据交换。ONIX包含电子出版物创建、发布、注册以及出版发行过程中的知识产权保护信息,并为出版物提供了详细的元数据描述,包括书目细节、知识产权信息、书刊各种交付形式的价格信息、以及出版物的渠道信息等。在为电子图书(ONIX for Books)信息提供传输模式的基础上,ONIX还将覆盖音视频等各类电子媒体知识产品,以适应数字出版领域的电子贸易需求。

    ONIX以XML作为承载电子出版物网络信息的交换语法形式,其中的记录代表书籍条目信息,ONIX通过特定的DTD来定义字段属性,如可重复与顺序关系,必备与非必备等。同时对每一字段进行详细限定,以确保传送与接收的信息对应统一。ONIX之所以采取XML形式,首先,对于复杂文档的创建、传输和交换,XML具备自身的优势。XML以纯文本方式存储,对于机器识别和手工编辑都可适用。此外,XML能够使用Tags灵活定义出版物所需的各种元数据描述元素,便于组织和个人在ONIX基础上进行灵活拓展,XML还拥有众多成熟的编辑和支撑工具,便于各出版机构选用。

    ONIX为电子出版物的传递和交换提供了丰富的元数据描述规范,在面向电子书籍出版的ONIX for Books中,包含XML消息规范(Message Specification)、产品记录规范(Product Record Specification)、主连续记录规范(Main Series Record Specification)与子连续记录规范(Subseries Record Specification)等规范内容。ONIX的XML出版物信息包含具备格式、内容以及ONIX出版物信息根元素的起始信息(Start of Message),记录信息规格的标头资料段(Header Block),包含产品、主系列与子系列纪录的主体内容(Body of Message),以及结束信息(End of Message)等四部分内容。

    ONIX为电子出版物发行建立了国际通用的信息交换标准,值得我国数字出版行业学习借鉴。感兴趣的朋友可以延伸阅读ONIX for Books 3.0产品信息格式技术白皮书,以了解更多技术内容。

    Posted in 标准研究 | No Comments »

    DITA技术分析报告

    7th 九月 2010

    达尔文信息分类体系架构DITA是面向主题的文档交付解决方案,DITA基于XML表示并继承XML的文档描述元素,覆盖内容信息组织、编写、生成和交付的整个出版过程,并可以面向不同领域的技术出版物进行扩展和定制。

    DITA侧重于交付主题粒度的知识单元,再将知识单元进行重组和映射,生成最终交付的出版文档。DITA的设计理念,与传统着眼于书籍或文档交付的排版技术在思路上有很大区别。同时在应对局部知识点更新方面,DITA有着先天的优势。

    在DITA的主题(Topic)粒度划分方面,我认为主题作为片段信息的载体,首先应具备自包含的特性,即主题具有信息描述的完备性,能够准确完整的表达内容含义,所以划分的粒度不易过细。同时,作为建立后续关联映射的基础单元,主题的粒度也不易过粗,应该便于通过DITA映射进行知识的共享和重用。

    在近期参与的国家数字复合出版工程预研工作,对DITA技术体系进行了分析和梳理,并对DITA与主流的数字出版技术进行了对比。DITA涵盖的内容非常丰富,仅最新1.2版本的技术说明和语言规范就有1200余页文档,包含创作和组织面向主题文档的各种信息,以及DITA使用过程中的组织、拓展和约束内容。

    目前我对DITA的了解仅是庞大体系中的一小部分,在与合作单位的讨论交流中,就掌握的内容整理了一份DITA技术分析汇报,欢迎感兴趣数字出版的朋友共同交流DITA技术。

    DITA技术分析汇报(PDF:1M):http://www.gaoang.com/files/dita-spec-gaoang.pdf

    Posted in 标准研究 | No Comments »

    DITA与DocBook对比分析

    30th 六月 2010

    DITADocBook是数字出版领域的两种标准,通过定义规范化的文档描述规则,来解决文档交付过程中遇到的问题。面向不同类型的交付出版物,DITA和DocBook各有见长,但在实际应用中也有自身的限制因素。结合近期我参与的项目实践,对两个标准的对比分析总结如下。

    DITA解决了出版物的结构化描述和内容重组问题,且支持多语言版本制作,适用于对格式有严格限定的技术手册类出版物。但DITA不能实现很完美的样式渲染,且对于内容与格式一体化的复杂出版物,DITA很难进行主题和界定与划分。所以使用DITA进行书籍出版的成本和难度较高。

    相比较来说,DocBook适用于通用出版物,文档易于组织和排版。但DocBook内容以Section段落组织,不具备DITA的内容映射机制,无法做到类似Topic这样粒度的内容划分与重组。且对于内容需要频繁修改的文档排版,Docbook略显力不从心。

    DITA和DocBook专注于交付技术信息,但DITA侧重于交付主题,而DocBook侧重于交付书籍。DITA提供基于主题级粒度的信息分类,允许作者组织并描述特定信息领域。在生成多种文档格式的信息重用过程中,能够保持内容的高度一致性。在最终交付物的输出格式方面,DITA能够生成PDF、CHM、HTML等大部分的出版交付类型。DocBook常用的交付格式为PDF和HTML,其他输出格式需要借助相关的功能插件。

    LaTeX也是出版常用的格式,但我感觉LaTeX与DITA或DocBook侧重解决的技术层面有较大的不同。LaTeX是富格式文本集,尽管对科技论文撰写很合适,LaTeX适用于作者个人创作,但LaTeX文档内容和标签的耦合度非常紧密,并不适合于出版社的排版工作,以及文档内容的抽取重用,还有多种交付文档的组合生成。

    在学习应用方面,DITA包含众多语法和标签定义,在应用过程中的学习曲线较陡,在文档生成过程中一般需要使用Ant命令进行编译。而DocBook相对容易理解和使用,一般使用者从了解到上手使用DocBook制作文档仅用一天时间即可。希望了解更多DITA与DocBook的对比分析的朋友,可以进一步阅读DCL数据转换实验室包含更为详尽内容的文章

    Posted in 标准研究 | 6 Comments »