开源GIS实验田

OpenSource GIS Space

  • 内容导航

    Creative Commons
    本站文章全部原创
    转载请遵循创作共用协议
  • 最新评论

    • zhaiduo: 期待GO的web应用...
    • zdnet: 您好!去年8月您参加过我们ZDNET的优秀...
    • oschina: hi,此文已转贴到开源中国社区,网...
    • YUCHENG HU: MarkLogic 已经开始为各大出版机构进行...
    • Gao Ang: DITA的学习成本的确偏高,仅下载翻阅...
  • 热门主题

  • 随机阅读

    • September 2010
      M T W T F S S
      « Aug    
       12345
      6789101112
      13141516171819
      20212223242526
      27282930  
    • Gao Ang

      GaoMiao's Portrait
      有了理想
      就不要寻找放弃的理由

      站点搜索

      • 8 Users Online
    • 只言片语

      “If everything seems under control, you’re just not going fast enough.”-Mario Andretti
    • 对一个年轻人来讲,最令人惊异,最令人舒畅之事,莫过于在一位老人身上发现精神的青春。 ——莫洛亚

    Hadoop Studio开发部署MapReduce应用

    8th September 2009

    作者: Gao Ang 可以转载,请以超链接标明原始出处和作者信息及版权声明
    网址: http://www.gaoang.com/archives/138

    Hadoop Studio是基于Hadoop框架的MapReduce应用集成开发和部署环境。Hadoop Studio以NetBeans模块插件的方式使用,可在NetBeans插件中心获取。开发者可以通过Hadoop Studio的可视化界面,部署分布在不同节点的计算任务,并监控MapReduce处理过程中各阶段的输入、输出以及交互过程。

    针对MapReduce任务执行过程的各要素,Hadoop Studio提供了HDFS、JobTracker以及Cluster节点的配置工具。使用Hadoop Studio配置之前,需要预先在目标机器上部署Hadoop作业执行环境,在Ubuntu Linux上的Hadoop配置过程,已有详尽教程(单节点多节点)可供参考。

    在Hadoop Studio中对作业节点配置,首先需要定义负责数据存储的Filesystems节点,可选节点包含本地磁盘访问、HDFS文件系统和Amazon S3连接三种方式。HDFS节点的配置,需要指定NameNode节点的地址、访问端口和登录用户名,其中登录用户名为可选项。对于目前最新的r0.20版本,Filesystems节点的端口配置由conf/hadoop-site.xml改为在conf/core-site.xml中设定。

    在Hadoop Cluster配置部分,添加远程计算节点对应的JobTracker,指定节点的地址,并在下拉列表中选择之前添加的Filesystems节点,添加的节点则会出现在Hadoop可用节点的列表中。在主节点计算任务启动之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode进程。对于数据处理,集群中结点由一个NameNode和若干DataNode组成,Secondary NameNode为NameNode的备份。计算任务中,节点由一个JobTracker和若干TaskTracker组成,JobTracker负责任务调度,TaskTracker执行并行计算任务。TaskTracker须运行在DataNode上以获取用于计算的数据。

    对于已编写的计算任务,Hadoop Studio提供了简化的作业部署流程。首先在Hadoop Jobs中添加生成好的jar包(如Hadoop自带的Hadoop-*-examples.jar示例),之后选择要执行的主类并添加依赖项,并选择执行任务的目标Cluster节点和目标Filesystems后即可启动计算任务。同时,Hadoop Studio提供了实时显示的MapReduce任务工作流视图,可显示任务执行过程中的作业类型、完成情况、执行状态、起止时间、报错信息以及输出结果等内容。

    Hadoop应用开发方面,Hadoop Studio将Hadoop类库进行打包,可直接在项目中添加所有依赖项。编码过程中,Hadoop Studio为每种作业的提供了模板,并能够在代码编辑的同时自动对模板视图进行更新。

    目前Hadoop Studio支持Hadoop 0.18.x版本的Client API和Hadoop 0.20.x的Client与Server的API,并且支持不同版本Hadoop的混合使用。但Hadoop Studio目前的文档比较简单,感兴趣的朋友可以在freshmeat.net的项目站点跟踪Hadoop Studio的最新信息。

    3 Responses to “Hadoop Studio开发部署MapReduce应用”

    1. forest Says:

      这个是不是和Eclipse的hadoop插件类似的东东?

    2. Gao Ang Says:

      与Eclipse的Hadoop插件类似
      关于Eclipse和Windows环境下的Hadoop配置,下面这个教程非常详细:
      http://ebiquity.umbc.edu/Tutorials/Hadoop/

    3. 某人 Says:

      这个东东以前没有用过,去看看去~

    Leave a Reply

    XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>