hadoop

  • Hadoop 源代码分析(一七)DataNode
    Hadoop 源代码分析(一七)DataNode

    周围的障碍扫清以后,我们可以开始分析类DataNode.类图如下: publipublic class DataNode extends Configured implements InterDatanodeProtocol, ClientDatanodeProtocol, FSConsta nts, Runnable 上面给出了DataNode 的继承关系,我们发现,DataNode 实现了两个通信接口,其中ClientDatanodeProtocol 是用于和Client 交互的,Inter

    hadoop, datanodeMay 11

  • 基本hadoop文件操作
    基本hadoop文件操作

    1.启动hadoop工程 2.eclipse导入插件 将hadoop-eclipse-plugin-2.6.0.jar插件导入eclipse中,重启eclipse 3.在Map/Reduce的窗口下建立连接(单机版) 4.创建工程,导入jar,配置文件 提示:工程要用到hadoop的jar包,所以要把hadoop的jar包全部导入建立的工程! core-site.xml: <?xml version="1.0" encoding="UTF-8"?> &l

    hadoopMay 10

  • ubuntu14.04 安装hadoop
    ubuntu14.04 安装hadoop

    1.下载hadoop,解压 这个可以到http://hadoop.apache.org/里面找到 2.配置.bashrc文件 3.创建hadoop数据保存 我创建在了hadoop文件里,名字叫做data 4.配置hadoop-env.sh文件 5.配置mapred-site.xml文件 首先,在/home/tian/Downloads/hadhoop/hadoop-2.6.0/etc/hadoop文件夹里面有个mapred-queues.xml.template文件,我们需要复制一份,名字叫做m

    hadoopMay 9

  • Hadoop 源代码分析(六)RPC-Client
    Hadoop 源代码分析(六)RPC-Client

    既然是RPC,自然就有客户端和服务器,当然,org.apache.hadoop.rpc 也就有了类Client 和类Server.在这里我们来仔细考 察org.apache.hadoop.rpc.Client.下面的图包含了org.apache.hadoop.rpc.Client 中的关键类和关键方法. 由于Client 可能和多个Server 通信,典型的一次HDFS 读,需要和NameNode 打交道,也需要和某个/某些DataNode 通信.这 就意味着某一个Client 需要维护多个连接

    rpc, hadoopMay 8

  • [ 大数据系列之Hadoop ][2] Zookeeper学习笔记
    [ 大数据系列之Hadoop ][2] Zookeeper学习笔记

    Zookeeper 是Hadoop的高可用高性能的分布式协调服务. 1 Partial Failure 部分失败 即:我们不知道一个操作是否已经失败.分布式应用经常出现这个问题,比如:网络错误导致不知道对方是否收到,或者接受者进程死掉.解决方法:发送者重新连接接受者并且询问. Zookeeper 不能避免这个问题,也不会隐藏部分失败.提供一组工具可以处理部分失败. zookeeper特点 简单:非常简单的文件系统,一个znode限制1MB 丰富的building block实现多种协调数据结构和

    hadoop, zookeeperMay 8

  • hive创建表语句详解
    hive创建表语句详解

    创建表的语句: Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (

    hadoop, hive, 超人学院May 7

  • Hadoop源码分析----RPC反射机制
    Hadoop源码分析----RPC反射机制

    有了Client 和Server,很自然就能RPC 啦.下面轮到RPC.java 啦. 一般来说,分布式对象一般都会要求根据接口生成存根和框架.如CORBA,可以通过IDL,生成存根和框架.但是,在 org.apache.hadoop.rpc,我们就不需要这样的步骤了.上类图. 为了分析Invoker,我们需要介绍一些Java 反射实现Dynamic Proxy 的背景. Dynamic Proxy 是由两个class 实现的:java.lang.reflect.Proxy 和java.lang

    rpc, hadoop, 超人学院May 7

  • kafka解决查找效率的两大法宝
    kafka解决查找效率的两大法宝

    数据文件的分段 Kafka解决查询效率的手段之一是将数据文件分段,比如有100条Message,它们的offset是从0到99.假设将数据文件分成5段,第一段为0-19,第二段为20-39,以此类推,每段放在一个单独的数据文件里面,数据文件以该段中最小的offset命名.这样在查找指定offset的Message的时候,用二分查找就可以定位到该Message在哪个段中. 为数据文件建索引 数据文件分段使得可以在一个较小的数据文件中查找对应offset的Message了,但是这依然需要顺序扫描才能

    hadoop, kafka, 超人学院May 6

  • 超人学院Hadoop大数据高薪就业分享
    超人学院Hadoop大数据高薪就业分享

    想知道如何让薪资翻倍吗,想知道高薪的秘密吗,想知道如何学习大数据课程吗,小伙伴们,本周六晚,超人学院五期就业班学员将为你揭秘你想知道的问题,赶快报名超人学院腾讯课堂吧,更多精彩内容等你看!!点击链接即可报名成功!! http://ke.qq.com/cgi-bin/courseDetail?course_id=67486 关注超人学院微信二维码:

    hadoop, 大数据, 超人学院, 高薪就业分享May 6

  • Hadoop学习资源

    书籍推荐 1.<Hadoop实战>:按照人类容易理解的方式阐述Hadoop如何入门的. 2.<Hadoop权威指南>(中文版):Hadoop中的圣经级教材,很全,不过看起来挺累. 3.<Hadoop技术内幕>系列:语言清晰易懂,叙述细致,校印精确,强烈推荐有志于Hadoop的同学人手一套. 在线学习机构 1.小象学院 :大数据在线教育机构,看简介讲师都是蛮牛的,收费教育,有钱的主可以考虑. 2.实验楼:免费的IT在线实训平台,提供了hadoop学习的在线环境支持,搭配网

    hadoop, 大数据, 资源整理May 4

  • Hadoop完全分布式模式的配置与安装

    转自: http://www.cyblogs.com/ 我自己的博客~ 首先, 我们需要3台机器, 这里我是在Vmware里面创建了3台虚拟机, 来保证我的Hadoop完全分布式的最基本配置.我这里选择的CentOS, 因为RedHat系列,在企业中比较的受欢迎.安装好后,最后的环境信息: IP地址 h1: 192.168.230.133 h2: 192.168.230.160 h3: 192.168.230.161 这里遇见到一个小疑问, 就是修改机器的主机名字. vim /etc/sysco

    hadoop, Hadoop完全分布式May 3

  • hadoop启动脚本基础分析

    Hadoop Version:1.0.1 start-all.sh #总启动开关 1. start dfs daemons 1.1 start namenode call hadoop-daemon.sh(num:135) --> call hadoop, start service, define java memory 1.2 start datanode call hadoop-daemons.sh --> call slave.sh --(ssh)--> slave server

    hadoopMay 3

  • HDFS Inner Protocol

    hdfs.proto /** * Extended block idenfies a block */ message ExtendedBlockProto { required string poolId = 1; // Block pool id - gloablly unique across clusters required uint64 blockId = 2; // the local id within a pool required uint64 generationStamp

    protocol, hadoop, 协议May 3

  • Hadoop NameNode

    NameNode 主要启动逻辑如下: NameNode.initMetrics(conf, this.getRole()); StartupProgressMetrics.register(startupProgress); if (NamenodeRole.NAMENODE == role) { startHttpServer(conf); } loadNamesystem(conf); rpcServer = createRpcServer(conf); if (NamenodeRole.N

    hadoop, NameNodeMay 3

  • HDFS FSImage解析

    HDFS命名空间保存在NameNode中,NameNode使用一个事务日志(EditLog)保存对系统元数据的所有改动. 整个文件系统的命名空间,包括文件和块之间的映射.文件系统属性等都保存在一个叫FsImage文件中. FSImage 是HDFS核心数据结构之一,从构造函数可以看出主要分为三部分: NNStorage.FSEditLog和NNStorageRetentionManager 三个组件的主要功能如下所述: NNStorage is responsible for managemen

    hadoop, hdfs, FSImageMay 3

  • Hadoop学习小结

    还在学校的时候,就知道Hadoop的存在了. 2012年在公司实习的时候,买了<Hadoop权威指南第2版>,大致看了下. 今年,抽空也大致喵了几眼. 最大的感悟就是:光看不做,还是不行. Hadoop最坑最脑残的地方就是,默认不支持在Windows下运行.我的笔记本用的是Windows7系统. 这样,只好安装了VMware,然后安装Ubuntu系统,想通过这种方式来搭建环境. Hadoop这个大数据处理框架包含了好多内容,MapReduce,HDFS等等.我现在只有个模糊的理解,想通过写代码

    hadoop, mapreduce, 大数据, 云计算, 学习感悟May 3

  • Hadoop IPC解析
    Hadoop IPC解析

    Hadoop 其中自己实现了一套进程间通信系统 而不是基于Netty实现的 或许是艺高人胆大 已经不屑于使用第三方库支持了 额- 上述是我猜的 不算数 言归正传 Hadoop中IPC系统org.apache.hadoop.ipc RPC实际是对于底层Client <--> Server通信的一个封装 用于在NameNode DataNode Second NameNode Client各个组件之间通信 org.apache.hadoop.ipc.Server IPC调用以一个Writable作

    hadoop, ipc, coreMay 2

  • Windows下使用Hadoop2.6.0-eclipse-plugin插件
    Windows下使用Hadoop2.6.0-eclipse-plugin插件

    首先说一下本人的环境: Windows7 64位系统 Spring Tool Suite Version: 3.4.0.RELEASE Hadoop2.6.0 一.简介 Hadoop2.x之后没有Eclipse插件工具,我们就不能在Eclipse上调试代码,我们要把写好的java代码的MapReduce打包成jar然后在Linux上运行,所以这种不方便我们调试代码,所以我们自己编译一个Eclipse插件,方便我们在我们本地上调试,经过hadoop1.x的发展,编译hadoop2.x版本的ecli

    eclipse, hadoop, 插件April 30

  • HDFS的升级管理

    升级HDFS的概要过程和命令 Hadoop的官方文档中,对于HDFS的升级建议分三个步骤,1,先停掉HDFS服务,再启动,HDFS合并FsEditLog到FsImage之中,再停掉HDFS服务,2,备份namenode的meta文件,在新版本HDFS安装目录的配置文件中,配置namenode的meta文件目录指向旧有的meta文件目录,以-upgrade选项启动HDFS,让HDFS服务执行升级过程,3,升级进度达到100%后,执行hadoop dfsadmin -finlizeUpgrade告诉

    hadoop, 大数据, 云计算, HDFS升级April 27

  • 在Hadoop2.5.0下利用Java读写HDFS
    在Hadoop2.5.0下利用Java读写HDFS

    此文假设您已经安装好了Hadoop2.5.0,下面开始着手编写程序,所需依赖jar包: hadoop-common-2.5.0.jar 把此jar包加到你项目里面即可. 首先我在HDFS上利用MRV2程序已经生成了一个文件[input](你们可以自动手动随便上传一个文件也是可以的),目录如下图: 文件内容如下: A00WindFarm1,33 A01WindFarm2,66 A02WindFarm3,99 A03WindFarm4,132 A04WindFarm5,165 A05WindFarm

    api, hadoop, hdfs, JavaApril 20

  • 在Tomcat中执行Hadoop的MapReduce程序(五)[未完]

    准备 在linux中准备tomcat服务器,通过,tomcat/bin/startup.sh检查是否能正常跑起来. 本次介绍通过web程序执行mapreduce程序,下章将介绍如何通过web程序监控mapreduce的执行进度.过程和结果,以便可以实现简单的管理功能,达到可以和业务监控模块的集成. 搭建 在IDEA中新建MAVEN工程,配置好pom.xml和web.xml 这里是用Spring和Struts2作为主程序框架.

    hadoop, mapreduce, Web, ideaApril 14

  • HDFS的读写数据流文件过程介绍(四)
    HDFS的读写数据流文件过程介绍(四)

    HDFS文件的读取 文件读取的过程如下: 1)解释一 客户端(client)用FileSystem的open()函数打开文件. DistributedFileSystem用RPC调用元数据节点,得到文件的数据块信息. 对于每一个数据块,元数据节点返回保存数据块的数据节点的地址. DistributedFileSystem返回FSDataInputStream给客户端,用来读取数据. 客户端调用stream的read()函数开始读取数据. DFSInputStream连接保存此文件第一个数据块的最

    hadoop, hdfsApril 14

  • IDEA下进行Hadoop HDFS常用API调试(三)

    准备 hadoop集群和开发环境在前面必须准备好,调试代码没有将Configuration配置进hadoop的hdfs地址,调试时请手动添加. 同时调试时,请修改main方法到需要调试的方法. 调试 package me.j360.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.hdfs.DistributedFileSystem;

    api, hadoop, hdfs, ideaApril 14

  • Windows下使用 IntelliJ IDEA搭建hadoop开发环境调试MapReduce(二)

    准备 准备前一篇的涉及到的内容 这里额外新增一快,在idea的安装目录下,也就是idea.exe的目录下新建一个idea.bat,使用txt文本文件改下后缀名即可,编辑输入以下信息: runas /user:root /savecred idea.exe 相当于使用前面新建的windows账号为root的用户,使用root身份执行idea.exe程序,此时会提示输入root账号的密码,如果idea在root账号下曾经开发过其他的内容,IDEA会使用root下的配置. 搭建 前面已经新建了Test

    hadoop, mapreduce, ideaApril 14

  • 云平台hadoop搭建以及wordcount实例运行
    云平台hadoop搭建以及wordcount实例运行

    我的第一篇博客,希望大家能够看懂! hadoop是大数据处理的平台,是基于linux系统下的,在windows安装hadoop,很是费劲,连平台搭建都那么难在上面运行代码就更难了,这不是windows的强项,你们都懂得!!hadoop的搭建俺花了很长时间,写下来希望对大家有所帮助! 前提准备:由于hadoop是基于linux,那就先要在windows下模拟出linux环境来,现推荐几款软件:cygwin.hadoop4win.HDP和vmware. cygwin:Cygwin是一个在window

    hadoop, wordcount, 大数据, 云计算, hadoop4winApril 14

  • 解决关闭Hadoop时no namenode to stop异常

    问题描述 部门的Hadoop集群运行有一个多月了,今天需要做点调整,但是突然发现Hadoop不能正常关闭! Hadoop版本:2.6.0 具体情况如下: [[email protected] ~]# stop-dfs.sh Stopping namenodes on [master] master: no namenode to stop slave2: no datanode to stop slave1: no datanode to stop ... 问题原因 执行jps,发现namenode,dat

    tmp, hadoop, NameNode, tmpwatchApril 10

  • Hadoop发行版的比较与选择

    Hadoop的发行版除了社区的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本.商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要.每个发行版都有自己的一些特点,本文就各个发行版做简单介绍. 2008 年成立的 Cloudera 是最早将 Hadoop 商用的公司,为合作伙伴提供 Hadoop 的商用解决方案,主要是包括支持,咨询服务,培训.2009年Hadoop的创始人 Doug Cutting也

    apache, intel, hadoop, emc, mapr, 比较, 华为, IBM, cloudera, HortonworksApril 9

  • 实现RPC框架,几行代码就够了

    因为要给百技上实训课,让新同学们自行实现一个简易RPC框架,在准备PPT时,就想写个示例,发现原来一个RPC框架只要一个类,10来分钟就可以写完了,虽然简陋,也晒晒: RPC核心类: /* * Copyright 2011 Alibaba.com All right reserved. This software is the * confidential and proprietary information of Alibaba.com ("Confidential * Informatio

    rpc, hadoopApril 8

  • The Design of HDFS

    HDFS is a filesystem designed for storing very large files with streaming data access patterns, running on clusters of commodity hardware. Let's examine this statement in more detail: Very large files "Very large" in this context means files tha

    hadoop, hdfs, DesignApril 8

  • Windows上安装HADOOP单机伪分布式集群

    1.准备HADOOP运行环境 下载解压并拷贝到Cygwin的用户主目录 http://archive.apache.org/dist/hadoop/core/hadoop-0.20.2/hadoop-0.20.2.tar.gz 1.x版本有BUG,参考: https://issues.apache.org/jira/browse/HADOOP-7682 https://issues.apache.org/jira/browse/HADOOP-8274 BUG修复请参考: http://en.wi

    cygwin, hadoop, nutch, 大数据, 集群April 8

  • Ubuntu上安装HADOOP多机完全分布式集群

    1.三台机器 host2(NameNode.SecondaryNameNode.JobTracker.DataNode.TaskTracker) host6(DataNode.TaskTracker) host8(DataNode.TaskTracker) vi /etc/hostname(分别给每一台主机指定主机名) vi /etc/hosts(分别给每一台主机指定主机名到IP地址的映射) 2.新建用户和组 三台机器上面都要新建用户和组 addgroup hadoop adduser --in

    hadoop, nutch, 大数据, 搜索, 集群April 8

  • Ubuntu上安装HADOOP单机伪分布式集群

    1.新建用户和组 addgroup hadoop adduser --ingroup hadoop hadoop 注销root以hadoop用户登录 2.配置SSH ssh-keygen -t rsa(密码为空,路径默认) cp .ssh/id_rsa.pub .ssh/authorized_keys 3.准备HADOOP运行环境 wget http://archive.apache.org/dist/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gz

    ssh, hadoop, nutch, 大数据, 搜索April 8

  • hdfs一致性模型详解

    文件系统的一致模型描述了对文件读写的数据可见性.HDFS为性能牺牲了一些POSIX请求,因此一些操作可能比想像的困难. 在创建一个文件之后,在文件系统的命名空间中是可见的,如下所示: 1. Path p = new Path("p"); 2. Fs.create(p); 3. assertThat(fs.exists(p),is(true)); 但是,写入文件的内容并不保证能被看见,即使数据流已经被刷新.所以文件长度显示为0: 1. Path p = new Path("p&

    hadoop, hdfsApril 7

  • 运行nutch提示:0 records selected for fetching, exiting
    运行nutch提示:0 records selected for fetching, exiting

    运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ... 然后程序退出,怎么回事呢? 原因多种多样,归根结底就是CrawlDB中的URL经过爬虫抓取调度器(默认是 org.apache.nutch.crawl.DefaultFetchSchedule)判断,断定都不应该去抓, 所以,Stop The World. 我们使用命令如下命令来查看CrawlDB的统计信息: bin/nutch readdb data/craw

    hadoop, nutch, 搜索引擎, 大数据, 网络爬虫April 7

  • 大数据系列3:用Python编写MapReduce

    vi mapper.py 输入: #!/usr/bin/env python importsys for linein sys.stdin: line= line.strip() words= line.split() forword in words: print'%s\t%s' % (word,1) chmod +x mapper.py vi reducer.py 输入: #!/usr/bin/envpython from operator import itemgetter import

    python, hadoop, 搜索引擎, 大数据, 网络爬虫April 6

  • 大数据系列2:建立开发环境编写HDFS和Map Reduce程序

    1.在eclipse中配置hadoop插件 将hadoop-eclipse-plugin-1.2.1.jar 复制到eclipse/plugins目录下,重启eclipse. 2.打开MapReduce视图 Window-> Open Perspective -> Other 选择Map/Reduce,图标是个蓝色的象. 3.添加一个MapReduce环境 在eclipse下端,控制台旁边会多一个Tab,叫"Map/ReduceLocations",在下面空白的地方点右键,

    hadoop, 搜索引擎, 大数据, 网络爬虫, 搭建hadoop开发环境April 6

  • 大数据系列1:在win7上安装配置Hadoop伪分布式集群

    1. 安装虚拟机和操作系统 VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2. 设置root用户密码 sudo passwd root 3. 上传文件 利用WinSCP上传JDK和HADOOP文件,利用putty连接虚拟机中的ubuntu,下载WinSCP, 下载putty, 下载jdk,下载hado

    hbase, hadoop, 搜索引擎, 大数据, 网络爬虫April 6

  • Hadoop2.6+jdk8的安装部署(1)--使用jar包安装部署[详细]
    Hadoop2.6+jdk8的安装部署(1)--使用jar包安装部署[详细]

    Hadoop的安装部署可以分为三类: 一. 自动安装部署 Ambari:http://ambari.apache.org/,它是有Hortonworks开源的. Minos:https://github.com/XiaoMi/minos,中国小米公司开源(为的是把大家的手机变成分布式集群,哈哈..) Cloudera Manager(收费,但是当节点数非常少的时候是免费的.很好的策略!并且非常好用) 二. 使用RPM包安装部署 Apache Hadoop不提供 HDP和CDH提供 三. 使用JA

    hadoop, dfs, yarnApril 4

  • Hadoop分布式文件系统HDFS和OpenStack对象存储系统Swift有何不同?

    1. HDFS使用集中式单一节点架构(NameNode)来维护文件系统元数据,而在Swift中,元数据分布在整个集群中并拥有多个副本.注意:集中式元数据存储使HDFS存在性能.单点故障和扩展性问题,因此规模越大就性能越低,就越容易不可用,就越难扩展甚至不能扩展,所幸的是HDFS2使用NameNode HA和HDFS Federation解决了这三个问题. 2. Swift在设计时考虑到了多租户架构,而HDFS没有多租户架构这个概念. 3. HDFS针对大文件作了优化(HDFS关注吞吐量,常用于批

    hadoop, hdfs, Java, Swift, openstackApril 4

  • Hadoop文件系统详解----(一)

    Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现.Java抽象类 org.apache.hadoop.fs.FileSystem展示了Hadoop的一个文件系统,而且有几个具体实现,如表 3-1所示. 文件系统 URI 方案 Java实 现(全部在 org.apache.hadoop) 描述 Local file fs.LocalFileSystem 针对有客户端校验和 的本地连接磁盘使用 的文件系统.针对没 有校验和的本 地文件系统使用 RawLocalFileSystem.

    hadoopApril 3

  • Apache Hadoop 2.6.0安装部署
    Apache Hadoop 2.6.0安装部署

    注:本文档参考官方文档编写,原文链接:http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/SingleCluster.html http://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-common/ClusterSetup.html 1.硬件环境 共有 3 台机器,均使用的 linux 系统,Java 使用的是 jdk8.0. 配置如下

    apache, hadoop, 分布式, 大数据处理, 2.6.0April 2

  • hadoop 根据SecondaryNameNode恢复Namenode

    制造namenode宕机的情况 1) kill 掉namenode的进程 [[email protected] bin]$ kill -9 13481 2)删除dfs.name.dir所指向的文件夹,这里是/home/hadoop/hdfs/name. current image in_use.lock previous.checkpoint [[email protected] name]$ rm -rf * 删除name目录下的所有内容,但是必须保证name这个目录是存在的 3)从secondaryname

    hadoop, 根据SecondaryNameNode恢复NamenodeApril 1

  • 深入浅出Hadoop数据流(1)
    深入浅出Hadoop数据流(1)

    首先是一些术语的说明.MapReduce作业(job)是客户端执行的单位:它包括输入数据.MapReduce程序和配置信息.Hadoop通过把作业分成若干个小任务(task)来工作,其包括两种类型的任务:map任务和reduce任务. 有两种类型的节点控制着作业执行过程:jobtracker和多个tasktracker.jobtracker通过调度任务在tasktracker上运行,来协调所有运行在系统上的作业.Tasktracker运行任务的同时,把进度报告传送到jobtracker,jobt

    hadoopMarch 30

  • HDFS Java API 详解

    Hadoop版本: Hadoop 2.6.0 连接HDFS String URL="hdfs://hadoop001:9000"; Configuration conf = new Configuration(); conf.set("fs.defaultFS", URL); FileSystem fs = FileSystem.get(conf); 上传文件到HDFS //获取本地文件的输入流 FileInputStream in=new FileInputStr

    hadoop, hdfsMarch 24

  • Hadoop的kerberos的实践部署

    1.安装:通过yum安装即可,组成KDC. yum install -y krb5-server krb5-lib krb5-workstation 2.配置:Kerberos的配置文件只有两个.在Hadoop1中创建以下两个文件,并同步/etc/krb5.conf到所有机器. /var/kerberos/krb5kdc/kdc.conf:包括KDC的配置信息.默认放在 /usr/local/var/krb5kdc.或者通过覆盖KRB5_KDC_PROFILE环境变量修改配置文件位置. 配置示例

    hadoop, kerberosMarch 16

  • 使用FileSystem API读取数据

    如前一小节所解释的,有时不能在应用中设置URLStreamHandlerFactory.这时,我们需要用FileSystem API来打开一个文件的输入流. 文件在Hadoop文件系统中显示为一个Hadoop Path对象(不是一个java.io.File对象,因为它的语义与本地文件系统关联太紧密).我们可以把一个路径视为一个Hadoop文件系统URI,如hdfs://localhost/user/tom/quangle.txt. FileSystem是一个普通的文件系统API,所以首要任务是检

    hadoopMarch 16

  • hadoop.hbase.zookeeper环境搭建

    一 机器 192.168.0.203 hd203: hadoop namenode & hbase HMaster 192.168.0.204 hd204: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.205 hd205: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.206 hd206: hadoop datanod

    hbase, hadoop, zookeeperMarch 13

  • hadoop作业引用第三方jar文件原理解析

    在eclipse中写mapreduce程序, 引用第三方jar文件, 可以利用eclipse hadoop插件直接run on hadoop提交, 很方便. 不过插件版本要和eclipse匹配, 不然总是local执行, 在50070是没有job产生的. 如果希望将程序发布成jar文件, 在namenode上通过命令行方式执行, 缺少了eclipse帮忙自动配置jar文件, 会遇到java.lang.ClassNotFoundException, 这个问题可分成两种情况讨论. 一. hadoop

    hadoopMarch 12

  • HDFS设计基础与目标

    设计基础: (1)由于硬件错误是常态.因此需要冗余. (2)流式数据访问,即数据批量读取,而非随机读取.hadoop擅长做的是数据分析而不是事务处理. (3)大规模数据集 (4)简单一致性模型.为了降低系统复杂度,对文件采取一次性写多次读的逻辑设计,即是文件一经写入,关闭后,就再也不能修改. (5)程序采用"数据就近"原则分配节点执行. 体系结构: hdfs采用主从结构,Namenode属于主端,Datanode属于从端. Namenode: 1) 管理文件系统的命名空间. 2) 记录

    hadoop, hdfsMarch 10

  • 查询文件系统

    1. 文件元数据:FileStatus 任何文件系统的一个重要特征都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能.FileStatus类封装了文件系统中文件和目录的元数据,包括文件长度.块大小.复本.修改时间.所有者以及权限信息. FileSystem的getFileStatus()方法用于获取文件或目录的FileStatus对象.范例3-5显示了它的用法. 范例3-5. 展示文件状态信息 public class ShowFileStatusTest { private MiniD

    hadoop, 文件系统March 10