查看: 34|回复: 0

扣丁学堂告诉你什么是Hadoop即服务 Hadoop-as-a-Service

发表于 2018-8-6 11:09:13
在我们的文章讲解之前,我想问一下喜欢大数据或者是从事大数据行业的朋友们,大家知道Hadoop即服务(Hadoop-as-a-Service)吗?对Hadoop即服务(Hadoop-as-a-Service)又有多少的了解呢?如果了解的不多的话没有关系,下面随扣丁学堂大数据培训小编一起来看一下什么是Hadoop即服务(Hadoop-as-a-Service)。


HaaS出现背景:
         开源大数据框架Apache Hadoop已经成了大数据处理的事实标准,同时也几乎成了大数据的代名词,虽然这多少有些以偏概全。根据Gartner的估计,目前的Hadoop生态系统市场规模在7700万美元左右。
         但是在Hadoop这个快速扩增的蓝海中游泳并非易事,不仅开发大数据基础设施技术产品这件事很难,销售起来也很难,具体到大数据基础设施工具如Hadoop、NoSQL数据库和流处理系统则更是难上加难。客户需要大量培训和教育,付费用户需要大量支持和及时跟进的产品开发工作。而跟企业级客户打交道往往并非创业公司团队的强项。此外,大数据基础设施技术创业通常对风险投资规模也有较高要求。
         种种这些就催生了众多Hadoop作为一种服务(HaaS)提供商的诞生。HaaS为不堪重负,渴求Hadoop,但又缺乏相应的内部资源或专业知识的数据中心管理员们提供了一个绝佳的机会。
HaaS的价值:
         与直接在物理机上部署Hadoop相比,很明显HaaS可以做到按需购买、按需使用,并且只为使用时间付费。同时,和其他“…即服务”的模式一样,如果你不再需要Hadoop环境了,现有的资源可以被用于其他的工作负载。
         在物理机上部署Hadoop通常还需要专项的资金投资、数据中心的机柜空间、精密空调、电力和其他各种技术问题。而对于HaaS,用户需要考虑的只是管理一些额外的虚拟设备,或者投入一些资金在设备群集上。
HaaS标准:
         用户需要什么样的HaaS呢?每家服务提供商之间的差别是巨大的。HaaS供应商们提供一系列的功能和支持,从基本的访问Hadoop软件到虚拟机,从“自行运行”(RIY)环境软件的预配置到包括工作监督和调整支持的全方位服务支持。对于HaaS的任何评价都应该考虑到如何更好的让每一项服务能够满足您的业务目标,同时尽量减少Hadoop和基础设施的管理问题。下面我们列举五个标准,也许可以帮助您区分不同的HaaS备选方案。
         1、HaaS应同时满足数据科学家和数据中心管理员的需求
         数据科学家们花费了大量时间进行处理数据,整合数据集及应用统计分析。这些类型的数据用户通常会希望有一个功能丰富且强大的环境。理想情况下,数据科学家们应该具备通过Hive、Pig、R、Mahout及其他数据科学工具运行Hadoop YARN作业的能力。数据科学家一登录到服务,相关的计算操作就应立即可用,并开始工作。集群启动和重新加载数据的延迟是低效和不必要的。“永远在线”的Hadoop服务,避免了数据科学家必须在开始工作之前从非HDFS的数据存储集群和负载数据部署出现的令人沮丧的延迟。而对于系统管理员,少即是多。他们的工作就是进行一系列的相关管理工作。管理控制台应简化,使他们能够迅速的通过执行数量最少的步骤就能完成这些任务。如果管理员必须配置一组参数,那么就应该同时避免这些参数被暴露,又要避免参数被HaaS 供应商管理。同样的,低层次的监控细节应由HaaS 供应商管理。管理界面应该能够简单明了的反应管理平台的整体状况和是否遵从了SLA。
         2、HaaS应该在HDFS存储“静态数据”
         HDFS是存储在Hadoop的数据的原始格式。当数据需要被持久的以其他格式存储时,其必须被加载到HDFS中。持久地在HDFS中存储数据,避免了延误,以及将数据从另一种格式转换到HDFS的成本。
         3、HaaS应该提供弹性
         当企业用户在考虑是否选择某家HaaS供应商,并进行相关的评估时,弹性应成为考虑的中心要素。而在考虑是否选择某家HaaS供应商时,需要考虑进行评估的另一个因素是HaaS供应商根据服务管理需求提供弹性的难易程度。特别是,必须考虑到服务处理不断变化的计算和存储资源需求的透明度。
         4、HaaS应支持不停机操作
         在有固定工作负载的生产环境中,系统管理员可以调整操作系统和应用程序来优化这些工作负载的处理。他们可以通过各具特色的配置参数的最佳设定和监控操作的关键指标,以确保工作按预期运行,实现不停机操作。
         5、HaaS应该是自配置
         使用HaaS的优点是,其最大限度地降低对Hadoop专家的需求。HaaS本身能够自行配置最佳数量和类型的节点。数据科学家们深谙统计和机器学习何时可能需要应用特定的统计测试或使用特定的机器学习算法,但对于一个Hadoop集群的配置来保持他们的工作流程的运行则可能并没有很深的造诣。
         以上就是扣丁学堂大数据培训小编给大家分享的什么是Hadoop即服务(Hadoop-as-a-Service),希望对小伙伴们有所帮助,想要了解更多关于大数据开发方面内容的小伙伴可以登录扣丁学堂官网咨询。扣丁学堂不仅有专业的大数据培训班供大家学习,还有与时俱进的课程体系和大量的大数据在线视频教程让学员免费观看学习,想要学好大数据的小伙伴快到扣丁学堂来了解详情吧。扣丁学堂大数据学习群:209080834。


文章转载自:扣丁学堂http://www.codingke.com/



回复

使用道具 举报