当前位置:首页 > 研发管理

10步带你认识大数据和云计算,走出懵逼圈

发布时间:2019-05-08 18:05:55   编辑:it技术学习网   阅读次数:

你知道10级大数据和云计算,被迫退出无谓圈
摘要:相对于传统的数据,有一些所谓的“新数据”是从社交网络,互联网和其他渠道,包括非结构化的文本数据,图像,音频,视频等衍生。世界上的非结构化数据。目前75%以上,而且一直呈现爆炸式增长。关键词:大数据第一步:大数据

近年来“大数据”的概念开始火起来了,现在可谓是无处不在。在了解什么是大数据之前,我们先了解一下什么是旧数据?

IT业务系统的数据中传统的数据,如客户信息,财务数据等。。这些数据是结构化的,该量不是特别大,一般只TB水平。相对于传统的数据,有从社交网络,互联网和其他渠道,包括非结构化的文本数据,图像,音频,视频等派生出来的所谓“新数据”。世界上的非结构化数据。目前75%以上,而且一直呈现爆炸式增长。我们看看下面的图表,以更好地理解:

10步带你认识大数据和云计算,走出懵逼圈

大数据是:传统的结构化数据+新非结构化数据。

因此,大的数据还具有以下特征,被称为“4V”:

卷(大):海量数据的身体,从TB级别,跃升到PB级; 多种(变化):许多类型的数据,有一个网络日志,视频,图像,位置信息,等等。; 的速度(高速):高处理速度,可迅速获得从各种类型的高价值的数据,这也是传统的数据挖掘技术有本质的不同的信息; 值(值):只要在回归合理利用数据分析和正确和准确,将带来高价值。

第二步:大数据组成

大数据系统由基础设施,平台和应用程序组成。我们平时使用电脑的操作系统相反,这些基础设施是计算机硬件,平台上安装的应用程序的内部操作系统上的各种应用程序顶部。

10步带你认识大数据和云计算,走出懵逼圈

各种各样的大数据的应用,但总的来说可以分为“业务应用”和“数据分析”两大类。

前者包括ERP,CRM等业务系统,它是指各种分析应用,包括业务分析,价值分析,流量分析等。。分析从源系统数据的获取业务系统,经过分析可以培育的业务系统,使他们(注智慧),让其拥有智慧。在这里,你是不是觉得有点熟悉?利用我们的BI有一些链接它?是的,“大数据平台”和“数据分析系统”在一起啊BI的升级版!既然是升级版,它是什么它与传统BI的区别?考虑下面的知道它。

便宜

去IOE,使用廉价的硬件X86,更多地使用开源软件,节省成本

良好的灾难恢复

部署在集群机的问题X86平台可以随时切换

良好的扩展性

X86簇可以展开为需要在任何时间,增加灵活性

高效率

当数据到达TB的水平,处理效率提高显著

许多类型的治疗

它可以处理结构化,半结构化,非结构化数据

进一步挖掘的值

大的,多类型的数据处理,其可以进一步挖掘数据的值。

不是有很多升级的地方它?为了支持这些升级,设有一个大型数据系统需要它?这涉及到架构的继续往下看的问题,其次是小麦。

第三步:大数据架构

我们已经知道,大数据系统由基础设施,平台和应用程序组成,我们进一步细分,见下图:

10步带你认识大数据和云计算,走出懵逼圈

通过局域网或互联网连接组成的X86集群基础设施,为大型数据平台的基本硬件支持。

大数据平台由基础设施,数据处理三个部分数据服务:

基础设施是负责基础设施管理系统,提供了分布式数据处理的基本服务; 数据采集过程负责数据,存储,计算; 数据处理将负责给上层应用程序使用提供数据服务。用户应用数据是种类繁多的应用,包括业务应用和数据分析。整体架构大数据系统是这样的,通常不会与我们的BI架构喜欢看? 通过这种比较,我们形成更加明确:

10步带你认识大数据和云计算,走出懵逼圈

在这里,我们将重点放在这个框架来展开说明。明白了这个框架内,将实现小麦的目的。

第四步:虚拟化

基础设施来提供计算,存储,网络三种能力是大数据平台的基础。但如何解决以下问题:

如何管理大量的机器

当集群修改的状态,即,增加或减少机器的数量,你会做修改配置平台?

如何充分利用系统资源

当能够使用集群的一部分,但是这需要时间用来部署其它系统的新机,它是从机器上取下的集群来提供它?

如何解决弹性问题

当峰的系统可能需要20机通常只需要10。那么有多少我们提供合适呢?20,如果提供,平时空闲下来如何处理10?

这些问题有一个解决办法:虚拟化。是管理集群作为一个整体,你可能需要根据从一些机器配置资源迅速弥补了“新机”。例如,1/5硬CPU1 / 2性能,内存,三分之一,机器A和机器B是由。

当集群变更的情况,我们只需要修改虚拟化软件的配置,降低了平台的影响。如果有多余的群集资源可以供其他系统,充分利用系统资源的使用一些新的虚拟机。

虚拟化主流商业软件Vmware的,开放源码的Xen软件,KVM等。

第五步:cloudified

虽然虚拟化带来的灵活性,资源的分配,但也有明显的缺陷。配置的“新机”,需要手动配置很麻烦,只能管理上百台电脑的规模,在企业内部的应用程序是可能的。但对于互联网企业提供公共服务,通过虚拟化方式进行调整数万台计算机的需求是不可行。于是又有了新的技术的出现:基于云的,即基础设施即服务。见下文:

10步带你认识大数据和云计算,走出懵逼圈

亚马逊最初是根据其业务电商的发展,传统的IT架构已经无法满足需求,开发了AWS(亚马逊Web服务),因此基于开源的虚拟化软件可以支持大规模的集群应用。解决他们的业务需求后,这种技术可以在亚马逊找到作为一个独立的业务市场,这是现世界排名头把交椅的亚马逊云服务的全球市场。同样的背景下,阿里巴巴推出基于Xen的阿里云市场为基础的,现成的云计算已成为国内市场的领导者。因此,我们也知道为什么第一个云服务,互联网公司都是它的最好的?因为他们有自己的业务驱动。缩放机上万台,在资源池(数据中心)的形式分布在不同地域(很多下的广西,贵州,内蒙古,电力,劳动力更便宜的发达省份,还可以促进当地的就业),由统一管理控制中心,这是公共云平台。

虽然亚马逊的云服务在商业基础上,另一家美国公司名为Rackspace的OpenStack的与亚马逊展开竞争。无奈与人竞争,最终决定和美国航空航天局(NASA)合作,在OpenStack的开源,开源云平台,共同组建。后来,各种传统的IT巨头都加入了开源社区,经过二次开发和包装推出了自己的私有云平台,其自身的硬件或打包的解决方案一起销售。

无论是公共云还是私有云,是实现时间和空间的基础架构灵活性的灵活性,基础设施作为一种服务,即:Infranstracture作为服务(IaaS)

第六步:Hadoop的

基础设施大数据平台使用Hadoop,包括HDFS和MapReduce两个部分组成:

HDFS实现集群上的分布式文件系统,负责对文档的操作。(在类似Windows NTFS文件管理系统)来实现的分布式计算和处理任务,负责作业分成分配给多个任务多机集群上的MapReduce执行起来,同时监测执行情况,确保每个任务可以在成功执行所有任务的汇总结果结束后。(类似多的人在图书馆书籍数量,每个人都认为是一个书架(图),最后把所有在一起的结果(降低))

那么,如何安装Hadoop集群上这么多机器下面它?各机器的配置,操作系统可以是不一样的。

该解决方案是一个“容器”技术:一是Hadoop的包装放入密闭容器中,然后发布到统一各部机。集装箱可根据实际的机器环境做出相应的调整,以确保Hadoop的顺利安装。(为统一尺寸的容器类似运输货物)

主流技术是开源的集装箱码头工人。Hadoop的,不仅可以通过容器安装,所有的应用都可以使用。

现在安装在Hadoop的每台机器集群,Hadoop是那么如何运行?见下文:

10步带你认识大数据和云计算,走出懵逼圈

Hadoop的使用时,节点集群主机中的一个,从当其他节点。对于HDFS,法师的NameNode,负责管理文件系统命名空间和控制客户端接入; 从站数据的DataNode,负责管理存储。对于MapReduce的是,法师的JobTracker,构成负责调度工作的所有任务,这些任务分布在不同的TaskTracker; 从机的TaskTracker,负责执行指定任务的JobTracker。

Hadoop的已经从许多不同的升级版衍生,目前最成熟,应用最广泛的Spark。

第七步:数据处理

数据处理是一个数据采集,存储和计算。因为有各种各样的大数据应用,不同的应用程序,数据结构,数据类型,实时性要求可能会有所不同。因此,开展基于实际情况,这是关键,大数据平台的设计会影响整个平台的整体性能数据库选择。不同类型的数据库可以混合和匹配,同时使用不同的技术ETL。

目前有多种常见的数据库类型如下:

传统的数据库

有大型数据库的Oracle,DB2,MySQL的,主要用于小规模的应用,或者利用现有的资源,同时降低了系统升级的风险,ETL技术使用的DataStage,水壶等。

内存数据库

有主流数据库SQLite的,HANA,主要用于数据的需求,如实时的指标显示,精准营销等的高,实时处理的实时性要求。,ETL技术采用了流处理技术卡夫卡。

MPP数据库

MPP是指大规模并行处理,数据库支持X86 MPP簇,一个共同的Greanplum,Vertica的,主要用于结构化的数据,例如信令分析,DPI的分析的大规模分析,通常用作ETL工具水壶。

NoSQL数据库

的NoSQL指半结构化或非结构化的数据库,主数据库具有的MongoDB,HBase的HDFS,和类似物,用于存储HBase的或半结构化的数据结构是稀疏的,存储非结构化数据到HDFS。HBase的和HDFS不支持SQL,因为需要使用Hive SQL接口来执行一些简单的查询。基于Hadoop的的NoSQL数据库平台,主要用于大型半/非结构化的离线分析,如互联网数据分析,文献分析等。,一般采用网络爬虫技术,ETL。

第八步:数据服务

处理后的数据后,一般不提供与SQL上层应用程序直接访问,这是从数据仓库中不同。数据仓库存储在摘要层,用SQL访问直接上层应用程序处理后,以收集在。但是大数据平台的封装处理的数据和分类数据服务接口提供了灵活性,呼吁对上层应用,可以保证安全性和规范性的数据访问。承载接口有:文档,消息,API,SDK,集成接口,其过程如下:

10步带你认识大数据和云计算,走出懵逼圈

数据格式

原始数据格式,以及排名滤波器场。

数据封装

数据和元数据格式的数据包,以实现外部一致的,标准化的数据访问接口。

数据分类

封装的数据,通过对象接口分类。

data service

上层应用数据服务接口调用数据可以实现数据服务。

数据服务接口掩盖了大数据平台的所有细节,该平台被用作该应用程序的服务,这种方式被称为平台即服务(PaaS)。

在公共云中的一般供应商都会有相应的PaaS服务提供商,如阿里云EDAS(分布式企业应用服务)。

私有云是企业自建,控制对数据的访问不是那么严格。为了通常开发高效的应用程序可以直接通过SQL访问数据。

第9步:大数据的应用

在小麦的前面已经为大家介绍过基础设施和大数据平台,同时也介绍了私有和公共云之间的区别。对于大数据应用,在私有云上的应用程序,也就是我们通常说的企业信息系统,但是这些系统是利用大数据架构。在公共云中的应用,指的是互联网服务我们平时使用,如微信,微博,支付宝。但是,随着云服务市场的发展,越来越多的传统IT厂商通过向公众提供公共云服务,比如我们熟悉的MicrosoftOffice 365。这样,软件作为服务提供者称为:软件即服务(SaaS)。

在国际市场上,比较常见的企业级SaaS服务的客户管理服务Saleforce,团队协作服务谷歌企业应用套件等。。国内市场的金蝶,微软,Oracle还提供了各种SaaS产品和服务。我们可以看一下IDC对2017-- 2022预测中国公有云市场作为一个整体(单位:百万美元):

10步带你认识大数据和云计算,走出懵逼圈

从上表中可以看出,整个云服务市场的年复合增长41%,增长最快的PaaS服务,率达55.7%。世界第二中国企业SaaS市场的份额在未来五年仍呈现高速增长态势,35年复合增长率。7%。到2022年,整个SaaS市场达到40十亿元左右。

步骤10:云计算

大家有没有发现,他刚才说了这么久,也没有提及云计算?事实上,在所有的床上用品的面前,现在我们必须告诉你关于云计算。云计算是一种IT基础设施,交付和使用模式的IT资源的一种方法。IaaS的前面所述,PaaS的,SaaS的云计算架构是针对不同的资源,分别是基础设施,平台,软件的未来交付模式为用户提供服务。

到目前为止,小麦已经被相关的概念被引入。我们投入了大量的地图数据的前面,以进一步优化体系结构,如果我们能够了解它?

10步带你认识大数据和云计算,走出懵逼圈

如果我们明白,小麦可以认为此介绍给功德圆满。如果你没有看过,跳过第一步再次看到它,哈哈。

本文链接:10步带你认识大数据和云计算,走出懵逼圈

友情链接:

般若波罗蜜多心经解释全文 金刚经原文 心经讲解 大悲咒讲解 心经原文 心经原文 般若波罗蜜多心经 金刚经唱诵 大悲咒讲解 金刚经唱诵 心经全文白话文解释 心经念诵 念金刚经的好处 金刚经原文 大悲咒全文 心经全文 金刚经全文白话 大悲咒功德 心经念诵 金刚经拼音
网站地图
it技术学习网版权所有   苏ICP备18043316号