微软Big Data解决方案介绍(一)
Big Data是近年来的一个技术热点, 由于互联网、云计算和移动的快速发展,数以亿计用户的互联网服务时时刻刻在进行巨量的交互,从而产生海量的数据。而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的技术手段已经无法应付。微软也注意业界对这种大数据发展的需求,在以后的一些文章中,我会给大家逐渐介绍大数据的应用特点和微软在大数据上的解决方案
首先介绍一下基于Windows Azure的Apache Hadoop服务,这个服务是部署在微软Windows Azure的集群节点上,提供了一个用于大数据管理、 分析和报告的软件设计框架。如今当我们一提到大数据,其实就意味着不断增加的数据容量,和各种非结构化的数据。其实大数据的收集本身并不提供对企业的价值, 它的价值是存在可操作的智能分析上,所以有意义的大数据必须是可以访问、 清洗、 分析,并可以用一个有用的方式来展现的
Apache Hadoop 核心提供了可靠的数据存储与 Hadoop 分布式文件系统 (HDFS) 和一个简单的并行处理和分析分布式系统中数据的MapReduce编程模型。为了简化分析从各种来源的非结构化数据的复杂性,MapReduce的编程模型提供了一个能够提供封闭地图和减少操作的核心抽象层。MapReduce编程模型视图把所有的作业视为对键值对数据集的计算。因此输入和输出文件必须包含此类键值对数据集。其他Hadoop 相关的项目如Pig和Hive 是建立与HDFS和MapReduce的 框架上,提供更高的抽象级别,如数据流量控制和查询,以及其他功能,如数据仓库和数据挖掘、 集成大数据分析和端到端管理等等。
在Windows Azure上的实施Hadoop服务 使得HDFS/MapReduce 软件框架和相关的项目更简单、 更可扩展和成本更高效。为了简化配置和运行 Hadoop 作业和与部署的群集进行交互,微软提供的JavaScript 和Hive的控制台。这种简化的JavaScript 方法使得IT 专业人员和开发人员能够在Windows Azures上处理大数据管理和分析。
除了已经可用 的Hadoop 生态系统的项目外,Apache Hadoop服务还提供了ODBC 的驱动程序和微软的BI 工具进行集成 (如 Excel,SQL Server 分析服务和报表服务、大大 便利和简化了端到端数据分析