Hadoop教程

Hadoop是一个开源框架，它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展，每一个台机都可以提供本地计算和存储。

“90％的世界数据在过去的几年中产生”。

由于新技术，设备和类似的社交网站通信装置的出现，人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式，它可以填补整个足球场。在2011年创建相同数据量只需要两天，在2013年该速率仍在每十分钟极大地增长。虽然生产的所有这些信息是有意义的，处理起来有用的，但是它被忽略了。

什么是大数据？

大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。

在大数据会发生什么？

大数据包括通过不同的设备和应用程序所产生的数据。下面给出的是一些在数据的框架下的领域。

黑匣子数据：这是直升机，飞机，喷气机的一个组成部分，它捕获飞行机组的声音，麦克风和耳机的录音，以及飞机的性能信息。
社会化媒体数据：社会化媒体，如Facebook和Twitter保持信息发布的数百万世界各地的人的意见观点。
证券交易所数据：交易所数据保存有关的“买入”和“卖出”，客户由不同的公司所占的份额决定的信息。
电网数据：电网数据保持相对于基站所消耗的特定节点的信息。
交通运输数据：交通数据包括车辆的型号，容量，距离和可用性。
搜索引擎数据：搜索引擎获取大量来自不同数据库中的数据。

Big Data

因此，大数据包括体积庞大，高流速和可扩展的各种数据。它的数据为三种类型。

结构化数据：关系数据。
半结构化数据：XML数据。
非结构化数据：Word, PDF, 文本，媒体日志。

大数据的好处

通过保留了社交网络如Facebook的信息，市场营销机构了解可以他们的活动，促销等广告媒介的响应。
利用信息计划生产在社会化媒体一样喜好并让消费者对产品的认知，产品企业和零售企业。
使用关于患者以前的病历资料，医院提供更好的和快速的服务。

大数据技术

大数据的技术是在提供更准确的分析，这可能影响更多的具体决策导致更大的运行效率，降低成本，并减少了对业务的风险。

为了利用大数据的力量，需要管理和处理的实时结构化和非结构化的海量数据，可以保护数据隐私和安全的基础设施。

目前在市场上的各种技术，从不同的供应商，包括亚马逊，IBM，微软等来处理大数据。尽管找到了处理大数据的技术，我们研究了以下两类技术：

操作大数据

这些包括像MongoDB系统，提供业务实时的能力，这里主要是数据捕获和存储互动工作。

NoSQL大数据系统的设计充分利用已经出现在过去的十年，而让大量的计算，以廉价，高效地运行新的云计算架构的优势。这使得运营大数据工作负载更容易管理，更便宜，更快的实现。

一些NoSQL系统可以提供深入了解基于使用最少的编码无需数据科学家和额外的基础架构的实时数据模式。

分析大数据

这些包括，如大规模并行处理（MPP）数据库系统和MapReduce提供用于回顾性和复杂的分析，可能触及大部分或全部数据的分析能力的系统。

MapReduce提供分析数据的基础上，MapReduce可以按比例增加从单个服务器向成千上万的高端和低端机的互补SQL提供的功能，这是系统的一种新方法。

这两个类技术是互补的，并经常一起部署。

操作与分析系统

操作	分析
等待时间	1 ms - 100 ms	1 min - 100 min
并发	1000 - 100,000	1 - 10
访问模式	写入和读取	读取
查询	选择	非选择性
数据范围	操作	回溯
最终用户	顾客	数据科学家
技术	NoSQL	MapReduce, MPP 数据库

大数据的挑战

大数据相关的主要挑战如下：

采集数据
策展
存储
搜索
分享
传输
分析
展示

为了实现上述挑战，企业通常需要企业级服务器的帮助。