大数据

Hi, 请登录

一本书读懂大数据百度网盘pdf下载

推荐阅读:SEO干货网站内部链接优化与整站优化>>    推荐阅读:一份完整的企业公众号运营草案>>   

第一章

身处数据时代,揭开大数据的面纱科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

002

一本书读懂大数据

大数据到底是什么 ?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和GoogleFile System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James,2011)是这么定义“大数据”的:大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知

003

第一章身处数据时代,揭开大数据的面纱

道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁SteveMills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zettabyte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会

004

一本书读懂大数据

大数据30时代_大数据时代 pdf 盘_大数据金融时代

图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据大数据时代 pdf 盘,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利

005

第一章身处数据时代,揭开大数据的面纱

用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop大数据时代 pdf 盘,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得

……

来源【大数据】,更多内容/合作请关注「辉哥智库」公众号,赠文案训练手册电子书。

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论