大数据时代,R以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R的计算引擎、性能、程序包都得到了提升,其中R与大数据分析平台Hadoop的结合,实现了R对大数据的分布式处理分析。这些不仅大大扩展了R的应用,也扩大了R在各行业的需求。
为了更好地适应新形势,满足读者对大数据分析处理学习的迫切需要,我们推出了《大数据分析 ∶ R基础及应用》一书 ,力求使读者能够从中了解大数据相关技术,掌握R语言 ,掌握 Rhadoop大数据分析技术。
本书适合高等院校的各相关专业的本专科生、研究生 ,零编程基础的科研人员以及对大数据分析技术感兴趣的人士阅读。
在大数据时代,R 以其强大的数据分析挖掘、可视化绘图等功能,越来越受到社会各个领域的青睐。现在,R 的计算引擎、性能、程序包都得到了提升,其中 R 与大数据分析平台 Hadoop的结合,实现了R 对大数据的分析式处理分析。这些不仅大大扩展了R的应用,也扩大了R在各行业的需求。
为了更好地适应新形势,掌握大数据分析处理的相关知识是很有必要的。本书从理论基础、方法,实证三方面详细地阐释了R 和 RHadoop 的相关理论、技术以及应用,使读者了解大数据的基础概念,掌握 R以及 Rhadoop 大数据分析技术。本书不仅适合高等院校的各相关专业的本专科生、研究生,也适合零编程基础的科研人员以及对大数据分析技术感兴趣的人士阅读。本书在内容的选择和结构的安排上进行了深人的思考,使得不论是 R或 RHadoop 的初学者还是具备一定相关专业知识的人员都能从本书中得到一定的收获或启发。
第1章 大数据概述
大数据时代早已到来,《大数据时代》的作者维克托·迈尔·舍恩伯格说,世界的本质就是数据,大数据将开始一次重大的时代转型。其实早在 1980 年,美国著名未来学者托夫勒便在《第三次浪潮》一书中提出"数据就是财富",将大数据热情地赞颂为"第三次浪潮的华彩乐章"。作为云计算领域的重要延伸,大数据正在引领信息革命进入新的时代。2001 年,全球最具权威的IT 研究与顾问咨询公司 Gartner 提出大数据面临 4个 V的挑战;《自然》杂志(2008 年)推出《大数据》专刊,全方面介绍大数据问题;美国总统奥巴马(2012 年)将数据定义为"未来的新石油"。2013 年,Gartner 在一篇报告中指出,64%的受访企业都表示他们正在或是即将进行大数据工作。信息技术、计算机技术和互联网技术的迅速发展,使得人类社会各类数据呈现出爆炸性增长,对这些复杂大数据的有效管理,现已成为当前社会的热点问题。
1.1 大数据的概念
大数据(Big Data),或称为巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到癫取、管理、处理并整理成为帮助企业经营决策目的的资讯。大数据一般指在 10TB(1TB=1024GB)规模以上的数据量,其基本特征可以用 4 个V来总结∶ 数据规模大(Volume)、数据类别多(Variety)、数据处理速度快(Velocity)、价值密度低(Value)。
然而,"大数据"的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的"4个 V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,而这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未有的方式.通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。
1.2 大数据的特征
大数据具有以下 4 个基本特征∶数据规模大、数据类别多、数据处理速度快、价值密度低
1.数据规模大
大数据的基本属性是数据量巨大。目前,各个行业中的各个企业每天都会产生大量的数据,数据呈爆炸式的增长.数据量已从 TB 级别跃升到 PB 级别,甚至到了EB 数量级。面对海量数据,传统的数据库系统处理能力已经难以应对,而且数据量仍在大规模增长.产生数据的来源也变得更加多样化。
2.数据类别多
大数据除了传统的商业活动产生的数据外,还包括互联网上社交媒体产生的文本数据及时刻产生的传感器数据等。数据类型除了结构化数据外,还有半结构化和非结构化数据,如图片、网页、视频等,数据种类繁多。
3.数据处理速度快
大数据和传统数据挖掘最显著的一个区别就是大数据要求处理速度快。面对如此大规模的数据,有效处理数据的效率也就牵系着企业的命运。 对数据的实时处理、分析及反馈变得十分重要,创建实时数据已经成为一种趋势。
4.价值密度低
价值密度往往与数据量成反比,在大量数据中有用的信息可能是非常少的,而且要有效地获取这些有用的信息也是比较困难的。比如,连续的监控产生大量的视频信息,而我们需要的数据可能就只有一两秒。针对大数据价值密度低这一特征,如何有效地挖掘出其中有用信息变得尤为重要。
1.3 大数据的产生
大数据的产生是计算机和网络通信技术被广泛运用的必然结果。互联网、移动互联网、物联网、云计算、社交网络等新一代信息技术的发展对大数据的产生起到了促进的作用。数据产生方式的变化表现为以下 4个方面。
(1)数据产生由企业内部向企业外部扩展。
(2)数据产生由 Web1.0 向 Web2.0扩展。
(3)数据产生由互联网向移动互联网扩展。
(4)数据产生由计算机或互联网(IT)向物联网(IOT)扩展。
这 4 个方面的变化让数据产生的源头成几何数增长,数据量也呈现出大幅度地快速增加。
1.4 大数据应用案例
大数据在各行业中有着大量的应用案例.比如金融行业中的信贷分析,银行风险分析及公司的交易分析等,医疗行业中的流行病学研究、病房的实时监控等,以及在亚马逊、淘宝网、Facebook 等互联网企业中的应用等。下面给出一个典型的大数据应用案例——余额宝。
余额宝的问世改变了天弘基金由原来国内排名中下并且连年亏损的状态,使得它位居国内基金管理公司之首,世界排名 14。该公司将天弘增利宝货币基金从零开始发展到用户数量超过1 亿元、资金规模达到 5742 亿元,超出了预计的 10 倍,成为世界第四大货币基金。
余额宝产生的背景是天弘基金欲借助最大电商阿里平台,在支付宝上向用户推销基金。阿里负责余额宝在支付宝端的建设,天弘基金负责与支付宝对接的直销和清算系统的建设。面对大规模的数据量,余额宝之前的系统已经不能满足需求,需要重建。余额宝的系统,建设分为两期,然而随着数据量和交易量暴增,使得第一期系统仍无法负载日益增长的海量数据。于是进行了第二期系统的建设,阿里余融云提供了云计算服务,使 得该 系然,的性能舞到了相当大的提高,在很大程度上缩短了清算时间。在 2013 年11月11日的"双11"活动中,余额宝完成了 1679 万笔赎回,1288 万笔申购的清算工作,成功为 639 万用 户正确分配收益,当天处理了61.25 亿元的消费赎回,119.97 亿元的转入申购,而系统只用了 46 分钟就将全部清算工作完成。
实际上,二期系统现已不是简单的直销和清算系统,它每天面对着 50 个数据库里海量用户和交易数据的暴涨。那 么,这些数据的使用、价值最大化吸引了 企 业机构的眼球。对此,天弘基金选择了阿里云提供的ODPS(开放数据处理服务)作为大数据平台,其中 ODPS是阿里集团进行离线数据处理的平台,支撑了阿里金融、淘宝等多家 BU 的大数据业务。天弘基金将目标锁定在余额宝产生的海量数据分析上,以求把握上亿用户的理财需求及不同的风险接受能力,创造出更多更丰富的理财产品。
第2章 大数据相关技术
大数据处理流程主要是指从海量数据中获取需要的信息并进行加工分析得到有用知识的输出过程。大数据处理流程的关键技术包括大数据存储和管理及大数据检索使用(包括数据挖掘和智能分析)。围绕大数据,一批新兴的数据存储、数据挖掘、数据处理与分析技术不断涌现,使得对海量数据的处理变得更加简便快速。大数据处理流程一般包括以下几个步骤; 数据采集/清洗、数据存储、数据挖掘及数据呈现,如图 2.1所示。
2.1 数据采集和准备
数据采集,即数据获取,是指从传感器或其他待测设备中获取信息的过程"。大数据采集包括对实时数据、非实时数据的采集,数据类型包括结构化、半结构化及非结构化数据。
大数据采集的方法有系统日志采集、数据库采集、网络数据采集等,采集的工具包括传感器、网络爬虫、移动基站及使用者自身产生的信息。
1.传感器
传感器是一种检测装置,它采集数据的过程为;首先传感器感受被测量的信息,然后将其按一定规律t变换成为电信号或其他形式的信息并输出。传感器是大规模数据的来源,比如,监控大型强子对撞机或四发动机大型喷气式客机需要成千上万的传感器通道,从而产生数百 TB的数据。
2.网络爬虫
网络爬虫是一种按照一定的规则,自动提取互联网网页信息的程序或脚本。互联网的数据形式多样,包括结构化的数据及图片、音频、视频等非结构化数据,对于这些海量数据,传统的获取方法已经不能满足需求,所以网络爬虫技术应运而生。网络爬虫可以定向地抓取用户所需的与某一特定主题相关的网页内容。
3. PON
日常通信过程中产生的海量信息。 4.使用者自身产生的信息随着微信、微博及邮件等的普及,使得它们拥有庞大的用户群。在人们使用这些软件的同时会产生巨大的信息,这些信息也是海量数据的重要来源。
在进行数据挖掘与分析前需要对数据进行一定的处理,即数据的准备。数据的准备是数据分析整个过程中的一个重要阶段,可以为后续的挖掘分析提供高质量的数据,从而保证了分析结果的有效性。数据准备包括数据的导入、数据的抽取、转换和装载等。数据导入指的是将外部数据导入到数据库或数据仓库中,关键是针对数据库的存储方式及具体的应用场景定义数据合适的模式。数据的抽取(Extract)是指将所需数据从源数据中抽取出来;数据的转换(Transform)是将获取的源数据按照一定的业务需求转换成所需要的形式,包括对数据的清洗和加工等操作;数据的装载(Load)指的是将经过转换后的数据装载到目的数据数源中。ETL 过程包括对数据空值的处理、数据格式的规范化处理、数据的替换及正确性验证的处理等,是数据挖掘分析的基础。
2.2 分布式数据库
大数据包括结构化数据、半结构化数据及非结构化数据,大数据的存储与普通数据存储的差别主要表现在数量级别和能否存储索引非结构化数据上。对于声音、图片、视频等非结构化数据,传统的关系型数据库无法满足存储需求,因此非关系型数据库变得尤为重要。大数据处理系统将通过 NoSQL 来存储这些非结构化数据并对这些数据进行相关的检索。 NoSQL 数据库指的是非关系型的数据库。NoSQL 数据库主要面向 Web 应用,支持分布式存储,能够满足对数据库高并发读写需求、海量数据的高效存储需求、数据库高扩展性和高可用性的需求等。NoSQL 数据库可以分为以下三类;面向高性能读写的数据库、面向文档的数据库及面向分布式计算的数据库(比如 Cassandra 数据库)。NoSQL 具有自由灵活的数据模型,典型的 NoSQL 数据库是以键值(Key-Values)的形式存储数据的。
NoSQL满足 CAP理论、BASE 原则。CAP指的是对于以下三个特性;一致性、可用性及分区容错性,分布式系统不能同时满足,最多只能满足三个特性中的两个。BASE 指的是 Basically Available、Soft state、Eventually consistent。Basically Available(基本可用)指的是对于系统短时间内的不可用是可容忍的;Soft state(柔性状态)指的是系统有异步的情况存在,即在某个时期可以不同步;Eventually consistent(最终一致性)指的是只要最终的数据满足一致性即可,不要求时刻满足一致性。NoSQl. 数据库的设计一般针对具体的应用,遵循以上两个原则,比较注重数据的读写效率、数据的容量和系统的可扩展性等。
目前普遍使用的关系型数据库采用的是关系型数据模型,对数据存储增加及一些需要满足的数据范式,有时需要强行修改对象数据,以满足关系型数据库管理系统的需要,而 NoSQL. 数据库完全改变了传统的观念,通过改变某些数据范式的严格要求,获得灵活的扩展性、灵活的数据模型、能够有效处理大数据、降低管理和维护成本等众多优点。表 2.1 对 NoSQL. 数据库与关系型数据库的原理、规模、模式等进行了一个对比分析。
【下载地址】
链接:https://pan.baidu.com/s/171QcaBRQkwsgo2kaaKarfQ
提取码:vvvi
相关文章
为了更好地适应新形势,满足读者对大数据分析处理学习的迫切需要,我们推出了《大数据分析 ∶ R基础及应用》一书 ,力求使读者能够从中了解大数据
读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始, 获得初始
通过它,你将学到如何写能处理大量非结构化文本的 Python 程序。你将获得有丰富标注的涵盖语言学各种数据结构的数据集,而且你将学到分析书面
本书可以作为Python编程语言的一本指南或者教程。它主要是为新手而设计,不过对于有经验的程序员来说,它同样有用。
本书以机器学习与计算统计为主题背景,专门讲t述如何挖掘和分析 Web,上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出
为了能让更多的编程小自轻松地入门编程,我把高效学习法结合 Pvthon 中的核心知识,写成了这本书。随意翻上几页,你就会发现这本书和其他编程
本书结构非常简单,其实就是 52 个习题。其中 26 个覆盖了输入输出、变量、以及函数三个课题,另外 26个覆盖了一些比较高级的话题,如条件
本书以CPython为研究对象,在C代码一级,深入细致地剖析了Python的实现。本书不仅包括了对大量Python内置对象的剖析,更将大量的
本书是学习Python编程语言的入门书籍。Python是一种很流行的开源编程语言,可以在各种领域中用于编写独立的程序和脚本。Python免费
本书用 Python 语言来讲解算法的分析和设计。本书主要关注经典的算法,但同时会为读者理解基本算法问题和解决问题打下很好的基础。全书共 1
本书面向的读者是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。前几章会教你设置 Python 运行环境,告诉你计算机是如何看
神经网络是一种模拟人脑的神经网络,以期能够实现类人工智能的机器学习技术。本书揭示神经网络背后的概念,并介绍如何通过Pvthon实现神经网络。
Python 是一种容易学习的强大的编程语言。它包含了高效的高级数据结构,能够用简单而高效的方式进行面向对象编程。Python 优雅的语法和
本书是面向 Python 初学者的学习指南,详细介绍了 Python 编程基础,以及一些高级概念,如面向对象编程。
FlashFXP绿色版网盘下载,附激活教程 1738
FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具
Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1539
firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ
navicat for mysql中文绿色版网盘下载 1604
Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq
火车头采集器(旗舰版)绿色版网盘下载 1690
火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA
Photoshop(CS-2015-2023)绿色中文版软件下载 1805
安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64