R语言实战+中文版(高清PDF下载)

c#小王子 c#小王子 2021-05-21 5723 软件,编程,R语言


R语言实战+中文版(高清PDF下载)


内 容 提 要


R是一个开源项目,具有强大的统计计算及制图能力,是从大数据中获取有用信息的绝佳工具,在各种干清操作系统 上都可以安装使用,其基本安装就提供了数以百计的数据管理、统计和图形函数。另外,社区开发的数以千计的扩展(包)为R增加了更多强大功能。


本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了实用的统计示例。且对于难以用传统方法处理的读乱。不完整和非正态的数据给出了优雅的处理方法。作者不仅仅探讨统计分析,还阐述了大量探索和展示数据的图形功能。


本书适合数据分析人员及 R 用户学习参考。


前 言


要是一本书里没有图画和对话,那还有什么意思呢?

-爱丽丝,《爱丽丝梦游仙境》



它太神奇了,满载珍宝,可以让那些聪明狡猾和粗野胆大的人得到充分满足;但并不适合胆小者。

—Q,"QWho? ",《星际迷航∶下一代》



在开始写这本书时。我花了很多时间搜索适合于开始本书的名言警句。最后,我找到了这两句话。R是一个非常灵活的平台,是专用于探索、展示和理解数据的语言,因此我引用了《爱丽丝梦游仙境》的句子来表示当今统计分析的潮流—一个探索、展示和理解的交互式过程。


第二句话反映了大部分人对R的看法∶ 难学。但你完全没必要这样想。虽然R很强大,应用广泛,不论你是新手还是略有经验的用户,众多的分析和绘图函数(超过50000个)都很容易让你望而却步,但实际上并非无规律可循。只要有合适的指导,你就可以畅游其中,选择所需的工具,用最优雅、最简洁、最高效的方式来完成工作——那真的很酷!


多年即,我在甲请—个统计咨询职位时,第—次遇到了R。主在正式面试u发来的材料中问我是否熟悉R。根据猎头的建议,我立马回答"是的,我很熟悉",然后开始恶补R。在统计和研究方面我有丰富的经验,作为SAS和SPSS程序员也有25年的工作经验,而目对各种编程语言也颇为精通。学习R能有多难?但事与愿违。


在学习这门语言的过程中(因为要面试,我要尽可能地快),我发现这门语言无论是底层的结构还是各种高级的统计方法,都是由各具体领域的专家为同行专家编写的。看在线帮助简直就是折磨,那不是教程,都是参考手册。每当我觉得自己已经对R的结构和功能有足够把握时,就会发现一些闻所未闻的新东西,它们让我感觉自己很渺小。


为了解决这此向。我并始以数据科学家的角用学习R。我开始思考如何才T成功地处理、分析和理解数据,包括;


口 获取数据(从各种数据源将数据导入程序);


口整理数据(编码缺失值、修复或删除错误数据、将变量转换成更方便的格式);


口注释数据(以记住每段数据的含义);


口 总结数据(通过描述性统计量了解数据的概况);口 数据可视化(一图胜千言);


口 数据建模(解释数据间的关系,检验假设);口 整理结果(创建具有出版水平的表格和图形)。


然后,我试图用R来完成这些任务。通过教授别人来学习是最好的方式,所以我创建了一个网站,不断把我学到的东西放在上面。


大概一年后,Marjan Bace(Manning的出版人)打电话给我,问我是不是能写一本关于R的书。那时我已经写了50篇期刊文章、4份技术手册,以及大量章节的内容,还写了一本关于研究方法的书,所以,写一本关于R的书能有多难?结果依然是事与愿违。


你现在捧者的这本书是我多年来梦寐以求的。我试图提供一份R的指南,让你能尺快感受到 R的强大以及开源的魅力,不再感到沮丧和忧虑。我希望你能喜欢本书。


另外,虽然当年我成功地申请到了那个职位,但并未入职。不过,学习R的经历改变了我的职业方向,这是我未曾想到的。真可谓人生如戏。


关于 本书


如果你翻开了本书,那么很有可能是因为要做一些数据的收集、总结、转换、探索、建模、可视化或呈现方面的工作。如果确实如此,那么R完全能够满足你的需求!R已经成了统计、预测分析和数据可视化的全球通用语言。它提供各种用于分析和理解数据的方法,从最基础的到最前沿的,无所不包。


R是一个开源项目,在很多操作系统上都可以免费得到,包括Windows、Mac OS X和Linux。 R还在持续发展中,每天都在纳入新的功能。此外,R还得到了社区的广泛支持,这个社区里既有数据科学家也有程序员,他们很乐于为R的用户提供帮助或建议。


R以能创建源亮优雅的图形而闻名,但实际上它可以处理各种统计问题。基本的安装就提供了数以百计的数据管理、统计和图形函数。不过,R很多强大的功能都来自社区开发的数以千计的扩展(包)。


但这些好处都是有代价的。对于新手来说,经常遇到的两个基本难题就是; R到底是什么以及R究竟能做什么?甚至是经验丰富的R用户也常常发现一些他们之前闻所未闻的新功能。


本书是一本R指南,高度概括了该软件和它的强大功能。本书会介绍基本安装中最重要的函数,以及90多个重要扩展包中的函数。整本书都是围绕实际应用展开的,你将学会理解数据并能够与他人交流这种对数据的理解。通读本书,你应该会对R的原理和功能有基本的了解,并知道从什么地方学习更多的相关知识。你将能用各种技术实现数据的可视化,还能解决各种难度的数据分析问题。


读者对象


每一个要处理数据的人都应该读读本书,他们不需要任何统计编程或R语言知识背景。R语言新手完全能够读懂本书,而有经验的R老手也能在本书中发现很多实用的新东西。


没有统计背景,但需要用R操作数据、总结数据、绘制图形的读者会觉得第1章~第6章、第 11章和第16章比较容易理解。第7章和第10章则需要读者学过一学期的统计学课程;第8章、第9章和第12章~第15章则需要读者学过一学年的统计学课程。不过,我尽可能地让每一章都能同时迎合数据分析新手和专家的需求,让所有人都能从中获益。


本书结构


本书的目的是计读者熟悉R平台,重点关注那些能马上应用到数据操作、可视化和理解的方法。全书共16章,分为4部分;"入门"、"基础方法"、"中级方法"和"高级方法"。在8个附录中还有更多的相关内容。


第1章首先简要介绍了R,以及它作为数据分析平台的诸多特性。这一章主要介绍了R的获取,以及如何用网上的扩展包增强R基本安装的功能。另外,它还介绍了用户界面,以及如何以交互方式和批处理方式运行程序。


第2章介绍了向R中导入数据的诸多方法。这一章的前半部分介绍了R用来存储数据的数据结构,以及如何用键盘输入数据。后半部分介绍了怎样从文本文件、网页、电子表格。统计软件和数据库向R导入数据。


很多用户最初接触R都是为了绘制图形,我们在第3章会对此作介绍。这一章介绍了创建、修改图形的方法,以及如何将图形保存为各种格式的文件。


第4章探讨了基本的数据管理,包括数据集的排序、合并、取子集,以及变量的转换、重编码和删除。


在第4章的基础上,第5章涵盖了数据管理中函数(数学函数、统计函数、字符函数)和控制结构(循环、条件执行)的用法。然后我们介绍如何编写自己的R函数,以及如何用不同的方法整合数据。


第6章演示了创建常见单变量图形的方法,例如柱状图、饼图、直方图、密度图、箱线图和点图。这些图形对于理解单变量的分布都很有用。


第7章首先演示了如何总结数据,包括使用描述统计量和交叉表。然后,这一章介绍了用于分析两变量间关系的基本方法,包括相关性、t检验、卡方检验和非参数方法。


第8章介绍了针对一个数值型结果变量与一系列数值型预测变量间的关系进行建模的回归方法,详细给出了拟合模型的方法、适用性评价和含义解释。


第9章介绍了基于方差及其变体对基本实验设计的分析。此处,我们通常感兴趣的是处理方式的组合或条件对数值结果变量的影响。这一章还介绍了如何评价分析的适用性,以及如何可视化地展示分析结果。


第10章详细介绍了功效分析。这一章首先讨论了假设检验,重点是如何判断在给定置信度的前提下需要多少样本才能判断处理的效果。这可以帮助我们安排实验和准实验研究来获得有用的结果。


第11章扩展了第5章的内容,介绍了创建表现两个或多个变量间关系的图形。这包括各种2D和3D的散点图、散点图矩阵、折线图、相关图和马赛克图。


第12章介绍了一些稳健的数据分析方法,它们能处理比较复杂的情况,比如数据来源于未知或混合分布、有小样本问题、有恼人的异常值,或者依据理论分布设计假设检验非常复杂且在数学上难以处理的情况。这一章介绍的方法包括重抽样和自助法——很容易在R中实现的需要大量计算机资源的方法。


第13章扩展了第8章中介绍的回归方法,分析非正态分布的数据。这一章首先介绍了广义线性模型,然后重点介绍了如何预测类别型变量(Logistic回归)或计数变量(泊松回归)。


多元数据分析的一个难点是简化数据。第14章介绍了如何将大量的相关变量转换成较少的不相关变量(主成分分析),以及如何发现一系列变量中的潜在结构(因子分析 )。这些方法涉及许多步骤,每一步都有详细的介绍。


实际工作中面临的一个普遍问题是数据值缺失,第15章介绍了一个应对此问题的现代方法。 R中有很多简捷的方法可以用来分析因各种原因导致缺失而生成的不完整数据。这一章对一些好的方法都有介绍,还具体说明了在什么情况下应该用哪一种以及应该避免使用哪些方法。


第16章介绍了R中最先进、最有用的数据可视化方法,包括用lattice图形表现非常复杂的数据。简要介绍新的ggplot2包,并对各种跟图形实时交互的方法做了综述。


后记中介绍了一些优秀的网站,有助于读者进一步学习R、加入R社区、获得帮助,并及时获得R这个快速发展的软件的最新信息。


最后的内容也很重要,8个附录(从A到H)扩展了正文的一些内容,包括R中的图形用户界面、自定义和升级R、导出数据到其他软件、创建出版级质量的输出、(像MATLAB一样)用R做矩阵计算,以及处理大型数据集。


第1部分 入门



欢迎阅读本书! R是现今最受欢迎的数据分析和可视化平台之一。它是自由的开源软件,并同时提供 Windows、Mac OS X和Linux 系统的版本。通读本书,你将掌握精通这个功能全面的软件所需的技能,有效地使用它分析自己的数据。


本书共分四部分。第一部分涵盖了软件的安装、软件界面的操作、数据的导入,以及如何将数据修改成可供进一步分析的格式等基本知识。


第一章将带你熟悉 R 环境。这一章首先是R 的概览,介绍使其成为强大的现代数据分析平台的独有特性。在简要介绍了如何获取和安装R之后,我们通过一系列的简单示例探索了R 的用户界面。接着,你将学习如何通过可从在线仓库中免费下载的扩展(称为用户贡献包)来增强基本安装的功能。最后,本章以一个示例结尾,让你自测学到的新技术。


熟悉了R 的界面之后,下一个挑战是将数据导入到程序中。在当今这个信息丰富的世界中,数据的来源和格式多种多样。第 2 章全而介绍向 R中导入数据的多种方式。此章的前半部分介绍了R用以存储数据的各种数据结构,并描述了如何手工输入数据。后半部分讨论了从文本文件、网页、电子表格、统计软件和数据库导入数据的方法。


从工作流程的观点考虑,下一步理应讨论数据管理和数据清理问题。然而,许多第一次接触 R的用户都对其强大的图形功能表现出了浓厚的兴趣。为了不扫你的兴,第 3章我们直接开始探索图形的绘制问题。这一章对创建图形、自定义图形、以各种格式保存图形的方法进行了综述,描述了如何设定图形中使用的颜色、符号、线条类型、字体、坐标轴、标题、标签以及图例,最后还介绍了将多个图形组合为单个图形的方法。


尝试过 R 的图形功能之后,我们再重返数据分析的正题。由于数据很少以直接可用的格式出现,因此在开始解决感兴趣的问题之前,我们经常不得不将大量时间花在从不同的数据源组合数据、清理脏数据(误编码的数据、不匹配的数据、含缺失值的数据),以及新变量(组合后的变量、变换后的变量、重编码的变量)的创建 上。第 4章讲述了R中基本的数据管理任务,包括数据集的排序、合并、取子集,以及变量的变换、重编码和删除。


第 5 章在第 4 章的基础上,进一步讲解了数据管理中数值(算术运算、三角运算和统计运算)函数和字符处理(字符串取子集、连接和替换)函数的使用。为了阐明许多相关函数的用法,整章使用了一个综合示例进行讲解。接下来是关于控制结构(循环、条件执行)的讨论,你将学到如何编写R 函数。


编写自定义函数能够让你将许多程序执行步骤封装在单个的函数中进行灵活调用,这大大拓展了 R的功能。因为数据的重塑和整合对于为进一步分析而准备数据的阶段通常很有用,所以最后将讨论一些重组(重塑)数据和整合数据的强大方法。


学习完第一部分之后,你将完全熟悉R环境的编程,并可掌握输入和访问数据、清理数据,以及为进一步分析做数据准备所需的技术。另外,你还会获得创建、自定义和保存多种图形的经验。


第1章 R语言介绍


本章内容


口R的安装

口熟悉R语言

口运行R程序


我们分析数据的方式在近年来发生了令人瞩目的变化。随着个人电脑和互联网的出现,可获取的数据量有了非常可观的增长。商业公司拥有TB级的客户交易数据,政府、学术团体以及私立研究机构同样拥有各类研究课题的大量档案和调查数据。从这些海量数据中收集信息(更不用说发现规律)已经成为了一项产业。同时,如何以容易让人理解和消化的方式呈现这些信息也日益富有挑战性。


数据分析科学(统计学、计量心理学、计量经济学、机器学习)的发展一直与数据的爆炸式增长保持同步。远在个人电脑和互联网发端之前,学术研究人员就已经开发出了很多新的统计方法,并将其研究成果以论文的形式发表在专业期刊上。这些方法可能需要很多年才能够被程序员改写并整合到广泛用于数据分析的统计软件中。而如今,新的方法层出不穷。统计研究者经常在人们常访问的网站上发表新方法和改进的方法,并附上相应的实现代码。


个人电脑的出现还对我们分析数据的方式产生了另外一种影响。当数据分析需要在大型机上完成的时候,机时非常宝贵难求。分析师们会小心地设定可能用到的所有参数和选项,再让计算机执行计算。程序运行完毕后,输出的结果可能长达几十甚至几百页。之后,分析师会仔细筛查整个输出,去芜存菁。许多受欢迎的统计软件正是在这个时期开发出来的。直到现在,统计软件依然在一定程度上沿袭了这种处理方式。


随着个人电脑将计算变得廉价目便捷,现代数据分析的方式发生了变化。与过去一次性设置好完整的数据分析过程不同,现在这个过程已经变得高度交互.化,每一阶段的输出都可以充当下—阶段的输入。一个典型的数据分析过程的示例见图1-1。在任何时刻,这个循环都可能在进行着数据变换、缺失值插补、变量增加或删除,甚至重新执行整个过程。当分析师认为他已经深入地理解了数据,并且可以回答所有能够回答的相关问题时,这个过程即告结束。


个人电脑的出现(特别是高分辨率显示器的普及)同样对理解和呈现分析结果产生了重大影响。一图胜干言,绝对如此!人类非常擅长通过视觉获取有用信息。现代数据分析也,日益依赖通过呈现图形来揭示含义和表达结果。




总而言之,今天的数据分析人士需要从广泛的数据源(数据库管理系统、文本文件、统计软件以及电子表格)获取数据、将数据片段融合到—起、对数据做清理和标注、用最新的方法进行分析。以有意 义有吸引力的图形化方式展示结果。最后将结果整合成令 人感兴趣的报告并向利益相关者和公众发布。


通过下面的介绍你会看到,R正是一个适合完成以上目标的理想而又功能全面的软件。


1.1 为何要使用 R?


与起源于贝尔实验室的S语言类似,R也是一种为统计计算和绘图而生的语言和环境,它是一套开源的数据分析解决方案,由一个庞大且活跃的全球性研究型社区维护。但是,市面上也有许多其他流行的统计和制图软件,如Microsoft Excel、SAS、IBMSPSS、Stata以及Minitab。为何偏偏要选择R?


R有着非常多值得推荐的特性。


口 多数商业统计软件价格不菲,投入成千上万美元都是可能的。而R是免费的!如果你是一位教师或一名学生,好处显而易见。


口 R是一个全面的统计研究平台,提供了各式各样的数据分析技术。几乎任何类型的数据分析工作皆可在R中完成。


口 R拥有顶尖水准的制图功能。如果希望复杂数据可视化,那么R拥有最全面且最强大的一系列可用功能。


口 R是一个可进行交互式数据分析和探索的强大平台。其核心设计理念就是支持图1-1中所概述的分析方法。举例来说,任意一个分析步骤的结果均可被轻松保存、操作,并作为进一步分析的输入。


口 从多个数据源获取并将数据转化为可用的形式,可能是一个富有挑战性的议题。R可以轻松地从各种类型的数据源导入数据,包括文本文件、数据库管理系统、统计软件,乃至专门的数据仓库。它同样可以将数据输出并写入到这些系统中。


口 R是一个无与伦比的平台,在其上可使用一种简单而直接的方式编写新的统计方法。它易于扩展,并为快速编程实现新方法提供了一套十分自然的语言。


口 R囊括了在其他软件中尚不可用的、先进的统计计算例程。事实上,新方法的更新速度是以周来计算的。如果你是一位SAS用户,想象一下每隔几天就获得一个新SAS过程的情景。


口 如果你不想学习一门新的语言,有各式各样的GUI(Graphical User Interface,图形用户界面)工具通过菜单和对话框提供了与R语言同等的功能。


口 R可运行于多种平台之上,包括Windows、UNIX和Mac OS X。这基本上意味着它可以运行于你所能拥有的任何计算机上。(本人曾在偶然间看到过在iPhone上安装R的教程,让人佩服,但这也许不是一个好主意。)


图1-2是展示R制图功能的一个示例。使用一行代码做出的这张图,说明了蓝领工作、白领工作和专业工作在收入、受教育程度以及职业声望方面的关系。从专业角度讲,这是一幅使用不同的颜色和符号表示不同分组的散点图矩阵,带有两类拟合曲线(线性回归和局部加权回归)。置信椭圆以及两种对密度的展示(核密度估计和轴须图)。另外,在每个散点图中都自动标出了值最大的离群点。如果这些术语对你来说很陌生也不必担心。我们将在后续各章中陆续谈及它们。这里请暂目相信我,它们真的非常酷。(搞统计的人读到这里时估计户经垂涨三尺了。)


【下载地址】

链接:https://pan.baidu.com/s/1V_hiXWQ2OYgeAhmDyy78Tg

提取码:pjz7


相关文章


R语言在商务分析中的应用(高清PDF 下载)

这是一部关于商务分析的书,而不是关于统计的书。这本书将明确地关注图形用户接 口、技巧、秘诀、技术和快捷方式,并将精力集中于商务分析师在日常生

R语言数据分析与挖掘实战(高清PDF 下载)

本书以大家熟知的数据挖掘建模工具R语言来展开,以解决某个应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型

R语言实战+中文版(高清PDF下载)

本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了实用的统计示例。且对于难以用传统方法处理的读乱。

R语言编程艺术(高清PDF 下载)

本书更侧重于编程,覆盖了大部分R语言图书没有涉及的与编程相关的主题,我甚至是围绕编程主题展开论述的。

R数据可视化手册(高清PDF下载)

本书重点讲解 R 的绘图系统,指导读者通过绘图系统实现数据可视化。书中提供了快速绘制高质量图形的 150多种技巧,每个技巧用来解决一个特定的


文章热度: 166291
文章数量: 333
推荐阅读

FlashFXP绿色版网盘下载,附激活教程 1841

FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具

Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1609

firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ

navicat for mysql中文绿色版网盘下载 1654

Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq

火车头采集器(旗舰版)绿色版网盘下载 1740

火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA

Photoshop(CS-2015-2023)绿色中文版软件下载 1860

安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64

知之

知之平台是全球领先的知识付费平台。提供各个领域的项目实战经验分享,提供优质的行业解决方案信息,来帮助您的工作和学习

使用指南 建议意见 用户协议 友情链接 隐私政策 Powered by NOOU ©2020 知之