R语言在商务分析中的应用(高清PDF 下载)

c#小王子 c#小王子 2021-05-26 1748 软件,编程,R语言


R语言在商务分析中的应用(高清PDF 下载)



前言


我基本上是按照我将近 10 年的商务分析师的职业生涯中最常执行的任务来组织这部书的。因此每章都 是最常 见的任务,并且我添加了 多个数据源作为参考文献以便在 更深的层次上帮助读者探索 一个特定的 主题。我再 一次强调,这是一部关于商务分析的书,而不是关于统计的书,我 自己作为一个 MBA的经历和 MBA 在商务分析(尤其是 R)方面的文献指引我做出了这样的选择。因此这部书是为商务分析师量身 定制的,而不是为统计人 员编写的。它不会帮你在你的研究生论文上取得 更好的成 绩,但它肯定会帮助你获得或 留 住 一份分析的工作。如果你是一名正在学习R 的学生,它可以帮助你更快地完成课外作业。


我相信,在当前的商业环境,焦点将转回分析 师而不 是软件工具,并且拥有多个平台的技能,尤其是既高端又兼具低成本的分析平台,对于用户会有好处。


这本书将明确地关注图形用户接 口、技巧、秘诀、技术和快捷方式,并将精力集中于商务分析师在日常生活中面临的最常 见任 务的案例研究。内容安排将会尽可能的简单但又不是过于简 单。每 一 章都 将有 一个案 例研究、教程或示例问题。每一章末尾列出所用的函数和程序包以帮助读者复 习。有时候可能有一些函数会被重 复或被再次强调,这更多的是由于他们在分析中的用途和必要性。对创造者、作者和开发人员简短访谈的目的是便于商务分析师更好地掌握 R 的相应内容。现有的 R 资源使用的案例旨在帮助分析社区中尚未采用 R 的决策者给 R一个机会。


这本书有一个务实的目的,是针对那些已经或希望在企业的商务环境中使用 R 的读者。本书将提供足够的参考文献,在理论或先进水平方面给读者以帮助,并在他或她的 R 之旅中以其他可用的资源予以支持。


我们鼓励读者跳过那些没有直接相关性的章 节,直接跳到那 些对他们的目的有最大效用的章节。我面对的一个问题是,在我写此书的过程中,R 项目发布了几乎 4 个新版本,所以如果有任何不准确的地方或错误请告知我。


本书内容安排


第1章∶为什么要用 R? 讲述在商务分析中使用 R的理由。在这 一章中,我们讨论选择 R 作为分析平台而不仅是统计计算平台的原因,与其他分析软件的比较及在商业环境中使用 R 的一些 一般性的成本和收益。它列举了业务分析师应该选择学习 R 的各种原因和其他分析平台所没有的 R 的特性。R 的益处被分成三大类;商务分析、数据挖掘和商务智能/数据可视化。


第 2 章∶R的基础配置∶讲述如何设置 R 分析的基础配置。在这一章中,我们讨论如何实际地在基于 R 的 环境中设置 一个分析环境,包括硬件、操 作 系统、额外的软件、必要的预算以及培训和软件支持的需要。我们讨论各种操作系统、硬件选择以及各种基于 R 的解决方案的提供者。内容 涉及R 的基本安装、R 的程序包库、R 的更新,直到综合性的用户帮助和启 动 R 的基本教程。


第 3 章∶R 界面∶根据你的需要使用 R Analytics 的方法。在这 一章中,我们对照比较了各种与 R分析平台互动的方式。可以通过命令行、图形用户界面(GUIs)使用 R,也可以通过网络接口(包括云计算接口)使用。这 一章概述了基于 GUI方法的优缺点,还比较了九种 GUI的特性,包括一个比较优势和劣势的汇总表。本章还讨论了从其他软件和 web 接口使用 R的方式。最后,介绍了一些在亚马逊云上运行 R 的实用教程。


第 4章∶数据处理∶在 R中取得数据。这一章讨论在 R 中获得数据的不同方式,包括基本的语句。它专门针对数据库中的数据,因为商务数据通常都是这样的。这一章展示了用户怎样可以连接到 MySQL 和 Pentaho 数据库,这是两个最先使用的开源数据库。某些节致力于和 R 一起使用 SQLite,并奉献给商务智能从业人员。我们 简要地考察 一下 Jaspersoft 和 Pentaho——两个在 BI 领域领先的开源解决方案,以及它们如何与 R 互动。这 一章在简要提到处理大数据集的额外资源的同时,它也道出 了一系列常见的分析任务(人们期望分析师对任何数据都要进行的操作),以帮助一些人更好地过渡到 R。


第 5 章;探索数据;数据可视化中新崛起的业务。这 一章讨论在 R 中使用视觉和图形手段探索数据。它讲述了 R 中基本的图形和一系列高级的图形,可以很容易地由一个学习 R 的普通程序员在很短的时间创建出来。它引入了专门用来进行数据探索的 GUI,grapheR 和 Deducer,还包含对 ggplot2 创造者哈德利·威克姆(Hadley Wickham)的访谈。制 图方面包含了代码、容易重现的例子和互动图示的信息。本章旨在为那些主要使用电子表格程序创建图示的读者揭开神秘的、有时令人生畏的数据可视化 艺术的面纱。


第6 章∶构建回归模型。回归模型是商务分析行业中统计的主力。他们或许因为固有的与业务客户沟通的简单性而过度使用 回归模型。我们学习如何建立 线性和逻辑回归模型,研 究一 些风险模型和记分卡,讨论 PMML 作 为模型实施的方法。为了保持本书关注商务分析的目的,本书仅涉及在 R 中简化构建逻辑斯蒂模型流程的一个简短的案例研究,并没有介绍回归理论。


第 7 章∶使用 R 进行数据挖掘。使用 R 进行数据挖掘采用 Rattle GUI 简化并加速了数据建模的过程。然而,它从给读者介 绍信息阶梯和各种数据挖掘方法的概念入手,简要地说,包括 CRISP-DM,SEMMA 和 KDD。它还提供与两位作者的简短访谈 的摘录,这 两位都 曾 写过使 用 R 进行数据挖掘 方面 的书。文本挖掘、网络挖掘、谷歌预测应用程序接 口也作为特殊的情况包含在本章内。


第 8 章;聚类和数据分割。数据分割在这本书中主要涉及聚类分析,我们会讨论各种类型的聚类。在这里增加聚类是因为大数据商务环境中对于数据压缩技术的固有的、日益增长 的需求 而且数据集的 大小也在飞速地增长。我们再次借助 Rattle GUI,但仍简要讨论了 R 中的其他用于聚类的 GUI。对关于Revolution R 在大量数据的聚类中的应用提供了一个小案例。


第 9 章∶预测和时间序列模型。企 业使用商业智能来 了解其过去和现在的经营情况,他们的重点是改进对未来的决策。时间序列和预测很强大,但在很多企业都未能得到充分应用,这一章 对这个问题进行了讨论并提供了一个使用 R 命令行 GUI程序包的相应案例。我努力使这一章成为一个实用的章 节,用来帮助你的商业团队在所有部 门中利用现有的初期数据做更多的预测。


第 10章∶数据导出和输出。获得分析的数据只是工作的 一部分。输出结果应该以一种能够启发决策者制定可行的决策的方式来展示。R 提供了许多灵活的方式来生成和嵌入输出,这 一章都有介绍。


第 11章;优化 R代码。现在,你已经学会了如何在商务分析中使用 R 的功能,下一步是要了解如何利用其强大的灵活性,而不要被淹没在其庞大的可用库中。这一章讨论技巧、变通和工具,包括使用代码编辑器来帮助你更好、更快地编写代码。


第 12 章∶更多的培训文献。这一章对于有兴趣扩展关于 R的知识和完整了解 R 文 档环境的读者来说是必要的。


第 13 章∶R应用案例研究。这一章提供了基于各种商务应用的编码的案例研究,包括网页分析,旨在帮助读者在他们自己的经营活动环境中使用 R进行商务分析时找到一个现成的参考资料。


第1章 为什么要用R


本章提要∶在这一章中把 R 介绍给读者,讨论选择 R 作为分析工具而不仅是作为统计计算平台的原因,并与其他分析软件相比较,向读者展示了在商 业环境中使用 R的各种成本和收益。


由于 R 基本上是 S语言的一个开源的衍生物和后代语言,所以 R 也被称为 GNU S(具有通用公共许可的 S)。R 已经以各种形式存在了近二十年,它的专业化的数据可视化、数据分析和数据处理软件库也—直在扩大。R 拥有大约二百万用户,它有着最大的统计算法和软件包库。


虽然 R 最初是统计计算语言,然而在 2012 年,你可以称它为一个完整的分析环境。


1. 1 为什么把 R 划分为一个完整的分析环境


出于以下原因,R可被当做是一个完整的分析环境。


● 多平台多接口输入命令;从命令行到大量的专用图形用户接口(GUIs)(见第 2章)R 有多个接口提供桌面工作环境。对于群集计算、云计算和远程服务器环境,R现在有大量的软件包,如 SNOW,RApache,RMpi,R Web 和 Rserve。


● 软件兼容性∶众多的商业供应商,包括软件公司都已经开发出了官方商业接口,他们之前都把 R 看作是在分析空间中的一个挑战者(见第 4 章)。Oracle, ODBC,微软 Excel,PostgreSQL,MySQL,SPSS,Oracle 数据挖 掘器,SAS/ IML,JMP,Pentaho Kettle,以及Jaspersoft BI 只不过是能够和 R 应用相兼容的众多商业软件中的个别例子。按照基本的 SAS 语言,一个 WPS 软件经销商 P.2提供了一个称为"通往 R 之桥"的 插件。分析力革命公司(Revolution Analytics)提供了一个以分析为主、以 R 语言的许可为依托的产品,但其他一些小公司已经成功地开发了商业的 R 应用和 R 程序包。


●数据的可互操作性;来自不同数据库和不同文件格式的数据可通过一个程序包的连接,在 R 中直接使用,或可缩减为一个中间格式以便导入到 R 中(见第 2章)。


● 广泛的数据可视化能力∶这包括比其他软件更好的动画和图形(见第 5 章)。·最大、发展最快的开源统计库∶当前统计软件包的数量和新软件包持续升级的增长速度确保 R具备了分析问题的长期解决方案的连续性。


● 包含从 R 程序包的统计库、分析库、数据挖掘库、操作界面库、数据可视化库到在线应用的广泛的解决方案,使其成为在实际中分析领域最宽广的平台。


1.2 与其他分析程序包相比 R的其他优势


那么 R 还有别的什么优势吗?下面列出了 R 一些额外的特性,这些特性使它优于其他分析软件。


·R 的源代码是为了确保完成定制的解决方案和植入某个特定的应用程序而设计的。开源的代码具有在期刊和科学文献中被广泛的同行评议的优势。这意味着程序漏洞会被发现,其信息会被共享,而解决方案也会被透明地传送。· 关于 R 分析平台有广泛的书籍形式的培训材料(见第 12 章)。


·R 在其分析软件中提供了最好的数据可视化工具(除了最新版的 Tableau 软件之外)。在 R 包中广泛的数据可视化包含各种各样的可定制的图形和动画。第三方软件开始创建 R 接口的主要原因是 R 程序包中的图形库更高级,并具有日益增多的功能。


·R 许可证是免费的,这使得 R 对于学者和小型、大型分析团队来说在预算上显得很友好。


· R 为你的数据环境提供灵活的编程。这包括能够确保兼容 Java,Python,C++等的程序包。


·从其他分析平台可以很容易地迁移到 R平台。非 R平台的用户转换到 R 平台相对容易,并且因为源代码的 GPL 性质以及开放社区,因而不存在被供应商锁死的危险。


·R中有最新的、范围最广泛的统计算法。这归因于 R 的程序包结构,它使开发 2.3者比在其他任何类似的分析平台上更容易创建新的程序包。


1.3 R 作为统计语言和分析平台的差异


有时确实能够将统计计算和分析区分开来。虽然统计学是一种基于工具和技术的方法,分析则更关心业务的目标。统计数据基本上是数字,可以昭示(通过描述性方法),建议(通过规范性方法),或预测(通过预测性方法)。分析是一个决策辅助工具。没有制定或考虑任何决策的分析被归类为纯粹统计性的,而非分析性的。因此,是否可以较容易地进行决策就成为区分一个分析平台好坏的标准。这种区分可能在不同背景的人之间有争议,而商务分析要求在实际数据分析任务中多强调结果的实用性和可操作性,少关注统计指标。我认为商务分析与统计分析的区别在于全面信息的成本(现实中的数据成本)和迟延与偏颇的决策带来的机会成本。


1.4 使用 R的成本和收益


使用 R 的唯一成本是学习它所花费的时间。应用程序包或开发人员创建新程序包所得回报的应用市场的缺乏,降低了专业主流程序员对 R 的兴趣,而其他几个平台比如iOS、安卓和 Salesforce 为专业编程人 员提供了更好的商业机遇。然而,凭借现有的、主要靠学术界支持的程序开发者的热情和参与度,R 程序包的数量在过去几年呈现出指数级的增长。下面列举了 R 在商务分析、数据挖掘和商务智能/数据可视化这三个数据科学的不同领域中的优势。


1.4.1 商务分析


R 可供免费下载。


1. R 是少有的、能在 Mac OS 运行的分析平台。

2,其结果刊登在《统计软件》等期刊上,以及如 LinkedIn 和谷歌这种地方,也通过Facebook 的分析团队推广。

3.它具有依据 GPL 定制的开源代码,对于想要创建商业软件包的开发者有适当的知识产权保护。

4.对于企业用户,它也有为来自比如像分析力革命公司(支持 64 位的 Windows,现在支持 Linux)这样的商业供应商提供一个灵活的选择,也可以通过其 RevoScaleR 包进行大数据处理。

5.它有来自几乎所有其他分析软件,如 SAS,SPSS,JMP,Oracle 数据挖掘和RapidMiner 等的接口。现有巨大的回归、时间序列、金融和建模程序包库。

6.通过 R 可以使用的高质量的数据可视化程序包。


1.4.2 数据挖掘


作为一个计算平台,R 更适合数据挖掘的需要,原因如下。


1.R 有大量的程序包覆盖标准回归、决策树、关联规则、聚类分析、机器学习、神经网络等,也有独特的比如那些基于混沌模型的专业算法。


2.R 通过允许查询源代码提供对标准算法调整的灵活性。


3.Rattle 图形用户界面(GUI)仍然是使用 R进行数据挖掘的标准的 GUI。这个GUI提供了各种各样的数据挖掘技术的轻松访问。它是由澳大利亚格雷厄姆·威廉姆斯(Graham Williams)教授创建和发展的。Rattle 是一款非常强大、方便、免费和开源的数据挖掘软件。


1.4.3 业务仪表板和报告


业务仪表板和报告是组织中商务智能和决策系统的重要部分。


1,R通过 ggplot 提供数据可视化,而如 Deducer,GrapheR,Red-R 这样的 GUIs可以帮助根本不懂或几乎不懂 R 语言的商务分析师创建指标化的仪表板。


2.对于在线仪表板,R 有 RWeb,RServe,R Apache 等程序包,它们与数据可视化软件包结合,可提供强大的仪表板功能。后面将列举著名的实例。


3.R还可以结合 Microsoft Excel 使用 R Excel 程序包,将 R 的功能导人 Excel内。因此一个没有 R 知识的 Excel 用户可以使用 R Excel 插件中的 GU 便可以利用 R 强大的图形和统计功能。


P.5 4.R具有广泛的能力,可以与包括 Oracle,MySQL,PostGresSQL 和 hadoop 在内的数据库进行互动并从中提取数据。这种能够连接到数据库的能力使 R 能够提取数据,在可视化处理之前对数据进行汇总。



【下载地址】

链接:https://pan.baidu.com/s/1-LmdfItO2b5sL2yoVK0fJw

提取码:shj1


相关文章


R语言在商务分析中的应用(高清PDF 下载)

这是一部关于商务分析的书,而不是关于统计的书。这本书将明确地关注图形用户接 口、技巧、秘诀、技术和快捷方式,并将精力集中于商务分析师在日常生

R语言数据分析与挖掘实战(高清PDF 下载)

本书以大家熟知的数据挖掘建模工具R语言来展开,以解决某个应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型

R语言实战+中文版(高清PDF下载)

本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了实用的统计示例。且对于难以用传统方法处理的读乱。

R语言编程艺术(高清PDF 下载)

本书更侧重于编程,覆盖了大部分R语言图书没有涉及的与编程相关的主题,我甚至是围绕编程主题展开论述的。

R数据可视化手册(高清PDF下载)

本书重点讲解 R 的绘图系统,指导读者通过绘图系统实现数据可视化。书中提供了快速绘制高质量图形的 150多种技巧,每个技巧用来解决一个特定的


文章热度: 166291
文章数量: 333
推荐阅读

FlashFXP绿色版网盘下载,附激活教程 1840

FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具

Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1608

firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ

navicat for mysql中文绿色版网盘下载 1653

Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq

火车头采集器(旗舰版)绿色版网盘下载 1739

火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA

Photoshop(CS-2015-2023)绿色中文版软件下载 1859

安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64

知之

知之平台是全球领先的知识付费平台。提供各个领域的项目实战经验分享,提供优质的行业解决方案信息,来帮助您的工作和学习

使用指南 建议意见 用户协议 友情链接 隐私政策 Powered by NOOU ©2020 知之