数据分析与挖掘已经成为大数据时代最重要的技能之一,社会对这方面的人才需求随着数据的增长而不断增长。目前,数据分析与挖掘方面的技术和工具已经很多,而且在不断成熟,其中R语言及其相关技术在这两个方面具有非常明显的优势,应用范围也越来越广,但是这方面的系统性学习资料却十分稀缺。
为了满足目前的大数据分析人才需求,本书以大家熟知的数据挖掘建模工具R语言来展开,以解决某个应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中同时穿插操作训练,把相关的知识点嵌入相应的操作过程中,使读者轻松理解并堂握相关的理论和知识点。
为什么要写这本书
LinkedIn 对全球超过3.3 亿用户的工作经历和技能进行分析后得出,目前最受关注的 25项技能中,对数据挖掘人才的需求排名第一。那么数据挖掘是什么?
数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的发展趋势,揭示已知的事实,预测未知的结果,因此"数据挖掘"已成为企业保持竞争力的必要方法。
但跟国外相比,我国由于信息化程度不太高,企业内部信息不完整,零售业、银行、保险、证券等对数据挖掘的应用并不太理想。但随着市场竞争的加剧,各行业对数据挖掘技术的意愿越来越强烈,可以预计,未来几年各行业的数据分析应用一定会从传统的统计分析发展到大规模数据挖漏应用。在大数据时代,数据过剩。人才知缺,数据挖据专业人才的培养又需要专业知识和职业经验积累。所以,本书注重数据挖掘理论与项目案例实践相结合,可以让读者获得真实的数据挖掘学习与实践环境,更快、更好地学习数据挖掘知识与积累职业经验。
总体来说,随着云时代的来临,大数据技术将具有越来越重要的战略意义。大数据已经渗透到每一个行业和业务职能领域。逐渐成为重要的生产要素。人们对于海量数据的运用预示着新一轮生产率增长和消费者盈余浪潮的到来。大数据分析技术将帮助企业用户在合理的时间内攫取、管理、处理、整理海量数据,为企业经营决策提供积极的帮助。大数据分析作为数据存储和挖掘分析的前沿技术,广泛应用于物联网、云计算。移动互联网等战略性新兴产业。虽然大数据目前在国内还处于初级阶段,但是其商业价值已经显现出来,特别是有实践经验的大数据分析人才更是各企业争夺的热门。为了满足日益增长的对大数据分析人才的需求,很多大学开始尝试开设不同程度的大数据分析课程。"大数据分析"作为大数据时代的核心技术,必将成为高校数学与统计学专业的重要课程之一。
本书特色
笔者从学践出发,结合大量数据挖掘工程案例与教学经验,以由实案例为主线,深入浅出地介绍数据挖掘建模过程中的有关任务;数据探索。数据预处理。分类与预测。聚类分析。时序预测、关联规则挖掘、智能推荐、偏差检测等。因此,本书的编排以解决某个应用的挖掘目标为前提,先介绍案例背景,提出挖掘目标。再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中会穿插操作训练,把相关的知识点嵌入相应的操作过程中。为方便读者轻松地获取一个真实的实验环境,本书使用大家熟知的 R 语言对样本数据进行处理以进行挖掘建模。
根据读者对案例的理解,本书配套提供了真实的原始样本数据文件及数据探索、数据预处理、模型构建及评价等不同阶段的 R 语言代码程序,读者可以从全国大学生数据挖掘竞赛网站免费下载。另外,为方便教师授课需要,本书还特意提供了建模阶段的过程数据文件、PPT课件,以及基于R、SAS EM、SPSS Modeler、MAT- LAB、TipDM等上机实验环境下的数据挖掘各阶段程序/模型及相关代码。
本书适用对象
口 开设有数据挖掘课程的高校教师和学生。
目前国内不少高校将数据挖掘引入本科教学中,在数学、计算机、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程,但目前这一课程的教学仍然主要限于理论介绍。因为单纯的理论教学过于抽象,学生理解起来往往比较困难,教学效果也不甚理想。本书提供的基于实战案例和建模实践的教学,能够使师生充分发挥互动性和创造性,做到理论联系实际,使师生获得最佳的教学效果。
口需求分析及系统设计人员。
这类人员可以在理解数据挖掘原理及建模过程的基础上,结合数据挖掘案例完成精确营销、客户分群、交义销售、流失分析、客户信用记分,欺诈发现。智能推荐等数据挖掘应用的需求分析和设计。
口数据挖掘开发人员。
这类人员可以在理解数据挖掘应用需求和设计方案的基础上。结合本 书提供的基于第三方的接口快速完成数据挖掘应用的编程实现。
口 进行数据挖掘应用研究的科研人员。
许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,这些科研业务管理系统一般没有对这些数据进行深入分析,对数据所隐藏的价值并没有充分挖掘利用。科研 人 员需要利用数据挖掘建模工具及有关方法论来深挖科研信息的价值,从而提高科研水平。
口 关注高级数据分析的人员。
业务报告和商业智能解决方案对于了解过去和现在的状况可能是非常有用的。但是,数据挖掘的预测分析解决方案还能使这类人员预见未来的发展状况,让他们的机构能够先发制人,而不是处于被动。因为数据挖掘的预测分析解决方案可将复杂的统计方法和机器学习技术应用到数据之中,通过使用预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式与趋势,从而为这类人员做决策提供科学依据。
如何阅读本书
本书共 16 章,分三个部分∶ 基础篇、实战篇、提高篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了多个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过上机实验快速理解相关知识与理论。
第一部分是基础篇(第1~5 章),第 1 章的主要内容是数据挖掘概述;第 2 章对本书所用到的数据挖掘建模工具——R 语言进行了简明扼要的说明;第 3~5 章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。
第二部分是实战篇(第6-15 章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的。在建模过程的关键环节,穿插程序实现代码。最后通过上机实践,加深读者数据挖掘技术在案例应用中的理解。
第三部分是提高篇(第 16 章),介绍了基于R 语言二次开发的数据挖掘应用软件——Tip- DM 数据挖掘建模工具,并以此工具为例详细介绍了基于R 语言完成数据挖掘二次开发的各个步骤,使读者体验到通过R 语言实现数据挖掘二次开发的强大魅力。
1.1 某知名连锁餐饮企业的困惑
国内某餐饮连锁有限公司(以下简称 T餐饮)成立于 1998 年,主要经营粤菜,兼顾湘菜、川菜等综合菜系。至今已经发展成为在国内具有一定知名度、美誉度、多品牌、立体化的大型餐饮连锁企业。下属员工1000 多人,拥有 16 家直营分店,经营总面积近 13000 平方米,年营业额近亿元。其旗下各分店均坐落在繁华市区主干道,雅致的装潢,配之以精致的饰品、灯具、器物,出品精美,服务规范。
近年来餐饮行业面临较为复杂的市场环境,与其他行业一样餐饮企业都遇到了原材料成本升高、人力成本升高,房租成本升高等问题,这也使得整个行业的利润率急剧下降。人力成本和房租成本的上升是必然趋势,如何在保证产品质量的同时提高企业效率,成为 T餐饮企业急需解决的问题。2000 年以来,T 餐饮企业通过加强信息化管理来提高效率,目前已上线的管理系统包括∶
(1)客户关系管理系统
该系统详细记录了每位客人的喜好,为顾客提供个性化服务,满足客户的个性化需求。通过客户关怀,提高客户的忠诚度。例如,企业能随时查询了解今天哪位客人过生日或其他纪念日,根据客人的价值分类进行相应关怀,如送鲜花、生日蛋糕、寿面等。通过本系统,还可对客户行为进行深入分析,包括客户价值分析、新客户分析与发展,并根据其价值情况提供给管理者,为企业提供决策支持。
(2)前厅管理系统
该系统通过掌上电脑无线点菜方式,改变了传统"饭店点菜、下单、结账一支笔、一张纸,服务员来回跑的局面",快速完成点菜过程。通过厨房自动送达信息,服务员的写菜速度加快不需要再通过手写,同时传菜部也轻松不少,菜单会通过电脑自动打印出来,差错率降低,也不存在厨房人员看不懂服务员字迹而摘错的问题。
(3)后厨管理系统
信息化技术可实现后厨与前厅沟通无障碍,客人菜单瞬间传到厨房。服务员只需点击掌上电脑的发送键,客人的菜单即被传送到收银管理系统中,由系统的电脑发出指令,设在厨房等处的打印机立即打印出相应的菜单,厨师按单做菜。与此同时,收银台也打印出一张同样的菜单放在客人桌上,以备客人查询以及作结账凭据,使客人明明白白地消费。
(4)财务管理系统
该系统完成销售统计、销售分析、财务审计,实现对日常经营销售的管理。通过报表,企业管理者很容易掌握前台的销售情况,从而达到对财务的控制。通过表格和图形可以显示餐厅的销售情况,如菜品排行榜、日客户流量、日销售收入分析等;统计每天的出菜情况,我们可【以了解哪些是滞销菜,哪些是畅销菜,从而了解顾客的品位,有针对性地制定出一套既适合餐饮企业发展又能迎合顾客品位的菜肴体系和定价策略。
(5)物资管理系统
该系统主要完成对物资的进销存,实际上就是一套融采购管理(入库、供应商管理、账款管理)、销售(通过配菜卡与前台销售联动)、盘存为一体的物流管理系统。对于连锁企业,还涉及统一配送管理等。
通过以上信息化的建设,T 餐饮已经积累了大量的历史数据,有没有一种方法可帮助企业从这些数据中洞察商机,提取价值?在同质化的市场竞争中,怎样找到一些市场以前并不存在的"捡漏"和"补缺"?
1.2 从餐饮服务到数据挖掘
企业经营最大的目的就是盈利,而餐饮业企业盈利的核心就是其菜品和顾客,也就是其提供的产品和服务对象。企业经营者每天都在想推出什么样的菜系和种类能吸引更多的顾客,究竟不同顾客各自的喜好是什么,在不同的时段是不是有不同的菜品畅销,当把几种不同的菜品组合在一起推出时是不是能够得到更好的效果,未来一段时间菜品原材料应该采购多少….
T餐饮的经营者想尽快地解决这些疑问,使自己的企业更加符合现有顾客的口味,吸引更多的新顾客,又能根据不同的情况和环境转换自己的经营策略。T 餐饮在经营过程中,通过分析历史数据,总结出一些行之有效的经验;
口 在点餐过程中。由有经验的服务员根据顾客特点进行菜品推荐。一方面可提高菜品的销量,另一方面可减少客户点餐的时间和频率,提高用户体验;
口 根据菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销量进行预测,以便餐饮企业提前准备原材料;
口 定期对菜品销售情况进行统计,分类统计出好评菜和差评菜,为促销活动和新菜品推出提供支持;
口 根据就餐频率和金额对顾客的就餐行为进行评分,筛选出优质客户,定期回访和送去关怀。
上述措施的实施都依赖于企业已有业务系统中保存的数据,但是目前从这些数据中获得有关产品和客户的特点以及能够产生价值的规律更多地依赖于管理人员的个人经验。如果有一套工具或系统,能够从业务数据中自动或半自动地发现相关的知识和解决方案,这将极大地提高企业的决策水平和竞争能力。这种从数据中 "淘金"。从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它是利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。
这种分析方法可避免"人治"的随意性,避免企业管理仅依赖个人领导力的风险和不确定性,实现精细化营销与经营管理。
1.3 数据挖掘的基本任务
数据挖掘的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。
对餐饮企业而言,数据挖掘的基本任务是从餐饮企业采集各类菜品销量、成本单价、会员消费、促销活动等内部数据,以及天气、节假日、竞争对手以及周边商业氛围等外部数据;之后利用数据分析手段,实现菜品智能推荐、促销效果分析、客户价值分析、新店选址优化、热销/滞销菜品分析和销量趋势预测;最后将这些分析结果推送给餐饮企业管理者及有关服务人员,为餐饮企业降低运营成本、增加盈利能力、实现精准营销、策划促销活动等提供智能服务支持。
1. 4 数据挖掘建模过程
从本节开始,将以餐饮行业的数据挖掘应用为例来详细介绍数据挖掘的建模过程,如图1-1 所示。
1.4.1 定义挖掘目标
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么? 系统完成后能达到什么样的效果?因此我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的有关情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么
针对餐饮行业的数据挖掘应用,可定义如下挖掘目标∶
口 实现动态菜品智能推荐,帮助顾客快速发现自己感兴趣的菜品,同时确保推荐给顾客的菜品也是餐饮企业所期望的,实现餐饮消费者和餐饮企业的双赢;
口 对餐饮客户进行细分,了解不同客户的贡献度和消费特征,分析哪些客户是最有价值的,哪些是最需要关注的,对不同价值的客户采取不同的营销策略,将有限的资源投放到最有价值的客户身上,实现精准化营销;
口 基于菜品历史销售情况,综合考虑节假日、气候和竞争对手等影响因素,对菜品销量进行趋势预测,方便餐饮企业准备原材料;
口 基于餐饮大数据,优化新店选址,并对新店所在位置的潜在顾客口味偏好进行分析,以便及时进行菜式调整。
1.4.2 数据取样
在明确需要进行数据挖掘的目标后,接下来就需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集。抽取数据的标准,一是相关性,二是可靠性,三是有效性,而不是动用全部企业数据。通过数据样本的精选,不仅能减少数据处理量,节省系统资源,而且使我们想要寻找的规律性更加突显出来。
进行数据取样,一定要严把质量关。在任何时候都不能忽视数据的质量,即使是从一个数据仓库中进行数据取样,也不要忘记检查其质量如何。因为数据挖掘是要探索企业运作的内在规律性,原始数据有误,就很难从中探索规律性。若真的从中探索出了"规律性",再依此去指导工作,则很可能会造成误导。若从正在运行的系统中进行数据取样,更要注意数据的完整性和有效性。
衡量取样数据质量的标准包括∶
1)资料完整无缺,各类指标项齐全;
2)数据准确无误,反映的都是正常(而不是异常)状态下的水平。对获取的数据,可再从中作抽样操作。抽样的方式是多种多样的。常见的有∶
口 随机抽样∶ 在采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率。如按 10%的比例对一个数据集进行随机抽样,则每一组观测值都有10% 的机会被取到。
口 等距抽样∶如按 5%的比例对一个有100 组观测值的数据集进行等距抽样,则有∶ 100/5=20,等距抽样方式是取第 20、40、60、80 和第 100 这 5组观测值。
口 分层抽样;在这种抽样操作时,首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测值都具有相同的被选用的概率,但对不同的层次可设定不同的概率。这样的抽样结果通常具有更好的代表性。进而使模型具有更好的拟合精度。口 从起始顺序抽样;这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。
口 分类抽样; 在前述几种抽样方式中,并不考虑抽取样本的具体取值。分类抽样则依据某种属性的取值来选择数据子集,如按客户名称分类、按地址区域分类等。分类抽样的选取方式就是前面所述的几种方式,只是抽样以类为单位。
基于1.4.1节定义的针对餐饮行业的挖掘目标,需从客户关系管理系统、前厅管理系统、后厨管理系统、财务管理系统和物资管理系统抽取用于建模和分析的餐饮数据,主要包括∶
1)餐饮企业信息∶ 名称、位置、规模、联系方式,以及部门、人员、角色等;
2)餐饮客户信息∶ 姓名、联系方式、消费时间、消费金额等;
3)餐饮企业菜品信息∶菜品名称、菜品单价、菜品成本、所属部门等;
4)菜品销量数据∶菜品名称、销售日期、销售金额、销售份数;
5)原材料供应商资料及商品数据;供应商姓名、联系方式、商品名称,以及客户评价信息;
6)促销活动数据∶促销日期、促销内容、促销描述;
7)外部数据∶ 如天气、节假日、竞争对手以及周边商业氛围等。
1.4.3 数据探索
前面所叙述的数据取样,多少是带着人们对如何实现数据挖掘目标的先验认识进行操作的。当我们拿到一个样本数据集后,它是否达到我们原来设想的要求;其中有没有什么明显的规律和趋势;有没有出现从未设想过的数据状态;属性之间有什么相关性;它们可区分成哪些类别………,这都是要首先探索的内容。
【下载地址】
链接:https://pan.baidu.com/s/1Oe0a0P0ai5tZFqnhLCjapg
提取码:wwyb
相关文章
这是一部关于商务分析的书,而不是关于统计的书。这本书将明确地关注图形用户接 口、技巧、秘诀、技术和快捷方式,并将精力集中于商务分析师在日常生
本书以大家熟知的数据挖掘建模工具R语言来展开,以解决某个应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型
本书注重实用性,是一本全面而细致的 R 指南,高度概括了该软件和它的强大功能,展示了实用的统计示例。且对于难以用传统方法处理的读乱。
本书更侧重于编程,覆盖了大部分R语言图书没有涉及的与编程相关的主题,我甚至是围绕编程主题展开论述的。
本书重点讲解 R 的绘图系统,指导读者通过绘图系统实现数据可视化。书中提供了快速绘制高质量图形的 150多种技巧,每个技巧用来解决一个特定的
FlashFXP绿色版网盘下载,附激活教程 1841
FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具
Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1609
firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ
navicat for mysql中文绿色版网盘下载 1654
Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq
火车头采集器(旗舰版)绿色版网盘下载 1740
火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA
Photoshop(CS-2015-2023)绿色中文版软件下载 1860
安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64