Python数据分析基础(高清PDF下载)

c#小王子 c#小王子 2021-05-08 2993 软件,编程,Python


Python数据分析基础(高清PDF下载)


前言


本书面向的读者是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。前几章会教你设置 Python 运行环境,告诉你计算机是如何看待数据并对其进行简单处理的。你很快就能掌握在电子表格(包括 CSV 文件)和数据库中处理数据的方法。


刚开始,你可能会觉得这样做是一种退步,如果你能熟练使用Excel,这种感受会更加强烈。以前你只需复制粘贴就能完成的工作,现在却要煞费苦心地告诉 Python 如何在列的每个单元格之间循环,这效率太低了,想想就令人沮丧(特别是当你几次三番地回头去找某一处输入错误的时候)。但是当你逐渐掌握了 Python 之后,就会不断地发现它的真正价值所在,而其中一个极好的例子就是它可以自动完成你现在不断重复的工作。


本书的写作目的是让你全面地掌握 Python,然后充满信心地写出按照你的期望运行的有效代码。一开始输入一些代码或许是个好主意,这样你就会熟悉像制表符、闭括号和引用之类的技术细节。但是,本书中的所有代码在网上都能找到。你在做自己的工作时,完全可以通过复制粘贴来重用这些代码。没关系! 适时地进行复制和粘贴也是高效编程的一部分。在阅读本书的同时完成示例程序,会使你更好地理解示例代码的原理。祝你在成为程序员的道路上好运连连!


为什么要读这本书,为什么要学习 这些技能


如果你经常做数据处理工作,就一定会为学习编程而兴奋。学习编程的一个好处是,你可以完成那些靠手工难以完成或者根本不可能完成的数据处理与分析工作。可能你已经遇到了这样的问题∶需要处理的文件包含太多数据,以至于打开文件都非常困难或者根本不可行。即使打开了这些文件,手动处理也会花费大量时间,并且极易出错,因为你对数据进行的任何修改都需要很长时间才能更新,而且面对如此多的数据,进行修改时很容易漏掉某一行或某一列。你可能还遇到了其他情况,如需要处理大量的文件,以至于手动处理根本不可能完成。有些时候,你需要的数据来自于几十、几百甚至上千个文件。当所需的文件数量不断增加时,手动处理会变得越来越困难。在以上所有这些情况之下,写一个Python 脚本来处理文件就可以解决你的问题,因为 Python 脚本可以快速有效地处理大型文件和大批量的文件。


学习编程的另—个好处是,你可以自动地重复数据处理和数据分析过程。在很多情况下。我们针对数据做的都是耗时的重复性工作。例如,—般的数据管理过程是,先从客户或供应商处获取数据,然后提取并保留所需的数据,之后还可能会进行一些数据转换或重新格式化,最后将数据保存到数据库或数据仓库中 【这就是数据科学家熟知的数据 ETL(extract, ransform、load,即抽取、转换和加载)过程】。类似地,典型的数据分析过程包括数据获取、数据准备、数据分析和结果展示。在数据管理和数据分析过程中,一旦建立了流程,就可以编写 Python 代码来进行各种操作。通过创建 Python脚本来执行操作,你可以将耗时的重复性工作简化为执行一个脚本,并用节省下来的时间去做其他更有意义的工作。


最重要的是,在进行数据处理和数据分析时,使用 Python 脚本代替手动操作可以减小出错的可能性。手动进行数据处理时,非常可能出现复制粘贴错误或输入错误。导致出错的原因有很多;你可能因过干匆忙而忽略了错误,或者有些事导致你分心了,或者仅是因为你太累了。而且,当你处理大型文件或大批量的文件,或者进行重复性操作时,出错的可能性会更大。相反,Python 脚本从来不会分心或疲劳。一旦你调试好脚本,确认它可以按照你的期望处理数据,它就会一如既往、不知疲倦地工作下去。


最后,学习编程非常有趣,而且能提高自身能力。只要熟悉了基本的语法,你就会非常乐于找到所需的语言功能,然后将它们组合在一起,以完成整体的数据分析目标。至于代码和语法,网上有许多示例可以教会你如何使用专门的功能来完成特定的任务。不过,这些示例虽能提供帮助,但是你需要通过自己的创造 力和解决问题的能力来弄清楚如何修改这些代码,以使它们满足你的实际需要。找到合适的代码,并想办法让它们为你工作,这是个非常有意思的过程。此外,学习编程能极大地提高自身的能力。举个例子,考虑一下我前面提到过的情况,即要处理大型文件和大批量文件。如果不会编程,那么你要么需要花费大量时间,要么束手无策。一旦学会了编程,你就可以通过 Python 脚本轻松愉快地解决所有问题。有些数据处理和数据分析任务以前是非常困难或根本不可能完成的,但是现在你都可以轻松搞定,这会使你充满信心,能量爆棚,从而积极主动地寻找更多的机会,使用 Python 来迎接数据处理方面的挑战。


目标读者


本书的目标读者是那些经常从事数据处理工作,又具有极少或根本没有编程经验的人。书中的示例覆盖了常用的数据源和数据格式,包括文本文件、逗号分隔值(CSV)文件、 Excel 文件和数据库。在某些情况下,由于文件中数据过多,或由于文件数量太多,造成文件难以打开或不能通过手动处理。在其他一些情况下,从文件中抽取和使用数据的过程非常耗时并且容易出错。在这些情况下,如果你不会编程,就会将大量时间浪费在数据搜索、打开与关闭文件,以及复制和粘贴数据上面。


鉴于你可能从未运行过脚本,本书从最基本的操作开始,介绍如何在文本文件中编写代码以创建 Python 脚本。然后,我们会学习如何通过命令行窗口(Windows用户)或终端窗口(macOS 用户)来运行 Python脚本。(如果你做过一点编程,可以跳过第1章,直接学习第 2章中的数据分析内容。)本书的编写方式特别适合编程新手。书中提供的示例包含了完成某项任务所需的全部 Python 代码,而不是仅提供一些代码片段,让你自己将它们组合起来以完成任务。你以后可能会经常使用本书作为参考,而且会发现书中的代码确实有帮助。最后,正所谓"一图胜千言",书中使用了大量屏幕截图来展示输入文件、Python 脚本、命令行窗口、终端窗口和输出文件,这样你就可以真实地看到如何创建输入、代码、命令和输出了。


我会详细讲解代码的原理,也会推荐一些工具供你使用。这种方法可以帮助你打下坚实的基础,以理解在程序背后到底发生了什么。有时候,你需要在 Google 上搜索问题的解决方案并找到一些有用的代码。做完了书中的练习之后,你可以更好地理解这些代码的工作原理,也就是说,你不但知道如何根据具体情况使用它们,而且知道在出现问题时如何进行修复。因为你在每一章中都会编写一些代码,所以你会发现可以将本书作为菱考书,或指导手册,然后在里面找到完成具体任务的方法。但是请记住,这仅是一本"学习如何编程"的书,你还需要不断提高和扩展编程技能,以便综合运用它们来完成各种任务。


为什么使用Windows


本书中的大部分示例都是演示在 Microsoft Windows 系统下如何创建和运行 Python 脚本。将重点放在 Windows 系统上的原因很简单∶我想让本书帮助尽可能多的人。根据估计,大多数台式机和笔记本电脑(特别是用于商业分析的计算机)运行的是 Windows 操作系统。例如,根据 Net Applications 的调查,截至 2014 年 12 月,Microsoft Windows 占领了大约 90% 的台式机和笔记本电脑操作系统市场。因为我想让本书满足台式机用户和笔记本电脑用户的需求,而且这些电脑中多数都安装了Windows 操作系统,所以本书将集中讲述如何在 Windows 系统下创建和运行 Python 脚本。

尽管本书将重点放在了Windows上,但在适当情况下,我也提供如何在 macOS 系统上创建和运行Python 脚本的示例。不论在哪种机器上运行,Python中几乎所有功能的表现都是一样的。当因为操作系统不同而出现差别时,我会分别给出具体的说明。例如,第1章的第一个例子演示了如何在Microsoft Windows和 macOS 系统下创建和运行Python 脚本。类似地,第2章和第3 章的第一个例子也演示了如何在 Windows和 macOS 系统下创建和运行 Python 脚本。此外,第8章涵盖了两种操作系统,介绍了如何在 Windows 中建立计划任务以及如何在 macOS中建立定时作业。如果你是 Mac 用户,可以使用每章的第一个例子作为模板,来学习如何创建 Python 脚本,如何使其可以执行,以及如何运行脚本,然后重复这些步骤来创建和运行每章中其余的示例程序。


为什么使用Python


如果你的目的是学习一门编程语言来使数据处理和数据分析任务规模化和自动化,那么 Python绝对是一个好的选择。Python 的一个显著特点就是使用空白字符和缩进来表示行的结尾和代码分块,这与很多其他语言不同,其他语言使用特殊字符(比如分号和花括号)来达到同样的目的。Python 的这个特点使你一眼就能看出程序的组织方式。


在其他语言中,特殊字符的使用对于编程新手来说是个困扰,原因至少有两个。第一,这使得学习曲线更长并且更加陡峭。当你学习编程时,实质上是在学习一门新的语言,你必须花时间学习这些特殊字符的用法,然后才能有效地使用这门语言。第二。特殊字符使代码难以阅读。这是因为在使用分号和花括号表示代码块的语言中,并不总是使用缩进来标明代码块。如果没有缩进,多个代码块看上去就是乱七八糟的。


Python 使用空白字符和缩进来表示代码分块,而不使用分号和花括号,这样就避免了上述问题。当你阅读 Python 代码时,你的视线会集中在实际的代码行上,而不是代码块的分隔符上,因为代码周围只有空自字符。Python 要求代码块必须缩进,这样你会很容易看出代码块在哪里结束,新的代码块又在哪里开始。而且,Python 社区特别强调代码的可读性,因此已经形成了一种文化,就是一定要书写易于阅读和理解的代码。Python 的这些特点使学习曲线更短并且更加平坦,与其他语言相比,使用 Python 进行数据处理可以更快也更容易上手。 Python 适用于数据处理与分析的另一个显著特点,是其具有大量的标准模块、附加模块以及函数,可以非常方便地完成—般的数据处理与分析操作。内建库和标准库中的模块和函数是 Python的标准配置,所以只要你下载并安装了Python,就可以立即使用这些内建的模块和函数。在 Python标准库页面(https∶//docs.python.org/3/library)中,你可以找到所有内建模块和标准模块的介绍。Python 附加模块需要单独下载并安装,然后才能使用它们提供的附加功能。你可以在 Python 程序包索引页面(https//pypi.python.org/pypi)详细查看很多附加模块的介绍。


标准库中的模块提供的功能包括读取各种类型的文件(如文本文件,CSV,JSON、 HTML,XML 等),处理数值,字符串和日期型数据,使用正则表达式进行模式匹配,解析 CSV 文件,计算基本的统计量,以及向各种类型的输出文件和磁盘写入数据。有用的附加模块太多,无法一一介绍。本书要讨论和使用的附加模块如下所示。

xrd 和 xLwt

功能∶解析与读写 Microsoft Excel 工作簿。

nysqlcltent/MysQL·python/MysQLdb

功能;连接 MySQL 数据库,在数据库表上运行查询。

●pandas

功能∶ 读取各种类型的文件,管理、筛选和转换数据;聚合数据并计算基本统计量;创建各种类型的统计图表。

●statsmodels

功能∶估计各种统计模型,包括线性回归模型、广义线性模型和分类模型。

●scikit-learn

功能∶估计机器学习统计模型,包括回归、分类和聚类,以及执行数据处理。

维度归约和交叉验证。

如果你是编程新手,并且正在寻找一门可以使数据处理与分析任务自动化和规模化的编程语言,那么 Python 就是理想的选择。

Python 对于空白字符和缩进的强调使代码更易于阅读和理解,因而和其他语言相比。它的学习曲线没有那么陡。Pvthon 的内建库和附加库可以方便地完成许多一般的数据处理和分析操作,让你可以轻松地一站式完成数据处理与分析任务。


基础Python和pandas


pands 是 Python 的一个功能强大的附加模块,提供对数据进行读/写、组合、转换和管理的功能,同时i可以计算统计量并创建统计图表。在完成数据处理任务时。使用 pandas 提供的功能可以大大减轻你的编码工作量。这个模块深受数据分析师和其他 Python 使用者青睐,因为它的功能实用且强大,运行速度快,使用简单,能够减少完成任务所需的代码量。正因为 pandas 功能强大且深受欢迎,所以本书将向你介绍它。本书在第2 章和第 3章中提供 pandas 版的 Python 脚本,在第6章中介绍如何使用 pandas 创建统计图表,在第7章中演示如何通过 pandas 计算各种统计量。我建议你学习一下 Wes McKinney 的著作《利用Python 进行数据分析》。


同时,如果你是编程新手,我还建议你学习一下基本的编程技能。一旦具有了编程技能,你就可以扩展自己解决问题的能力。你可以将复杂的问题分解成几个较小的问题,分别解决,然后将它们组合起来解决更大的问题。你还可以培养出一种直觉,去决定使用哪种数据结构和算法来有效且高效地解决各种问题。此外,你还会遇到像 pandas 这样的附加模块无法解决或者无法以你需要的方式解决的问题。在这种情况下,如果你没有基本的编程技能,就会束手无策。相反,如果你具有了编程技能,就可以创建所需功能,从而独立解决问题。能够独立解决编程问题是非常令人振奋的,并能极大提升个人能力。

因为本书是面向编程新手的,所以我会将重点放在基础的、通用的编程技能上。比如,第 1 章介绍数据类型、数据容器、控制流、函数、if-eLse 逻辑和文件读写等基本概念。此外,在第 2 章和第 3章中,每种脚本都提供两个版本的实现方式;基础Python版和 pandas版。在每个案例中,我会首先讨论基础 Python 版的实现,让你学会独立编码解决问题,然后再给出 pandas 版的实现。我希望你能够从基础 Python 版中学会基本的编程技能,这样在使用 pandas 版时,你就能够更加深刻地理解 pandas 简化了的概念和操作。


Anaconda Python


当开始使用 Python时,有很多程序可以用来编写代码。例如,如果你从 Python.org 下载了 Python,在安装完成之后,就会得到一个具有图形用户界面(GU)的文本编辑器,它叫作 Idle。另外,你可以下载 IPython Notebook,在一种基于 Web的交互式环境下编写代码。如果你在 macOS系统下工作,或者在Windows 系统上安装了Cygwin,那么就可以在终端窗口中使用 Nano、Vim或 Emacs 等内置文本编辑器编写代码。如果你已经熟悉了上面的任意一种程序,那么就可以随意使用它来处理本书中的示例代码。


但是,这里我要介绍如何从 Continuum Analytics下载并安装免费的 Anaconda Python发行版,因为与其他版本相比,它对于编程新手来说具有很多优点,而且同样适合编程老手! Anaconda Pvthon 最主要的优点是,它会预先安装几百个最流行的 Python 附加模块,所以你无需一个一个地安装这些模块以及它们的依赖模块。举例来说,本书要使用的所有附加模块在 Anaconda Python 中都预先安装好了。


【下载地址】


链接:https://pan.baidu.com/s/1Vnxkj2ygc5XEFNgrX9gKXw

提取码:dtsd


相关文章


R基础及应用-大数据分析(高清PDF 下载)

为了更好地适应新形势,满足读者对大数据分析处理学习的迫切需要,我们推出了《大数据分析 ∶ R基础及应用》一书 ,力求使读者能够从中了解大数据

《R数据科学》高清中/英文版PDF+源代码

读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。

用Python写网络爬虫(高清PDF 下载)

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始, 获得初始

用Python进行自然语言处理(高清PDF 下载)

通过它,你将学到如何写能处理大量非结构化文本的 Python 程序。你将获得有丰富标注的涵盖语言学各种数据结构的数据集,而且你将学到分析书面

简明python教程(高清PDF下载)

本书可以作为Python编程语言的一本指南或者教程。它主要是为新手而设计,不过对于有经验的程序员来说,它同样有用。

集体智慧编程-python算法应用(高清PDF 下载)

本书以机器学习与计算统计为主题背景,专门讲t述如何挖掘和分析 Web,上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出

编程小白的第一本+python+入门书(高清PDF下载)

为了能让更多的编程小自轻松地入门编程,我把高效学习法结合 Pvthon 中的核心知识,写成了这本书。随意翻上几页,你就会发现这本书和其他编程

笨办法学.Python.(第三版)(高清PDF下载)

本书结构非常简单,其实就是 52 个习题。其中 26 个覆盖了输入输出、变量、以及函数三个课题,另外 26个覆盖了一些比较高级的话题,如条件

Python源码剖析(高清PDF 下载)

本书以CPython为研究对象,在C代码一级,深入细致地剖析了Python的实现。本书不仅包括了对大量Python内置对象的剖析,更将大量的

Python学习手册(第4版)(中文版高清PDF 下载)

本书是学习Python编程语言的入门书籍。Python是一种很流行的开源编程语言,可以在各种领域中用于编写独立的程序和脚本。Python免费

Python算法教程_中文版(高清PDF下载)

本书用 Python 语言来讲解算法的分析和设计。本书主要关注经典的算法,但同时会为读者理解基本算法问题和解决问题打下很好的基础。全书共 1

Python数据分析基础(高清PDF下载)

本书面向的读者是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。前几章会教你设置 Python 运行环境,告诉你计算机是如何看

Python神经网络编程中英文(高清PDF下载)

神经网络是一种模拟人脑的神经网络,以期能够实现类人工智能的机器学习技术。本书揭示神经网络背后的概念,并介绍如何通过Pvthon实现神经网络。

Python入门指南 (中英文版高清PDF下载)

Python 是一种容易学习的强大的编程语言。它包含了高效的高级数据结构,能够用简单而高效的方式进行面向对象编程。Python 优雅的语法和

PYTHON入门经典_超高清pdf

本书是面向 Python 初学者的学习指南,详细介绍了 Python 编程基础,以及一些高级概念,如面向对象编程。


文章热度: 166291
文章数量: 333
推荐阅读

FlashFXP绿色版网盘下载,附激活教程 1547

FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具

Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1359

firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ

navicat for mysql中文绿色版网盘下载 1436

Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq

火车头采集器(旗舰版)绿色版网盘下载 1619

火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA

Photoshop(CS-2015-2023)绿色中文版软件下载 1746

安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64

知之

知之平台是全球领先的知识付费平台。提供各个领域的项目实战经验分享,提供优质的行业解决方案信息,来帮助您的工作和学习

使用指南 建议意见 用户协议 友情链接 隐私政策 Powered by NOOU ©2020 知之