从输入法联想提示(predictive text)、email 过滤到自动文本摘要、机器翻译,大量的语言相关的技术都离不开自然语言处理的支持,而这本书提供了自
然语言处理非常方便的入门指南。通过它,你将学到如何写能处理大量非结构化文本的 Python 程序。你将获得有丰富标注的涵盖语言学各种数据结构的数据集,而且你将学到分析书面文档内容和结构的主要算法。
通过大量的例子和联系,《PYTHON 自然语言处理》将会帮助你:
� 从非结构化文本中提取信息,无论是猜测主题还是识别“命名实体”。
� 分析文本的语言学结构,包括文法和语义分析
� 访问流行的语言学数据集,包括 Word Net和 treebanks
� 整合从语言学到人工智能的多个领域的技术
通过使用 Python 程序设计语言和自然语言工具包(NTLK)的开源函数库,本书将帮助你获得自然语言处理的实际经验。如果你对开发 Web 应用、分析多种语言的新闻来源或者收集濒危语言感兴趣,或者仅仅对以程序员的视角看人类语言如何运作好奇,你将发现《PYTHON 自然语言处理》不仅迷人而且极其有用。
这是一本关于自然语言处理的书。所谓“自然语言”,是指人们日常交流使用的语言,如英语,印地语,葡萄牙语等。相对于编程语言和数学符号这样的人工语言,自然语言随着一代人传给另一代人而不断演化,因而很难用明确的规则来刻画。从广义上讲,“自然语言处理”(Natural Language Processing 简称 NLP)包含所有用计算机对自然语言进行的操作,从最简单的通过计数词出现的频率来比较不同的写作风格,到最复杂的完全“理解”人所说的话,至少要能达到对人的话语作出有效反应的程度。
基于 NLP 的技术应用日益广泛。例如:手机和手持电脑支持输入法联想提示和手写识别;网络搜索引擎能搜到非结构化文本中的信息;机器翻译能把中文文本翻译成西班牙文。通过提供更自然的人机界面和更复杂的存储信息获取手段,语言处理正在这个多语种的信息社会中扮演更核心的角色。
这本书提供自然语言处理领域非常方便的入门指南。它可以用来自学,也可以作为自然语言处理或计算语言学课程的教科书,或是人工智能、文本挖掘、语料库语言学课程的补充读物。本书的实践性很强,包括几百个实际可用的例子和分级练习。
本书基于 Python 编程语言及其上的一个名为自然语言工具包(Natural Language Toolk it,简称 NLTK)的开源库。NLTK 包含大量的软件、数据和文档。NLTK 的发行版本支持 Windows、Macintosh 和 Unix 平台。我们强烈建议你下载 Python 和 NLTk,与我们一起尝试书中的例子和练习。
NLP 是科学、经济、社会和文化的一个重要因素。NLP 正在迅速成长,它的很多理论和方法在大量新的语言技术中得到应用。所以对很多行业的人来说掌握 NLP 知识十分重要。在应用领域包括从事人机交互、商业信息分析、web 软件开发的人;在学术界包括从人文计算学、语料库语言学到计算机科学和人工智能领域的人。(学术界的很多人把 NLP 叫称为“计算语言学”。)
本书旨在帮助所有想要学习如何编写程序分析书面语言的人,不管他们以前的编程经验如何:
初学编程?
本书的最初几章适合没有编程经验的读者,只要你不怕应对新概念和学习新的计算机技能。遍布书中的例子和数以百计的分级练习,你都可以复制下来亲自尝试一下。
初学 Python?
有经验的程序员可以很快掌握书中用到的 Python 代码,而专注于自然语言处理。所有涉及到的 Python 的特征都经过精心解释和举例说明,你很快就会体会到 Python 用在这个应用领域是多么合适。
已经精通 Python?
你可以略读 Python 的例子而钻研第一章一开始就有的有趣的语言分析材料。你能很快在这个迷人的领域展现你的技能。
本书是一本实用的介绍 NLP 的书。你将通过例子来学习,编写真正的程序,体会到能够通过实践验证自己想法的价值。如果你没有学过编程,本书将教你如何编程。与其他编程书籍不同的是,我们提供了丰富的来自 NLP 领域的实例和练习。我们撰写本书的方法也是讲究原则和条理的,无论是严谨的语言学还是计算分析学,我们不回避所涉及到的基础理论。
我们曾经试图在理论与实践之间寻求折中,确定它们之间的联系与边界。最终我们认识到只要能从中受益而感到快乐这些都是无关紧要的,所以我们竭尽所能插入了很多既有益又有趣的应用和例子,有些甚至有些异想天开。
请注意本书并不是一本工具书。本书讲述的 Python 和 NLP 是精心挑选的,并通过教程的形式展现的。本书也不是高深的计算机科学文章。书中的内容属于初级和中级,目标读者是那些想要学习如何使用 Python 和自然语言分析包来分析文本的人。
你将学到什么?
通过钻研本书,你将学到:
� 十分简单的程序如何就能帮你处理和分析语言数据,以及如何写这些程序
� NLP 与语言学的关键概念是如何用来描述和分析语言的
� NLP 中的数据结构和算法是怎样的
� 语言数据是如何存储为标准格式,以及如何使用数据来评估 NLP 技术的性能
根据读者知识背景和学习 NLP 的动机不同,从本书中获得的技能和知识也将不同,详情见表 P-1:
表 P-1. 读者的目标和背景不同,阅读本书可获得的技能和知识
目标 艺术人文背景 理工背景
语言分析 操控大型语料库,设计语言模型,验证由经验得出的假设。 使用数据建模,数据挖掘和知识发现的技术来分析自然语言。
语言技术 应用 NLP 技术构筑健壮的系统处理语言学任务。 使用健壮的语言处理软件中的语言学算法和数据结构
本书前几章按照概念的难易程度编排。先是实用性很强的语言处理的入门介绍,讲述如何使用很短的 Python 程序分析感兴趣的文本信息(1-3 章)。接着是结构化程序设计章节(第 4 章),用来巩固散布在前面几章中的编程要点。之后,速度加快,我们用一系列章节讲述语言处理的主要内容:标注、分类和信息提取(5-7 章)。接下来的三章探索分析句子、识别句法结构和构建表示句意的方法(8-10 章)。最后一章讲述如何有效管理语言数据(第 1
1 章)。本书结尾处的后记简要讨论了 NLP 的过去和未来。每一章中我们都在两种不同的叙述风格间切换。一种风格是以自然语言为主线。我们分析语言,探索语言学概;在讨论中使用编程的例子。我们经常会使用尚未系统介绍的 Python 结构,这样你可以在钻研这些程序如何运作的细节之前了解它们的效能。就像学习一门外语的惯用表达一样,你能够买到好吃的糕点而不必先学会复杂的提问句型。叙述的另一种风格是以程序设计语言为主线。我们将分析程序、探索算法,而语言学例子将扮演配角。
每章结尾都有一系列分级练习,用于巩固学到的知识。练习按照如下的标准分级:○初级练习:对范例代码作稍微修改等简单的练习;◑中级练习:深入探索材料的一个方面,需要仔细的分析和设计;●高级练习:开放的任务,挑战你对材料的理解并迫使你独立思考解决的方案(新学编程的读者应该跳过这些)。
Python 是一种简单但功能强大的编程语言,非常适合处理语言数据。
下面的 4 行 Python 程序就可以操作 file.txt 文件,输出所有后缀是“ing”的词。
>>> for line in open("file.txt"): ... for word in line.split(): ... if word.endswith('ing'): ... print word
这段程序演示了 Python 的一些主要特征。首先,使用空白符号缩进代码,从而使 if 后面的代码都在前面一行 for 语句的范围之内;这保证了检查单词是否以“ing”结尾的测试对所有单词都进行。第二,Python 是面向对象语言。每一个变量都是包含特定属性和方法的对象。例如:变量“line”的值不仅仅是一行字符串,它是一个 string 对象,包含用来把字符串分割成词的 split()方法(或叫操作、函数)。我们在对象名称后面写句号(点)再写方法名称就可以调用对象的一个方法,即 line.splie()。第三,方法的参数写在括号内。例如:上面的例子中的 word.endswith('ing'),参数“ing”表示我们需要找的是“ing”结尾的词而不是别的结尾的词。最后也是最重要的,Python 的可读性如此之强以至于可以相当容易的猜出程序的功能,即使你以前从未写过一行代码。
我们选择 Python 是因为它的学习曲线比较平缓,文法和语义都很清晰,具有良好的处理字符串的功能。作为解释性语言,Python 便于交互式编程。作为面向对象语言,Python允许数据和方法被方便的封装和重用。作为动态语言,Python 允许属性等到程序运行时才被添加到对象,允许变量自动类型转换,提高开发效率。Python 自带强大的标准库,包括图形编程、数值处理和网络连接等组件。
Python 在世界各地的工业、科研、教育领域应用广泛。它因为提高了软件的生产效率、质量和可维护性而备受称赞。
NLTK 定义了一个使用 Python 进行 NLP 编程的基础工具。它提供重新表示自然语言处理相关数据的基本类,词性标注、文法分析、文本分类等任务的标准接口以及这些任务的标准实现,可以组合起来解决复杂的问题。
NLTK 自带大量文档。
为了充分利用好本书,你应该安装一些免费的软件包。http://www.nltk.org/上有这些软件包当前的下载链接和安装说明。
Python
本书的例子都假定你正在使用 Python 2.4 或 2.5 版本。一旦 NLTK 的依赖库支持 Python3.0,我们将把 NLTK 移植到 Python 3.0。
NLTK
本书的代码示例使用 NLTK 2.0 版本。NLTK 的后续版本将是兼容的。
NLTK-Data
包含本书中分析和处理的语言语料库。
NumPy(推荐)
这是一个科学计算库,支持多维数组和线性代数,在某些计算概率、标记、聚类和分类任务中用到。
Matplotlib(推荐)
这是一个用于数据可视化的 2D 绘图库,本书在产生线图和条形图的程序例子中用到。
NetworkX(可选)
这是一个用于存储和操作由节点和边组成的网络结构的函数库。可视化语义网络还需要安装 Graphviz 库。
Prover9(可选)
这是一个使用一阶等式逻辑定理的自动证明器,用于支持语言处理中的推理。
【下载地址】
链接:https://pan.baidu.com/s/1TvxdIpAWNd9q5XNKEMrwEg
提取码:urw0
相关文章
为了更好地适应新形势,满足读者对大数据分析处理学习的迫切需要,我们推出了《大数据分析 ∶ R基础及应用》一书 ,力求使读者能够从中了解大数据
读完本书后,你将掌握R语言的精华,并能够熟练使用多种工具来解决各种数据科学难题。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始, 获得初始
通过它,你将学到如何写能处理大量非结构化文本的 Python 程序。你将获得有丰富标注的涵盖语言学各种数据结构的数据集,而且你将学到分析书面
本书可以作为Python编程语言的一本指南或者教程。它主要是为新手而设计,不过对于有经验的程序员来说,它同样有用。
本书以机器学习与计算统计为主题背景,专门讲t述如何挖掘和分析 Web,上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出
为了能让更多的编程小自轻松地入门编程,我把高效学习法结合 Pvthon 中的核心知识,写成了这本书。随意翻上几页,你就会发现这本书和其他编程
本书结构非常简单,其实就是 52 个习题。其中 26 个覆盖了输入输出、变量、以及函数三个课题,另外 26个覆盖了一些比较高级的话题,如条件
本书以CPython为研究对象,在C代码一级,深入细致地剖析了Python的实现。本书不仅包括了对大量Python内置对象的剖析,更将大量的
本书是学习Python编程语言的入门书籍。Python是一种很流行的开源编程语言,可以在各种领域中用于编写独立的程序和脚本。Python免费
本书用 Python 语言来讲解算法的分析和设计。本书主要关注经典的算法,但同时会为读者理解基本算法问题和解决问题打下很好的基础。全书共 1
本书面向的读者是那些经常使用电子表格软件进行数据处理,但从未写过一行代码的人。前几章会教你设置 Python 运行环境,告诉你计算机是如何看
神经网络是一种模拟人脑的神经网络,以期能够实现类人工智能的机器学习技术。本书揭示神经网络背后的概念,并介绍如何通过Pvthon实现神经网络。
Python 是一种容易学习的强大的编程语言。它包含了高效的高级数据结构,能够用简单而高效的方式进行面向对象编程。Python 优雅的语法和
本书是面向 Python 初学者的学习指南,详细介绍了 Python 编程基础,以及一些高级概念,如面向对象编程。
FlashFXP绿色版网盘下载,附激活教程 1546
FlashFxp百度网盘下载链接:https://pan.baidu.com/s/1MBQ5gkZY1TCFY8A7fnZCfQ。FlashFxp是功能强大的FTP工具
Adobe Fireworks CS6 Ansifa绿色精简版网盘下载 1359
firework可以制作精美或是可以闪瞎眼的gif,这在广告领域是需要常用的,还有firework制作下logo,一些原创的图片还是很便捷的,而且fireworks用法简单,配合dw在做网站这一块往往会发挥出很强大的效果。百度网盘下载链接:https://pan.baidu.com/s/1fzIZszfy8VX6VzQBM_bdZQ
navicat for mysql中文绿色版网盘下载 1436
Navicat for Mysql是用于Mysql数据库管理的一款图形化管理软件,非常的便捷和好用,可以方便的增删改查数据库、数据表、字段、支持mysql命令,视图等等。百度网盘下载链接:https://pan.baidu.com/s/1T_tlgxzdQLtDr9TzptoWQw 提取码:y2yq
火车头采集器(旗舰版)绿色版网盘下载 1619
火车头采集器是站长常用的工具,相比于八爪鱼,简洁好用,易于配置。火车头能够轻松的抓取网页内容,并通过自带的工具对内容进行处理。站长圈想要做网站,火车头采集器是必不可少的。百度网盘链接:https://pan.baidu.com/s/1u8wUqS901HgOmucMBBOvEA
Photoshop(CS-2015-2023)绿色中文版软件下载 1746
安装文件清单(共46G)包含Window和Mac OS各个版本的安装包,从cs到cc,从绿色版到破解版,从安装文件激活工具,应有尽有,一次性打包。 Photoshop CC绿色精简版 Photoshop CS6 Mac版 Photoshop CC 2015 32位 Photoshop CC 2015 64位 Photoshop CC 2015 MAC版 Photoshop CC 2017 64位 Adobe Photoshop CC 2018 Adobe_Photoshop_CC_2018 Photoshop CC 2018 Win32 Photoshop CC 2018 Win64