机器学习系统设计pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:机器学习系统设计pdf/doc/txt格式电子书下载
推荐语:微软Bing核心团队成员手把手教你用Python设计机器学习系统
作者:(美)WilliRichert,LuisPedroCoelho,刘峰译
出版社:人民邮电出版社
出版时间:2014-07-01
书籍编号:30335546
ISBN:9787115356826
正文语种:中文
字数:167374
版次:1
所属分类:互联网+-人工智能
版权信息
书名:机器学习系统设计
作者:(美)Willi Richert Luis Pedro Coelho
译者:刘峰
ISBN:9787115356826
免责声明:本站所有资源收集整理于网络,版权归原作者所有。
本站所有内容不得用于商业用途。本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
译者序
在眼花缭乱的互联网产品背后,你会发现总有一些东西在沙子下面闪闪发光,它们本身并不是产品,却能把令人惊艳的产品带到你我面前。机器学习技术就是这样一种宝贝。
如果在十年前,你不知道机器学习,那么可以理解,因为它还是一个科研实验室的玩具;如果在十年后的今天,作为IT从业人员的你,还没有听说过机器学习,那么你真是“奥特曼”了。
对于产品来说,机器学习技术的应用,可以给产品带来质的飞跃,提高产品的核心竞争力;对于IT从业人员来说,机器学习技术已经成为了一种必备的技能,掌握了它,可以在各大IT公司游刃有余,个人价值徒增。
《机器学习系统设计》就是一本带你在机器学习海洋中遨游的书。如果你只想学习基础理论,那么这本书或许并不适合你。它并没有深入机器学习背后的数学细节,而是通过Python这样一种广泛应用的脚本语言,从数据处理,到特征工程,再到模型选择,把机器学习解决实际问题的过程一一呈现在你的面前。这本书的最大特点在于:易上手、实践性强、贴近应用。它可以让你在很短的时间内了解机器学习的基本原理,掌握机器学习工具,然后去解决实际问题。从文字、声音到图像,从主题模型、情感分析到推荐技术,本书所教给你的都是最实际的技术,让你从一个新手迅速成长为大咖。
鉴于译者水平有限,书中难免有错误疏漏之处,欢迎读者批评指正。微博:@飞旋的世界。电子邮箱:gnefuil@gmail.com。
作者致谢
感谢我的妻子Natalie和我儿子Linus及Moritz,没有家人的支持,本书将不会写就。感谢我的现任及前任经理Andras Bode、Clemens Marschner、Hongyan Zhou和Eric Crestan,感谢他们与我进行富有成效的讨论。感谢我的同事和朋友Tomasz Marchniak、Cristian Eigel、Oliver Niehoerster和Philipp Adelt,本书很多有趣的想法大都来自于他们。如果你发现本书中的错误,记得联系我,它们都归咎于我。
——Willi Richert
我要感谢我妻子Rita的爱心和支持,还要感谢我的女儿Anna,她是我生命中最美好的存在。
——Luis Pedro Coelho
Willi Richert的致谢
感谢我的妻子Natalie和我儿子Linus及Moritz,没有家人的支持,本书将不会写就。感谢我的现任及前任经理Andras Bode、Clemens Marschner、Hongyan Zhou和Eric Crestan,感谢他们与我进行富有成效的讨论。感谢我的同事和朋友Tomasz Marchniak、Cristian Eigel、Oliver Niehoerster和Philipp Adelt,本书很多有趣的想法大都来自于他们。如果你发现本书中的错误,记得联系我,它们都归咎于我。
Luis Pedro Coelho的致谢
我要感谢我妻子Rita的爱心和支持,还要感谢我的女儿Anna,她是我生命中最美好的存在。
关于作者
Willi Richert
机器学习和机器人学方面的博士,目前供职于微软Bing搜索核心研发团队。他从事多种机器学习领域的研究,包括主动学习和统计机器翻译。
Luis Pedro Coelho
计算生物学家(用计算机辅助理解生物系统的学者)。在这个广阔的领域中,Luis从事生物图像信息学方面的研究,致力于生物标本图像分析中机器学习技术的应用。他主要关注大规模图像数据的处理。在机器人显微镜下,每天可以获得几十万幅图像,而我们不可能做到用肉眼检查所有这些图像。
Luis从机器学习领域世界领先的卡内基-梅隆大学获得了博士学位,并发表过多篇科学论文。
Luis从1998年开始开发开源软件,他把从里斯本理工大学计算机科学课程中所学的东西应用到了实际代码中。2004年,他开始用Python进行开发,并在几个Python开源库中贡献了代码。他是mahotas(由Python编写的流行计算机视觉库)的主要开发人员,其中一些机器学习代码就出于他手。
我要感谢我的妻子Evangeline,感谢她一直以来无尽的支持。我也要感谢我的朋友及家人,感谢他们对我的帮助。感谢耶稣对我的拯救。
关于审校者
Matthieu Brucher在法国高等电力学院读取了工程学学位(专业是信息、信号、测量),并获得了法国斯特拉斯堡大学非监督流形学习方向的博士学位。他目前在一家石油公司担任高性能计算(HPC)软件开发员,正致力于下一代油藏模拟软件的开发。
Mike Driscoll从2006年春季开始从事Python编程,经常在博客 http://www.blog.pythonbrary.org/上发表关于Python的文章,偶尔也为Python软件基金会、i-Programmer和开发者论坛(Developer Zone)撰写文章。他喜爱摄影和阅读。Mike曾多次参与Packt图书的审校工作,这些图书包括:Python 3 Object Oriented Programming、Python 2.6 Graphics Cookbook和Python Web Development Beginner\'s Guide。
Maurice HT Ling在墨尔本大学获得了分子与细胞生物学学士学位(优等),以及生物信息学博士学位。他目前在新加坡南洋理工大学担任研究员,同时还是墨尔本大学的荣誉研究员。他是The Python Papers Anthology的联合主编,也是新加坡Python用户组的联合创始人(自2010年起担任副主席一职)。他的研究兴趣在于生命——生物生命、人工生命以及人工智能——将计算机科学和统计学作为工具来理解生命以及它的诸多方面。个人网站:http://maurice.vodien.com。
def nn_movie(movie_likeness, reviews, uid, mid): likes = movie_likeness[mid].argsort() # 逆序排列,使最受喜爱的电影排在前面 likes = likes[::-1] # 返回最相似电影的打分 for ell in likes: if reviews[u,ell] > 0: return reviews[u,ell]
# 返回最相似电影的打分
注意 这里给出重要的注意事项。
提示 提示和技巧则会在这里出现。
前言
如果你手里(或者你的电子阅读器里)有这本书,可以说,这是一个幸运的巧合。毕竟,每年有几百万册图书印刷出来,供数百万读者阅读,而你恰好选择了这一本。可以说,正是机器学习算法引领你来阅读这本书(或者说是把这本书引领到你面前)。而我们作为本书的作者,很高兴看到你愿意了解更多的“怎么做”和“为什么”。
本书大部分内容都将涉及“怎么做”。例如,怎么处理数据才能让机器学习算法最大限度地利用它们?怎么选择正确的算法来解决手头的问题?
我们偶尔也会涉及“为什么”。例如,为什么正确评估很重要?为什么在特定情形下一个算法比另一个算法的效果更好?
我们知道,要成为该领域的专家还有很多知识要学。毕竟,本书只介绍了一些“怎么做”和极小一部分“为什么”。但在最后,我们希望这些内容可以帮你“启航”,然后快速前行。
本书内容
第1章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过拟合的风险,这对我们提出了挑战。
第2章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。
第3章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。
第4章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。
第5章讲解了如何用逻辑回归判定用户的答案是好还是坏。在这个情景的背后,我们将学会用偏差-方差的折中调试机器学习模型。
第6章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。
第7章讨论了一个处理数据的经典课题,但它在今天仍然有意义。我们用它构建了一个推荐系统,这个系统根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。
第8章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。
第9章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时信任别人的专长比我们自己构建特征更好。
第10章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。
第11章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。
第12章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。
附录A罗列了一系列机器学习的优质资源。
阅读需知
本书假定读者了解Python,并且知道如何利用easy_install
或pip
安装库文件。我们并不依赖于任何高等数学知识,如微积分或矩阵代数。
总体而言,本书将使用以下版本的软件,不过如果你使用任何新近版本,也没有问题。
- Python 2.7
- NumPy 1.6.2
- SciPy 0.11
- Scikit-learn 0.13
读者对象
本书适合想通过开源库来学习机器学习的Python程序员阅读参考。我们会通过示例概述机器学习的基本模式。
本书也适用于想用Python构建机器学习系统的初学者。Python是一个能够快速构建原型系统的灵活语言,它背后的算法都是由优化过的C或C++编写而成。因此,它的代码运行快捷,并且十分稳健,完全可以用在实际产品中。
排版约定
当你阅读本书时,会发现书中有各式各样的文本,它们用来区分不同类型的信息。下面是这些样式文本的示例以及相应说明。
正文中的代码是这样的:“我们可以通过使用include
命令将其他内容包含进来。”
代码段采用如下形式:
如果我们想让你注意代码段的特定部分,就会用粗体表示相应代码行或条目:
新的术语以及重要文字采用楷体字。你在屏幕(如菜单或者对话框)中见到的文字这样出现在正文中:“点击Next按钮以进入下一界面。”
读者反馈
我们一贯欢迎读者的反馈意见。请告诉我们你对本书的看法,喜欢哪些部分,不喜欢哪些部分。这些反馈对于协助我们创作出真正对读者有所裨益的内容至关重要。
如果给我们反馈一般性信息,你可以发送电子邮件到feedback@packtpub.com,并在邮件标题中注明书名。如果你是某一方面的专家并愿意参与撰稿,请访问www.packtpub.com/authors参阅我们的作者指南。
客户支持
现在你已经拥有了某本由Packt出版的书,为了让你的付出得到最大的回报,我们还为你提供了其他许多方面的服务,请注意以下信息。
下载代码
如果你是通过http://www.packtpub.com的注册账户购买的图书,可以从该账户中下载相应Packt图书的示例代码1。如果你是从其他地方购买的本书,可以访问http://www.packtpub.com/support并进行注册,我们将会为你发送一封附有示例代码文件的电子邮件。
1.读者还可免费注册iTuring.cn,至本书页面下载——编者注
勘误
虽然我们会全力确保本书内容的准确性,但错误仍在所难免。如果你发现了本书中的错误(包括文字和代码错误),而且愿意向我们提交这些错误,我们感激不尽。这样一来,不仅可以减少其他读者的疑虑,也有助于改进本书后续版本。要提交你发现的错误,请访问http://www.packtpub.com/submit-errata,选择相应图书,点击errata submission form(提交勘误表2),登记你
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询