特征工程入门与实践pdf/doc/txt格式电子书下载
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询
书名:特征工程入门与实践pdf/doc/txt格式电子书下载
推荐语:从零入手,全面了解特征工程,提升机器学习算法的效率、准确率
作者:(土)锡南·厄兹代米尔(SinanOzdemir),迪夫娅·苏萨拉(DivyaSusarla),庄嘉盛译
出版社:人民邮电出版社
出版时间:2019-06-01
书籍编号:30511574
ISBN:9787115511645
正文语种:中文
字数:192269
版次:1
所属分类:互联网+-人工智能
版权信息
书名:特征工程入门与实践
作者:(土)锡南·厄兹代米尔(Sinan Ozdemir) 迪夫娅·苏萨拉(Divya Susarla)
ISBN:9787115511645
出版时间:2019-06-01
出版社:人民邮电出版社
免责声明:本站所有资源收集整理于网络,版权归原作者所有。
本站所有内容不得用于商业用途。本站发布的内容若侵犯到您的权益,请联系站长删除,我们将及时处理!
版权声明
Copyright © 2018 Packt Publishing. First published in the English language under the title Feature Engineering Made Easy.
Simplified Chinese-language edition copyright © 2019 by Posts & Telecom Press. All rights reserved.
本书中文简体字版由Packt Publishing授权人民邮电出版社独家出版。未经出版者书面许可,不得以任何方式复制或抄袭本书内容。
版权所有,侵权必究。
Network_features = pd.DataFrame({\'datetime\': [\'6/2/2018\', \'6/2/2018\', \'6/2/2018\', \'6/3/2018\'], \'protocol\': [\'tcp\', \'http\', \'http\', \'http\'], \'urgent\': [False, True, True, False]}) Network_response = pd.Series([True, True, False, True]) Network_features >> datetime protocol urgent 0 6/2/2018 tcp False 1 6/2/2018 http True 2 6/2/2018 http True 3 6/3/2018 http False Network_response >> 0 True 1 True 2 False 3 True dtype: bool
times_pregnant 0.221898 plasma_glucose_concentration 0.466581 diastolic_blood_pressure 0.065068 triceps_thickness 0.074752 serum_insulin 0.130548 bmi 0.292695 pedigree_function 0.173844 age 0.238356 onset_diabetes 1.000000 Name: onset_diabetes, dtype: float64
前言
本书的主题是特征工程。特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的新特征,为进一步解释数据并进行预测性分析做准备。
本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理,等等。书中还会涉及各种或简单或复杂的数学工具,数据要经过这些工具处理、转换成适当的形式,才能进入计算机和机器学习流水线中进行处理。
作为数据科学家,我们将通过观察和变换来获取对数据的全新理解,这不仅会增强机器学习算法的效果,而且会增强我们对数据的洞悉力。
目标读者
本书面向希望理解并使用特征工程进行机器学习和数据挖掘的读者。
读者应能熟练使用Python进行机器学习和编程,才能顺着章节的展开循序渐进地了解新知识点。
本书内容
第1章,特征工程简介 这一章介绍特征工程的基本术语,简要阐释本书涉及的各类问题。
第2章,特征理解:我的数据集里有什么 这一章介绍我们在实际中会遇见的各类数据,并说明如何处理这些数据。
第3章,特征增强:清洗数据 这一章介绍填充缺失值的各种方法,以及为何某些处理方法会使机器学习性能变差。
第4章,特征构建:我能生成新特征吗 这一章介绍如何使用已有的特征构建新特征,以扩大数据集。
第5章,特征选择:对坏属性说不 这一章介绍定量的选择方法,用于判断哪些特征值得在数据流水线中保留。
第6章,特征转换:数学显神通 这一章介绍如何使用线性代数和高等数学方法增强数据的刚性结构,从而提升流水线的性能。
第7章,特征学习:以AI促AI 这一章介绍如何利用最先进的机器学习和人工智能算法,发现人类难以理解的特征。
第8章,案例分析 这一章介绍了一系列巩固特征工程思想的案例。
阅读须知
阅读本书有以下两点要求。
(1) 本书的所有编程示例均使用Python。你需要有一台可以访问Unix式终端的计算机(Linux、Mac或Windows均可),并安装Python 3。
(2) 建议安装Anaconda,因为这个环境几乎包含了示例中要用到的所有包。
下载示例代码
你可以从“图灵社区”本书页面(http://www.ituring.com.cn/book/2606)下载书中的示例代码。
文件下载结束之后,请确定使用以下软件的最新版本解压或提取文件:
- WinRAR/7-Zip(Windows)
- Zipeg/iZip/UnRarX(Mac)
- 7-Zip/PeaZip(Linux)
https://github.com/PacktPublishing/提供了种类丰富的图书和视频资料相关代码包,好好看一下吧!
下载本书彩色图片
我们也提供含有彩色截图/图表的PDF文件。彩色图片能帮助你更深入地理解输出的变化。下载地址:https://www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ColorImages.pdf。
排版约定
本书采用不同的文本样式来区分不同类别的信息。
正文中的代码按以下样式显示:“假设要进一步处理数据,我们的任务就是通过3个输入特征(datetime
、protocol
和urgent
)准确地预测malicious
。简单地说,我们想要的系统可以把datetime
、protocol
和urgent
的值映射到malicious
的值。”
代码块的样式如下所示:
如果我们需要你重点关注某处,会加粗显示:
新术语、重点词和屏幕上的文字将以黑体形式显示。
这个图标表示警告或需要特别注意的内容。
这个图标表示提示或技巧。
联系我们
一般反馈:发送邮件至feedback@packtpub.com并在主题处提及书名。如果对于本书任何方面有疑问,请发送邮件至questions@packtpub.com。
勘误:尽管我们做了各种努力来保证内容的准确性,依然无法避免出现错误。如果你在书中发现文字或代码错误,请告知我们,我们将非常感谢。请访问https://www.packtpub.com/submit-errata提交勘误。1通过点击Errata Submission Form链接选择图书,然后输入勘误详情。
1针对本书中文版的勘误,请到http://www.ituring.com.cn/book/2606查看和提交。——编者注
反盗版:如果你在网上发现有对我们图书的非法复制行为,请立即将地址或网站名通知我们,非常感谢。请联系copyright@packtpub.com并提供有盗版嫌疑的链接。
成为作者:如果你在某个领域有专业知识,并且有兴趣进行图书写作,请访问authors.packtpub.com。
评论
请留下你的评论。阅读并使用本书之后,为什么不在购买网站上留下评论呢?其他读者可以根据你的客观意见来做出购买决定,Packt可以了解你对产品有何看法,作者也能看到你对本书的反馈。谢谢!
想了解关于Packt的更多信息,请访问packtpub.com。
电子书
扫描如下二维码,即可购买本书电子版。
from Arty import AI AI.respond_to(\"my phone froze, what should I do?\") >> \"reset it.\"
数据源:https://whatsthebigdata.com/2016/05/01/data-scientists-spend-most-of-their-time-cleaning-data/。
特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。
Network_features = pd.DataFrame({\'datetime\': [\'6/2/2018\', \'6/2/2018\', \'6/2/2018\', \'6/3/2018\'], \'protocol\': [\'tcp\', \'http\', \'http\', \'http\'], \'urgent\': [False, True, True, False]}) Network_response = pd.Series([True, True, False, True]) Network_features >> datetime protocol urgent 0 6/2/2018 tcp False 1 6/2/2018 http True 2 6/2/2018 http True 3 6/3/2018 http False Network_response >> 0 True 1 True 2 False 3 True dtype: bool
监督学习
一般来说,我们都是在监督学习(也叫预测分析)的特定上下文中提到特征工程。监督学习算法专门处理预测一个值的任务,通常是用数据中的其他属性来预测余下的一个属性。以如下表示网络入侵的数据集为例。
DateTime | Protocol | Urgent | Malicious |
---|---|---|---|
June 2nd, 2018 | TCP | FALSE | TRUE |
June 2nd, 2018 | HTTP | TRUE | TRUE |
June 2nd, 2018 | HTTP | TRUE | FALSE |
June 3rd, 2018 | HTTP | FALSE | TRUE |
还是前文用到的数据集,这次我们在预测分析的上下文中深入探讨。
注意,数据集有4个属性:DateTime
、Protocol
、Urgent
和Malicious
。假设Malicious
属性包含代表该观测值是否为恶意入侵的值。所以在这个小数据集中,第1次、第2次和第4次连接都是恶意入侵。
进一步假设,在这个数据集中,我们要尝试用3个属性(DateTime
、Protocol
和Urgent
)准确预测Malicious
属性。简单地说,我们想建立一个系统,将DateTime
、Protocol
和Urgent
属性的值映射到Malicious
的值。监督学习问题就是这样建立起来的:
在监督学习中,我们一般将数据集中希望预测的属性(一般只有一个,但也不尽然)叫作响应(response),其余属性叫作特征(feature)。
也可以认为,监督学习是一种利用数据结构的算法。我们的意思是,机器学习算法会试图从很漂亮整洁的数据中提取模式。但是之前我们讨论过,不应该想当然地认为进入流水线的数据都是干净的:特征工程由此而来。
你可能会问:如果我们不做预测,机器学习又有什么用呢?问得好。在机器学习可以利用数据结构之前,我们有时需要调整乃至创造结构。无监督学习在这里大放异彩。
注意,这里将所有的列都称为特征,因为无监督学习没有响应,我们没有做预测。
无监督学习
监督学习的目的是预测。我们利用数据的特征对响应进行预测,提供有用的信息。如果不是要通过探索结构进行预测,那就是想从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。
这个概念有可能比监督学习更难理解,我们在此提供一个例子来阐明。
- 无监督学习的例子:市场细分
假如我们的数据集很大(有100万行),每行是一个人的基本特征(年龄、性别等)以及购买商品的数量(代表从某个店铺购买的商品数)。
年龄 | 性别 | 购买商品的数量 |
---|---|---|
25 | 女 | 1 |
28 | 女 | 23 |
61 | 女 | 3 |
54 | 男 | 17 |
51 | 男 | 8 |
47 | 女 | 3 |
27 | 男 | 22 |
31 | 女 | 14 |
这是营销数据集的一个样本,每行代表一个顾客,每人有3个基本属性。我们的目标是将这个数据集细分成不同的类型或聚类,让执行分析的公司更好
....
本站仅展示书籍部分内容
如有任何咨询
请加微信10090337咨询