当前位置:
首页 > 互联网+ > 人工智能 > 特征工程入门与实践pdf/doc/txt格式电子书下载

特征工程入门与实践pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

特征工程入门与实践pdf/doc/txt格式电子书下载

书名:特征工程入门与实践pdf/doc/txt格式电子书下载

推荐语:从零入手,全面了解特征工程,提升机器学习算法的效率、准确率

作者:(土)锡南·厄兹代米尔(SinanOzdemir),迪夫娅·苏萨拉(DivyaSusarla),庄嘉盛译

出版社:人民邮电出版社

出版时间:2019-06-01

书籍编号:30511574

ISBN:9787115511645

正文语种:中文

字数:192269

版次:1

所属分类:互联网+-人工智能

全书内容:

特征工程入门与实践pdf/doc/txt格式电子书下载








版权声明


Copyright © 2018 Packt Publishing. First published in the English language under the title Feature Engineering Made Easy.


Simplified Chinese-language edition copyright © 2019 by Posts & Telecom Press. All rights reserved.


本书中文简体字版由Packt Publishing授权人民邮电出版社独家出版。未经出版者书面许可,不得以任何方式复制或抄袭本书内容。


版权所有,侵权必究。



Network_features = pd.DataFrame({\'datetime\': [\'6/2/2018\', \'6/2/2018\', \'6/2/2018\', \'6/3/2018\'], \'protocol\': [\'tcp\', \'http\', \'http\', \'http\'], \'urgent\': [False, True, True, False]}) Network_response = pd.Series([True, True, False, True]) Network_features >> datetime protocol urgent 0 6/2/2018 tcp False 1 6/2/2018 http True 2 6/2/2018 http True 3 6/3/2018 http False Network_response >> 0 True 1 True 2 False 3 True dtype: booltimes_pregnant 0.221898 plasma_glucose_concentration 0.466581 diastolic_blood_pressure 0.065068 triceps_thickness 0.074752 serum_insulin 0.130548 bmi 0.292695 pedigree_function 0.173844 age 0.238356 onset_diabetes 1.000000 Name: onset_diabetes, dtype: float64

前言


本书的主题是特征工程。特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的新特征,为进一步解释数据并进行预测性分析做准备。


本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理,等等。书中还会涉及各种或简单或复杂的数学工具,数据要经过这些工具处理、转换成适当的形式,才能进入计算机和机器学习流水线中进行处理。


作为数据科学家,我们将通过观察和变换来获取对数据的全新理解,这不仅会增强机器学习算法的效果,而且会增强我们对数据的洞悉力。



本书面向希望理解并使用特征工程进行机器学习和数据挖掘的读者。


读者应能熟练使用Python进行机器学习和编程,才能顺着章节的展开循序渐进地了解新知识点。



第1章,特征工程简介 这一章介绍特征工程的基本术语,简要阐释本书涉及的各类问题。


第2章,特征理解:我的数据集里有什么 这一章介绍我们在实际中会遇见的各类数据,并说明如何处理这些数据。


第3章,特征增强:清洗数据 这一章介绍填充缺失值的各种方法,以及为何某些处理方法会使机器学习性能变差。


第4章,特征构建:我能生成新特征吗 这一章介绍如何使用已有的特征构建新特征,以扩大数据集。


第5章,特征选择:对坏属性说不 这一章介绍定量的选择方法,用于判断哪些特征值得在数据流水线中保留。


第6章,特征转换:数学显神通 这一章介绍如何使用线性代数和高等数学方法增强数据的刚性结构,从而提升流水线的性能。


第7章,特征学习:以AI促AI 这一章介绍如何利用最先进的机器学习和人工智能算法,发现人类难以理解的特征。


第8章,案例分析 这一章介绍了一系列巩固特征工程思想的案例。



阅读本书有以下两点要求。


(1) 本书的所有编程示例均使用Python。你需要有一台可以访问Unix式终端的计算机(Linux、Mac或Windows均可),并安装Python 3。


(2) 建议安装Anaconda,因为这个环境几乎包含了示例中要用到的所有包。



你可以从“图灵社区”本书页面(http://www.ituring.com.cn/book/2606)下载书中的示例代码。


文件下载结束之后,请确定使用以下软件的最新版本解压或提取文件:



  • WinRAR/7-Zip(Windows)
  • Zipeg/iZip/UnRarX(Mac)
  • 7-Zip/PeaZip(Linux)

https://github.com/PacktPublishing/提供了种类丰富的图书和视频资料相关代码包,好好看一下吧!



我们也提供含有彩色截图/图表的PDF文件。彩色图片能帮助你更深入地理解输出的变化。下载地址:https://www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ColorImages.pdf。



本书采用不同的文本样式来区分不同类别的信息。


正文中的代码按以下样式显示:“假设要进一步处理数据,我们的任务就是通过3个输入特征(datetimeprotocolurgent)准确地预测malicious。简单地说,我们想要的系统可以把datetimeprotocolurgent的值映射到malicious的值。”


代码块的样式如下所示:


如果我们需要你重点关注某处,会加粗显示:


新术语、重点词和屏幕上的文字将以黑体形式显示。


特征工程入门与实践pdf/doc/txt格式电子书下载 这个图标表示警告或需要特别注意的内容。


特征工程入门与实践pdf/doc/txt格式电子书下载 这个图标表示提示或技巧。



一般反馈:发送邮件至feedback@packtpub.com并在主题处提及书名。如果对于本书任何方面有疑问,请发送邮件至questions@packtpub.com。


勘误:尽管我们做了各种努力来保证内容的准确性,依然无法避免出现错误。如果你在书中发现文字或代码错误,请告知我们,我们将非常感谢。请访问https://www.packtpub.com/submit-errata提交勘误。1通过点击Errata Submission Form链接选择图书,然后输入勘误详情。


1针对本书中文版的勘误,请到http://www.ituring.com.cn/book/2606查看和提交。——编者注


反盗版:如果你在网上发现有对我们图书的非法复制行为,请立即将地址或网站名通知我们,非常感谢。请联系copyright@packtpub.com并提供有盗版嫌疑的链接。


成为作者:如果你在某个领域有专业知识,并且有兴趣进行图书写作,请访问authors.packtpub.com。



请留下你的评论。阅读并使用本书之后,为什么不在购买网站上留下评论呢?其他读者可以根据你的客观意见来做出购买决定,Packt可以了解你对产品有何看法,作者也能看到你对本书的反馈。谢谢!


想了解关于Packt的更多信息,请访问packtpub.com。



扫描如下二维码,即可购买本书电子版。


{%}



from Arty import AI AI.respond_to(\"my phone froze, what should I do?\") >> \"reset it.\"

特征工程入门与实践pdf/doc/txt格式电子书下载 数据源:https://whatsthebigdata.com/2016/05/01/data-scientists-spend-most-of-their-time-cleaning-data/。


特征工程入门与实践pdf/doc/txt格式电子书下载 特征工程(feature engineering)是这样一个过程:将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。

Network_features = pd.DataFrame({\'datetime\': [\'6/2/2018\', \'6/2/2018\', \'6/2/2018\', \'6/3/2018\'], \'protocol\': [\'tcp\', \'http\', \'http\', \'http\'], \'urgent\': [False, True, True, False]}) Network_response = pd.Series([True, True, False, True]) Network_features >> datetime protocol urgent 0 6/2/2018 tcp False 1 6/2/2018 http True 2 6/2/2018 http True 3 6/3/2018 http False Network_response >> 0 True 1 True 2 False 3 True dtype: bool

监督学习


一般来说,我们都是在监督学习(也叫预测分析)的特定上下文中提到特征工程。监督学习算法专门处理预测一个值的任务,通常是用数据中的其他属性来预测余下的一个属性。以如下表示网络入侵的数据集为例。




























DateTime Protocol Urgent Malicious
June 2nd, 2018 TCP FALSE TRUE
June 2nd, 2018 HTTP TRUE TRUE
June 2nd, 2018 HTTP TRUE FALSE
June 3rd, 2018 HTTP FALSE TRUE

还是前文用到的数据集,这次我们在预测分析的上下文中深入探讨。


注意,数据集有4个属性:DateTimeProtocolUrgentMalicious。假设Malicious属性包含代表该观测值是否为恶意入侵的值。所以在这个小数据集中,第1次、第2次和第4次连接都是恶意入侵。


进一步假设,在这个数据集中,我们要尝试用3个属性(DateTimeProtocolUrgent)准确预测Malicious属性。简单地说,我们想建立一个系统,将DateTimeProtocolUrgent属性的值映射到Malicious的值。监督学习问题就是这样建立起来的:


在监督学习中,我们一般将数据集中希望预测的属性(一般只有一个,但也不尽然)叫作响应(response),其余属性叫作特征(feature)。


也可以认为,监督学习是一种利用数据结构的算法。我们的意思是,机器学习算法会试图从很漂亮整洁的数据中提取模式。但是之前我们讨论过,不应该想当然地认为进入流水线的数据都是干净的:特征工程由此而来。


你可能会问:如果我们不做预测,机器学习又有什么用呢?问得好。在机器学习可以利用数据结构之前,我们有时需要调整乃至创造结构。无监督学习在这里大放异彩。


特征工程入门与实践pdf/doc/txt格式电子书下载 注意,这里将所有的列都称为特征,因为无监督学习没有响应,我们没有做预测。


无监督学习


监督学习的目的是预测。我们利用数据的特征对响应进行预测,提供有用的信息。如果不是要通过探索结构进行预测,那就是想从数据中提取结构。要做到后者,一般对数据的数值矩阵或迭代过程应用数学变换,提取新的特征。


这个概念有可能比监督学习更难理解,我们在此提供一个例子来阐明。



  • 无监督学习的例子:市场细分

假如我们的数据集很大(有100万行),每行是一个人的基本特征(年龄、性别等)以及购买商品的数量(代表从某个店铺购买的商品数)。







































年龄 性别 购买商品的数量
25   1
28 23
61   3
54 17
51   8
47   3
27 22
31 14

这是营销数据集的一个样本,每行代表一个顾客,每人有3个基本属性。我们的目标是将这个数据集细分成不同的类型或聚类,让执行分析的公司更好

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示