当前位置:
首页 > 互联网+ > 大数据 > 数据分析师养成宝典pdf/doc/txt格式电子书下载

数据分析师养成宝典pdf/doc/txt格式电子书下载

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

数据分析师养成宝典pdf/doc/txt格式电子书下载

书名:数据分析师养成宝典pdf/doc/txt格式电子书下载

推荐语:本书将领航你的前程,在这里你将获得能力,用数据进行决策,用锐利的眼光透视企业的未来。

作者:程显毅,曲平,李牧

出版社:机械工业出版社

出版时间:2018-04-14

书籍编号:30512444

ISBN:9787111595106

正文语种:中文

字数:245896

版次:1

所属分类:互联网+-大数据

全书内容:

数据分析师养成宝典pdf/doc/txt格式电子书下载








如何使用本书


随着大数据时代的到来,企业管理者对数据价值的重视程度越来越高,他们渴望从企业内部数据、外部数据中获得更多的信息财富,并以此为依据,帮助自己做出正确的战略决策。 如今在数据分析师的岗位上,大多数员工都是非统计专业出身,远远达不到专业数据分析要求,如何能够快速找到突破口,帮助对数据分析有兴趣的人员全面掌握数据分析技巧,基于此,本书旨在帮助读者解决如下困惑:

数据分析师养成宝典pdf/doc/txt格式电子书下载

全书分为5篇:业务理解篇、指标设计篇、数据建模篇、价值展现篇和实战进阶篇,从数据到价值的演化如下图所示。

数据分析师养成宝典pdf/doc/txt格式电子书下载

业务数据化是把数据变为价值的先决条件,目的是建立正确的思维观,理解数据,熟悉业务;对数据描述、概括和分析是把数据变为价值的核心,是一个数据分析项目的实施过程;数据分析报告是数据价值的最终形态,好的数据分析报告是企业决策的重要依据,专业的数据分析报告能体现你的职场价值。


如果把整个数据分析过程比作开饭店,业务数据化相当于菜谱,虽然是纸上谈兵,但也是不可缺少的一环;描述、概括和分析相当于烧菜的厨艺,这是开饭店的先决条件,菜烧得好可以品尝,不能保证盈利;撰写数据分析报告相当于开饭店的理由,关键是说清楚如何让饭店盈利?盈利多少?菜谱、厨艺、开饭店理由三者相辅相成,缺少任何一环,盈利的目标都难以达成。


本书的特点如下:


1.落地实用


全书分为5篇,共27章,每一章的内容都从实际业务出发,书中所提供的思维方法、分析框架、数据指标设计与操作步骤都可以直接运用到工作当中。


2.重道轻术


“术”是数据分析方法和工具,“道”强调了如何对数据敏感,如何把数据分析工作融入商业思考,弥补许多人只懂理论脱离实践的不足。


3.零距离接触行业前沿


本书以R语言为计算平台,无论你是什么专业,无论你是否有编程基础,无论你是否学过统计,要想成为一名数据分析师,本书能帮到你。


4.体系完整


近年来,数据分析师可谓是大数据时代最热门的职业,相关的资料五花八门,让读者无所适从。从学科体系来看,无非包括三个层次:理论、工具和技巧。但由于数据分析的特殊性,依赖于思维和业务,所以,市场上成体系的书籍并不多见,大多是讲理论和工具,本书试图在数据分析完整的体系上做些探索。


在本书的编写过程,得到了许多人的支持,再次表示感谢:


感谢南通大学-南通智能信息技术联合研究中心给予的资金资助。


感谢硅湖职业技术学院在培训、实验方面所给予的支持。


感谢南通大学教材建设资金资助。


感谢我的学生沈佳杰、谢璐、胡海涛、姚泽峰、周春瑜、孙丽丽、杨琴和赵丽敏在资料整理方面所做的贡献。


其次,感谢我的妻子和儿女们,正是你们的鼓励和支持,我才会走到今天,你们的鼓励和陪伴永远是我前进的动力。


最后,特别要感谢我的母亲和已故的父亲,感谢你们的养育之恩。仅以此书献给健在的母亲,希望母亲健康,健康,更健康。


数据分析领域发展迅猛,对许多问题作者并未做深入研究,一些有价值的新内容也来不及收入本书。加上作者知识水平和实践经验有限,书中难免存在不足之处,敬请读者批评指正。


程显毅

第0章 说在前面的话


俗话说“内行看门道,外行看热闹”。我们每天都在接触各式各样的数据,这些数据在一般人眼中就是数字而已,但在数据分析师看来,它们蕴含着取之不尽、用之不竭的宝藏。数据来源形式多样,数据质量参差不齐,数据分析师的工作就是对这些数据进行清晰整理,从中分析出有价值的结论与规律。


0.1 大数据分析案例


(1)大数据反腐倡廉


大数据则是反腐倡廉的“术”,而且是最直接最有效的“术”,比指望官员主动申报自己所有财产要靠谱得多。


首先,需要建立一张全国人口信息表(注意,是“一张”包含13亿多条记录的大数据);然后,建立一张全国官员信息表,根据全国人口信息表,再建立起一张全国官员社会关系表。


要注意,建立官员社会关系表,就要用到本书讲的数据分析,从全国人口信息表中,挖掘出官员的各种社会关系。


有了全国官员信息表和官员社会关系表,这只是第一步,对他们的行为进行监控,才是关键,也就是大数据技术中的“用户行为分析”。


比如,可以监控官员及其社会关系的存取款、信用卡消费、股票基金、信托投资、出入境记录等,以银行为例,从银行系统中实时或近实时地获取官员及其社会关系的存取款记录、信用卡消费记录,并建立分析系统,从中发现官员贪腐的蛛丝马迹。


当这些监控分析系统运作建立起来以后,最高人民检察院、中纪委的同志们,就可以安心地在监控室里,看着大屏幕,静静等待系统发出的告警。


必须要指出的是,上述技术都是成熟的、可行的。


(2)大数据与房价


我国住建部建立的全国联网的个人房产信息,其实这就是一张大数据表,住建部完全可以建立两张表:全国居民个人房产信息表(以居民为索引)、全国房产信息登记表(以房产为索引),相互校验,相信一定可以发现不少问题。


重要的是,在(1)中提到的社会关系的分析手段,在这里仍然必不可少,至少要分析出以直系亲属为单位共同拥有的房产。


(3)大数据与智慧农业


为了解决全国各地各类农产品滞销的问题,可以建立一个全国性的农产品种植销售一体化的大数据平台,农民通过手机终端,就可以从这个大数据平台中看到全国每种农产品的种植面积,也需要上报自己的种植面积。


同时,如(1)和(2)中所述,最关键的是,这个大数据平台需要根据统计出的每种农产品的历年销售情况和区域,给出当年的销售预测,这样,就可以较好地向农民预警,避免农民一窝蜂地跟风种植“热销”农产品。


此外,经销商也可以从这个平台上看到农产品的种植情况和区域。


凡此种种,大数据分析就是用来消除信息孤岛,消除信息不对称带来的种种弊端。


0.2 数据分析


数据分析指的是将数据转化为价值的一个完整过程。作为一个完整过程,数据分析应该有很多环节。用看病来类比数据分析,是一个不错的例子,如图0.1所示。

数据分析师养成宝典pdf/doc/txt格式电子书下载

图0.1 数据分析过程与看病过程类比

为了理解数据分析,首先要弄清楚数据分析与其他相关概念的区别。数据分析还没有公认的定义,百度的解释是:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。


在使用中,数据分析可帮助人们做出判断,以便采取适当行动。


下面用宾州大学知名的Dennis Lin教授提到过的一个例子,显示数据分析与我们到底有多么紧密相关。这是一封大数据情书,信中写道:


亲爱的齐:


我们的感情,一年来正沿着健康的道路蓬勃发展。这主要表现在:


1)我们共通信121封,平均3.01天一封。其中你给我的信51封,占42.1%;我给你的信70封,占57.9%。每封信平均1502字,最长的达5215字,最短的也有624字。


2)约会共98次,平均3.7天一次。其中你主动约我38次,占38.7%;我主动约你60次,占61.3%。每次约会平均3.8小时,最长达6.4小时,最短的也有1.6小时。


3)我到你家看望你父母38次,平均每9.4天一次,你到我家看望我父母36次,平均10天一次。


以上充分证明一年来的交往我们形成了恋爱的共识,我们爱情的主流是互相了解、互相关心、互相帮助的,是平等的、互利的。


这封情书就是一个现实生活中利用数据进行分析的范例,如果情书通篇只谈我有多么爱你,往往是一封空洞的书信。但是如果在情书中加入量化的数据,能够大大增加情书的说服力。


为了理解数据分析,接下来比较一下与数据分析相关的概念。


0.2.1 数据分析不同于信息化系统


信息化是以现代通信、网络、数据库技术为基础,将所研究对象的各要素汇总至数据库,供特定人群生活、工作、学习、辅助决策等和人类息息相关的各种行为相结合的一种技术,使用该技术后,可以极大地提高各种行为的效率,为推动人类社会进步提供极大的技术支持。


数据分析与信息化系统对比见表0.1。

表0.1 数据分析与信息化系统对比

数据分析师养成宝典pdf/doc/txt格式电子书下载

0.2.2 数据分析不同于统计分析


统计分析是指运用统计方法及与分析对象有关的知识,从定量与定性的结合上进行的研究活动。它是继统计设计、统计调查、统计整理之后的一项十分重要的工作,是在前几个阶段工作的基础上通过分析达到对研究对象更深刻的认识。它又是在一定的选题下,集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。


运用统计方法、定量与定性的结合是统计分析的重要特征。随着统计方法的普及,不仅统计工作者可以搞统计分析,各行各业的工作者都可以运用统计方法进行统计分析。只将统计工作者参与的分析活动称为统计分析的说法严格说来是不正确的。提供高质量、准确而又及时的统计数据和高层次、有一定深度、广度的统计分析报告是统计分析的产品。从一定意义上讲,提供高水平的统计分析报告是统计数据经过深加工的最终产品,这里的深加工指数据挖掘方法。


统计分析还是就数据分析数据,还不能讲数据的故事。数据分析与统计分析对比见表0.2。

表0.2 数据分析与统计分析对比

数据分析师养成宝典pdf/doc/txt格式电子书下载

(续)

数据分析师养成宝典pdf/doc/txt格式电子书下载

0.2.3 数据分析不同于数据挖掘


在许多时候,数据分析和数据挖掘常常一起出现,许多人容易把这两个概念搞混淆。


所谓数据挖掘(Data Mining,DM)是指从大量不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、有用的信息和知识的过程。其表现形式为概念、规则、模式等形式。挖掘的结果是数据分析报告的素材,挖掘得越深,数据故事讲得就越精彩。数据挖掘技术是做数据分析达人的基本功。


数据分析与数据挖掘对比见表0.3

表0.3 数据分析与数据挖掘对比

数据分析师养成宝典pdf/doc/txt格式电子书下载

在企业运转过程中,数据分析和数据挖掘的需求持续不断,两者相辅相成,不可或缺,同等重要。


0.2.4 数据分析不同于数据管理


随着计算机技术的发展,数据管理经历了人工管理、文件系统和数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、更新与扩充,同时保证了数据的独立性、可靠性、安全性与完整性,减少了数据冗余,故提高了数据共享程度及数据管理效率。


数据管理只依赖于数据本身,与业务场景、思维习惯无关。数据管理是一种技能,而数据分析是一种艺术。


数据管理数据源一般要求数据是结构化的,数据分析的数据源可以是结构化、半结构化和非结构化的。


数据分析不同于数据管理,数据分析输入的是数据,输出是用于决策的数据分析报表,而数据管理输入的是数据,输出的还是数据。


0.2.5 数据分析不同于商业智能


数据分析只是一种工具(一种系统化分析问题的方式),可以很简单,也可以很复杂。


商业智能则是一种产品/服务,这个产品/服务可能包含报表、分析、管理等利用计算机和编程技术自动化一些商业过程的行为。


举例子:水果店老板利用商业智能做出来的报表或仪表盘观测自己商店的人流量、购买量、购买时间,及时调整自己的库存和销售节奏。


过去人们做生意,依靠的是直觉和经验。现在在计算机的帮助下,可以利用数据分析减少试错,减少错误决策带来的成本,明白生意好的因由。而商业智能将这一切尽可能地自动化和简化。


商业智能常常被理解为企业内部现有数据转化为指导商业决策的平台或系统。类似于ERP、CRM等系统一样的企业级信息化应用。常见的系统有Business Object、Cognos和Hyperon等。


从企业分工的角度来讲,通常商业智能部(BI)会涵盖大数据产品、数据分析和数据仓库3个部分。所以, 数据分析仅仅是BI中的一个部分。


数据分析应用于各个部门,通常更多是零散的应用和局部的应用;BI通常是企业级的应用,更宏观。


数据分析通常针对某个问题,运用一定的方法进行分析、归纳、演绎并得出结论;商业智能更多侧重于流程化、规范化和智能化的应用。


数据分析的工具包括R、SAS等挖掘工具,也包括Webtrekk、GA等统计分析工具,更包含Excel等初级工具,只要能实现分析都可以使用;BI通常包括SAP、Oracle、甲骨文等大型公司提供的工具,一般小工具都不能应用。


0.2.6 数据分析的内容


数据分析的内容可根据业务需求有所侧重,图0.2给出了分析内容的9个方面。

数据分析师养成宝典pdf/doc/txt格式电子书下载

图0.2 数据分析目标的深度示意图

(1)数据可视化


数据分析不使用图表是难以想象的,数据可视化的作用、技术

....

本站仅展示书籍部分内容

如有任何咨询

请加微信10090337咨询

本站仅展示书籍部分内容
如有任何咨询

请加微信10090337咨询

再显示