本书由浅入深地讲授统计学基础知识,并提供了统计方法的两种软件,既R和Python的使用方法,让读者可以边学习边着手用统计软件处理数据。全书涉及统计学基本概念、数据的收集、数据的描述、概率和分布、变量之间的关系(回归和分类、多元分析)、时间序列分析、生存分析简介和基本软件使用方法的介绍等。本书前面的章节是对统计基本概念的介绍,后半部分则介绍了更有针对性的一些统计模型、方法和应用。
前言
章一些基本概念
1.1统计:作为数据科学
1.2现实中的随机性和规律性,概率和机会
1.3变量和数据
1.4变量之间的关系
1.4.1定性变量间的关系
1.4.2定性和定量变量间的混合关系
1.5统计、计算机与统计软件
1.6本章的Python代码
1.7习题
第2章数据的收集
2.1数据是怎样得到的?
2.2个体、总体和样本
2.3参考资料:抽样调查和一些常用的方法
2.3.1概述
2.3.2概率抽样例子
2.3.3非概率抽样例子
2.3.4收集数据时的误差
2.3.5问卷调查的问题
2.4习题
第3章数据的描述
3.1如何用图来表示数据
3.1.1定量变量的图表示:直方图、盒形图、茎叶图和散点图
3.1.2定性变量的图表示:饼图和条形图
3.1.3其他图描述法
3.2如何用少量数字来概括数据?
3.2.1数据的“位置”
3.2.2数据的“尺度”
3.2.3数据的标准得分
3.3本章的Python代码
3.3.1直方图
3.3.2盒形图
3.3.3茎叶图
3.3.4散点图
3.3.5饼图
3.3.6条形图
3.3.7数据的标准得分
3.4习题
第4章机会的度量:概率和分布
4.1得到概率的几种途径
4.2概率的运算
4.3变量的分布
4.3.1离散随机变量
4.3.2离散分布例子:二项分布
4.3.3离散分布例子:多项分布
4.3.4离散分布例子:Poisson分布
4.3.5离散分布例子:超几何分布
4.3.6连续随机变量
4.3.7累积分布函数
4.3.8连续分布例子:正态分布
4.3.9通过正态分布说明连续分布的概率
4.3.10连续分布例子:均匀分布
4.3.11实际数据中变量的经验分布
4.4抽样分布
4.4.1什么是抽样分布
4.4.2中心极限定理
4.5本章的Python代码
4.5.1二项分布
4.5.2Poisson分布
4.5.3连续随机变量的分布
4.5.4正态分布
4.5.5均匀分布
4.5.6经验分布
4.5.7抽样分布
4.6习题
第5章有监督学习——回归和分类
5.1问题的提出
5.1.1多变量相互作用的真实世界
5.1.2数据科学的核心是有监督学习的预测
5.2通过数据案例理解有监督学习分类问题
5.2.1例5.1欺诈竞标数据
5.2.2探索性数据分析
5.2.3建立一个决策树分类模型
5.2.4如何选择分类决策树的拆分变量
5.2.5预测精度的交叉验证
5.2.6例5.1欺诈竞标数据决策树分类的变量重要性
5.3通过数据案例理解有监督学习回归问题
5.3.1例5.2凝土强度数据
5.3.2探索性数据分析
5.3.3建立一个决策树回归模型
5.3.4如何选择回归决策树的拆分变量
5.3.5回归中的交叉验证预测精度与残差的区别
5.3.6例5.2混凝土强度数据回归预测精度的交叉验证
5.3.7例5.2混凝土强度数据决策树回归的变量重要性
5.4若干有监督学习模型
5.4.1更多的例子
5.4.2两类模型的概述及交叉验证
5.4.3bagging分类和回归
5.4.4adaboost分类
5.4.5随机森林分类和回归
5.4.6SVM分类和回归
5.4.7最小二乘线性回归
5.4.8用于二分类的logistic回归
5.4.9线性判别分析分类
5.5本章自编R函数和一些作图代码
5.5.1平衡分类因变量各水平的分折函数
5.5.2单独模型的分类交叉验证函数(只用于本章的模型)
5.5.3单独模型的回归交叉验证函数(只用于本章的模型)
5.5.4课文中一些图的代码
5.6本章的Python代码
5.6.1一些需要的模块
5.6.2通过数据案例理解有监督学习分类问题
5.6.3通过数据案例理解有监督学习回归问题
5.6.4模型的概述及交叉验证
5.6.5bagging分类和回归
5.6.6adaboost分类
5.6.7随机森林分类和回归
5.6.8SVM分类和回归
5.6.9最小二乘线性回归
5.6.10logistic回归二分类
5.6.11线性判别分析做多分类
5.6.12本章要用的一些Python自编函数
5.7参考资料
5.7.1线性判别分析的一些数学细节
5.7.2支持向量机的一些数学细节
5.8习题
第6章无监督学习——多元分析
6.1寻找多个变量的代表:主成分分析和因子分析
6.1.1主成分分析
6.1.2因子分析
6.1.3因子分析和主成分分析的一些注意事项
6.2把对象分类:聚类分析
6.2.1如何度量距离远近?
6.2.2事先要确定分多少类:k均值聚类
6.2.3事先不用确定分多少类:分层聚类
6.2.4聚类要注意的问题
6.3两组变量之间的相关:典型相关分析
6.3.1两组变量的相关问题
6.3.2典型相关分析
6.4列联表行变量和列变量的关系对应分析
……