封面
版权信息
内容简介
推荐序1
推荐序2
前言
第1章 Python入门知识
1.1 Python简介与本书的教学理念
1.2 Python的下载与安装
1.2.1 下载Python(Anaconda平台)
1.2.2 安装Python(Anaconda平台)
1.2.3 Anaconda Prompt(Anaconda3)
1.2.4 Spyder(Anaconda3)的介绍及偏好设置
1.2.5 Spyder(Anaconda3)窗口介绍
1.3 Python注释、基本输入与输出
1.3.1 Python的注释
1.3.2 print函数
1.3.3 input函数
1.4 Python变量和数据类型
1.4.1 Python的保留字与标识符
1.4.2 Python的变量
1.4.3 Python的基本数据类型
1.4.4 Python的数据运算符
1.5 Python序列
1.5.1 索引(Indexing)
1.5.2 切片(Slicing)
1.5.3 相加(Adding)
1.5.4 相乘(Multiplying)
1.5.5 元素检查
1.5.6 与序列相关的内置函数
1.6 Python列表
1.6.1 列表的基本操作
1.6.2 列表元素的基本操作
1.6.3 列表推导式
1.7 Python元组
1.7.1 元组的基本操作
1.7.2 元组元素的基本操作
1.7.3 元组推导式
1.8 Python字典
1.8.1 字典的基本操作
1.8.2 字典元素的基本操作
1.8.3 字典推导式
1.9 Python集合
1.10 Python字符串
1.11 习题
第2章 Python进阶知识
2.1 Python流程控制语句
2.1.1 选择语句
2.1.2 循环语句
2.1.3 跳转语句
2.2 Python函数
2.2.1 函数的创建和调用
2.2.2 参数的相关概念与操作
2.2.3 变量的作用域
2.3 Python模块和包
2.3.1 模块的创建和导入
2.3.2 包的创建和使用
2.4 Python numpy模块中的数组
2.4.1 数组的创建
2.4.2 数组的计算
2.4.3 使用数组开展矩阵运算
2.4.4 数组的排序、索引和切片
2.5 Python pandas模块中的序列与数据框
2.5.1 序列的相关操作
2.5.2 数据框的相关操作
2.6 Python对象与类
2.6.1 类的定义
2.6.2 定义适用于类对象的方法
2.6.3 子类从父类继承
2.7 Python数据读取
2.7.1 读取文本文件(CSV或者TXT文件)
2.7.2 读取EXCEL数据
2.7.3 读取SPSS数据
2.7.4 读取Stata数据
2.8 Python数据检索
2.9 Python数据缺失值处理
2.9.1 查看数据集中的缺失值
2.9.2 填充数据集中的缺失值
2.9.3 删除数据集中的缺失值
2.10 Python数据重复值处理
2.10.1 查看数据集中的重复值
2.10.2 删除数据集中的重复值
2.11 Python数据行列处理
2.11.1 删除变量列、样本行
2.11.2 更改变量列名称、调整变量列顺序
2.11.3 改变列的数据格式
2.11.4 多列转换
2.11.5 数据百分比格式转换
2.12 习题
第3章 机器学习介绍
3.1 机器学习概述
3.2 机器学习术语
3.3 机器学习分类
3.4 误差、泛化、过拟合与欠拟合
3.5 偏差、方差与噪声
3.5.1 偏差
3.5.2 方差
3.5.3 噪声
3.5.4 误差与偏差、方差、噪声的关系
3.5.5 偏差与方差的权衡
3.6 性能量度
3.6.1 “回归问题监督式学习”的性能量度
3.6.2 “分类问题监督式学习”的性能量度
3.7 模型评估
3.7.1 验证集法
3.7.2 K折交叉验证
3.7.3 自助法
3.8 机器学习项目流程
3.9 习题
第4章 线性回归算法
4.1 线性回归算法的基本原理
4.1.1 线性回归算法的概念及数学解释
4.1.2 线性回归算法的优缺点
4.2 数据准备
4.2.1 导入分析所需要的模块和函数
4.2.2 数据读取及观察
4.3 描述性分析
4.4 图形绘制
4.4.1 直方图
4.4.2 密度图
4.4.3 箱图
4.4.4 小提琴图
4.4.5 正态QQ图
4.4.6 散点图和线图
4.4.7 热力图
4.4.8 回归拟合图
4.4.9 联合分布图
4.5 正态性检验
4.5.1 Shapiro-Wilk test检验
4.5.2 kstest检验
4.6 相关性分析
4.7 使用statsmodels进行线性回归
4.7.1 使用smf进行线性回归
4.7.2 多重共线性检验
4.7.3 解决多重共线性问题
4.7.4 绘制拟合回归平面
4.8 使用sklearn进行线性回归
4.8.1 使用验证集法进行模型拟合
4.8.2 更换随机数种子,使用验证集法进行模型拟合
4.8.3 使用10折交叉验证法进行模型拟合
4.8.4 使用10折重复10次交叉验证法进行模型拟合
4.8.5 使用留一交叉验证法进行模型拟合
4.9 习题
第5章 二元Logistic回归算法
5.1 二元Logistic回归算法的基本原理
5.2 数据准备
5.2.1 导入分析所需要的模块和函数
5.2.2 数据读取及观察
5.3 描述性分析
5.4 数据处理
5.4.1 区分分类特征和连续特征并进行处理
5.4.2 将样本全集分割为训练样本和测试样本
5.5 建立二元Logistic回归算法模型
5.5.1 使用statsmodels建立二元Logistic回归算法模型
5.5.2 使用sklearn建立二元Logistic回归算法模型
5.5.3 特征变量重要性水平分析
5.5.4 绘制ROC曲线,计算AUC值
5.5.5 计算科恩kappa得分
5.6 习题
第6章 多元Logistic回归算法
6.1 多元Logistic回归算法的基本原理
6.2 数据准备
6.2.1 导入分析所需要的模块和函数
6.2.2 数据读取及观察
6.3 描述性分析及图形绘制
6.3.1 描述性分析
6.3.2 绘制直方图
6.3.3 绘制箱图
6.4 数据处理
6.4.1 区分分类特征和连续特征并进行处理
6.4.2 将样本全集分割为训练样本和测试样本
6.5 建立多元Logistic回归算法模型
6.5.1 模型估计
6.5.2 模型性能分析
6.6 习题
第7章 判别分析算法
7.1 判别分析算法的基本原理
7.1.1 线性判别分析的基本原理
7.1.2 线性判别分析的算法过程
7.1.3 二次判别分析的基本原理
7.2 数据准备
7.2.1 导入分析所需要的模块和函数
7.2.2 线性判别分析降维优势展示
7.2.3 数据读取及观察
7.3 特征变量相关性分析
7.4 使用样本全集开展线性判别分析
7.4.1 模型估计及性能分析
7.4.2 运用两个特征变量绘制LDA决策边界图
7.5 使用分割样本开展线性判别分析
7.6 使用分割样本开展二次判别分析
7.6.1 模型估计
7.6.2 运用两个特征变量绘制QDA决策边界图
7.7 习题
第8章 朴素贝叶斯算法
8.1 朴素贝叶斯算法的基本原理
8.1.1 贝叶斯方法的基本原理
8.1.2 贝叶斯定理
8.1.3 朴素贝叶斯算法的基本原理
8.1.4 拉普拉斯修正
8.1.5 朴素贝叶斯算法分类及适用条件
8.2 数据准备
8.2.1 案例数据说明
8.2.2 导入分析所需要的模块和函数
8.3 高斯朴素贝叶斯算法示例
8.3.1 数据读取及观察
8.3.2 将样本全集分割为训练样本和测试样本
8.3.3 高斯朴素贝叶斯算法拟合
8.3.4 绘制ROC曲线
8.3.5 运用两个特征变量绘制高斯朴素贝叶斯决策边界图
8.4 多项式、补集、二项式朴素贝叶斯算法示例
8.4.1 数据读取及观察
8.4.2 将样本全集分割为训练样本和测试样本
8.4.3 多项式、补集、二项式朴素贝叶斯算法拟合
8.4.4 寻求二项式朴素贝叶斯算法拟合的最优参数
8.4.5 最优二项式朴素贝叶斯算法模型性能评价
8.5 习题
第9章 高维数据惩罚回归算法
9.1 高维数据惩罚回归算法简介
9.1.1 高维数据惩罚回归算法的基本原理
9.1.2 岭回归
9.1.3 Lasso回归
9.1.4 弹性网回归
9.1.5 惩罚回归算法的选择
9.2 数据准备
9.2.1 导入分析所需要的模块和函数
9.2.2 数据读取及观察
9.3 变量设置及数据处理
9.4 岭回归算法
9.4.1 使用默认惩罚系数构建岭回归模型
9.4.2 使用留一交叉验证法寻求最优惩罚系数构建岭回归模型
9.4.3 使用K折交叉验证法寻求最优惩罚系数构建岭回归模型
9.4.4 划分训练样本和测试样本下的最优岭回归模型
9.5 Lasso回归算法
9.5.1 使用随机选取惩罚系数构建岭回归模型
9.5.2 使用留一交叉验证法寻求最优惩罚系数构建Lasso回归模型
9.5.3 使用K折交叉验证法寻求最优惩罚系数构建Lasso回归模型
9.5.4 划分训练样本和测试样本下的最优Lasso回归模型
9.6 弹性网回归算法
9.6.1 使用随机选取惩罚系数构建弹性网回归模型
9.6.2 使用K折交叉验证法寻求最优惩罚系数构建弹性网回归模型
9.6.3 划分训练样本和测试样本下的最优弹性网回归模型
9.7 习题
第10章 K近邻算法
10.1 K近邻算法简介
10.1.1 K近邻算法的基本原理
10.1.2 K值的选择
10.1.3 K近邻算法的变种
10.2 数据准备
10.2.1 案例数据说明
10.2.2 导入分析所需要的模块和函数
10.3 回归问题K近邻算法示例
10.3.1 变量设置及数据处理
10.3.2 构建K近邻回归算法模型
10.3.3 如何选择最优的K值
10.3.4 最优模型拟合效果图形展示
10.4 分类问题K近邻算法示例
10.4.1 变量设置及数据处理
10.4.2 构建K近邻分类算法模型
10.4.3 如何选择最优的K值
10.4.4 最优模型拟合效果图形展示
10.4.5 绘制K近邻分类算法ROC曲线
10.4.6 运用两个特征变量绘制K近邻算法决策边界图
10.4.7 普通KNN算法、带权重KNN、指定半径KNN三种算法的对比
10.5 习题
第11章 主成分分析算法
11.1 主成分分析算法简介
11.1.1 主成分分析算法的基本原理
11.1.2 主成分分析算法的数学概念
11.1.3 主成分的特征值
11.1.4 样本的主成分得分
11.1.5 主成分载荷
11.2 数据准备
11.2.1 案例数据说明
11.2.2 导入分析所需要的模块和函数
11.2.3 变量设置及数据处理
11.2.4 特征变量相关性分析
11.3 主成分分析算法示例
11.3.1 主成分提取及特征值、方差贡献率计算
11.3.2 绘制碎石图观察各主成分特征值
11.3.3 绘制碎石图观察各主成分方差贡献率
11.3.4 绘制碎石图观察主成分累积方差贡献率
11.3.5 计算样本的主成分得分
11.3.6 绘制二维图形展示样本在前两个主成分上的得分
11.3.7 绘制三维图形展示样本在前三个主成分上的得分
11.3.8 输出特征向量矩阵,观察主成分载荷
11.4 习题
第12章 聚类分析算法
12.1 聚类分析算法简介
12.1.1 聚类分析算法的基本原理
12.1.2 划分聚类分析
12.1.3 层次聚类分析
12.1.4 样本距离的测度
12.2 数据准备
12.2.1 案例数据说明
12.2.2 导入分析所需要的模块和函数
12.2.3 变量设置及数据处理
12.2.4 特征变量相关性分析
12.3 划分聚类分析算法示例
12.3.1 使用K均值聚类分析方法对样本进行聚类(K=2)
12.3.2 使用K均值聚类分析方法对样本进行聚类(K=3)
12.3.3 使用K均值聚类分析方法对样本进行聚类(K=4)
12.4 层次聚类分析算法示例
12.4.1 最短联结法聚类分析
12.4.2 最长联结法聚类分析
12.4.3 平均联结法聚类分析
12.4.4 ward联结法聚类分析
12.4.5 重心联结法聚类分析
12.5 习题
第13章 决策树算法
13.1 决策树算法简介
13.1.1 决策树算法的概念与原理
13.1.2 特征变量选择及其临界值确定方法
13.1.3 决策树的剪枝
13.1.4 包含剪枝决策树的损失函数
13.1.5 变量重要性
13.2 数据准备
13.2.1 案例数据说明
13.2.2 导入分析所需要的模块和函数
13.3 分类问题决策树算法示例
13.3.1 变量设置及数据处理
13.3.2 未考虑成本-复杂度剪枝的决策树分类算法模型
13.3.3 考虑成本-复杂度剪枝的决策树分类算法模型
13.3.4 绘制图形观察叶节点总不纯度随alpha值的变化情况
13.3.5 绘制图形观察节点数和树的深度随alpha值的变化情况
13.3.6 绘制图形观察训练样本和测试样本的预测准确率随alpha值的变化情况
13.3.7 通过10折交叉验证法寻求最优alpha值
13.3.8 决策树特征变量重要性水平分析
13.3.9 绘制ROC曲线
13.3.10 运用两个特征变量绘制决策树算法决策边界图
13.4 回归问题决策树算法示例
13.4.1 变量设置及数据处理
13.4.2 未考虑成本-复杂度剪枝的决策树回归算法模型
13.4.3 考虑成本-复杂度剪枝的决策树回归算法模型
13.4.4 绘制图形观察叶节点总均方误差随alpha值的变化情况
13.4.5 绘制图形观察节点数和树的深度随alpha值的变化情况
13.4.6 绘制图形观察训练样本和测试样本的拟合优度随alpha值的变化情况
13.4.7 通过10折交叉验证法寻求最优alpha值并开展特征变量重要性水平分析
13.4.8 最优模型拟合效果图形展示
13.4.9 构建线性回归算法模型进行对比
13.5 习题
第14章 随机森林算法
14.1 随机森林算法的基本原理
14.1.1 集成学习的概念与分类
14.1.2 装袋法的概念与原理
14.1.3 随机森林算法的概念与原理
14.1.4 随机森林算法特征变量重要性量度
14.1.5 部分依赖图与个体条件期望图
14.2 数据准备
14.2.1 案例数据说明
14.2.2 导入分析所需要的模块和函数
14.3 分类问题随机森林算法示例
14.3.1 变量设置及数据处理
14.3.2 二元Logistic回归、单棵分类决策树算法观察
14.3.3 装袋法分类算法
14.3.4 随机森林分类算法
14.3.5 寻求max_features最优参数
14.3.6 寻求n_estimators最优参数
14.3.7 随机森林特征变量重要性水平分析
14.3.8 绘制部分依赖图与个体条件期望图
14.3.9 模型性能评价
14.3.10 绘制ROC曲线
14.3.11 运用两个特征变量绘制随机森林算法决策边界图
14.4 回归问题随机森林算法示例
14.4.1 变量设置及数据处理
14.4.2 线性回归、单棵回归决策树算法观察
14.4.3 装袋法回归算法
14.4.4 随机森林回归算法
14.4.5 寻求max_features最优参数
14.4.6 寻求n_estimators最优参数
14.4.7 随机森林特征变量重要性水平分析
14.4.8 绘制部分依赖图与个体条件期望图
14.4.9 最优模型拟合效果图形展示
14.5 习题
第15章 提升法
15.1 提升法的基本原理
15.1.1 提升法的概念与原理
15.1.2 AdaBoost(自适应提升法)
15.1.3 梯度提升法(Gradient Boosting Machine)
15.1.4 回归问题损失函数
15.1.5 分类问题损失函数
15.1.6 随机梯度提升法
15.1.7 XGBoost算法
15.2 数据准备
15.2.1 案例数据说明
15.2.2 导入分析所需要的模块和函数
15.3 回归提升法示例
15.3.1 变量设置及数据处理
15.3.2 线性回归算法观察
15.3.3 回归提升法(默认参数)
15.3.4 使用随机搜索寻求最优参数
15.3.5 绘制图形观察模型均方误差随弱学习器数量变化的情况
15.3.6 绘制图形观察模型拟合优度随弱学习器数量变化的情况
15.3.7 回归问题提升法特征变量重要性水平分析
15.3.8 绘制部分依赖图与个体条件期望图
15.3.9 最优模型拟合效果图形展示
15.3.10 XGBoost回归提升法
15.4 二分类提升法示例
15.4.1 变量设置及数据处理
15.4.2 AdaBoost算法
15.4.3 二分类提升法(默认参数)
15.4.4 使用随机搜索寻求最优参数
15.4.5 二分类问题提升法特征变量重要性水平分析
15.4.6 绘制部分依赖图与个体条件期望图
15.4.7 模型性能评价
15.4.8 绘制ROC曲线
15.4.9 运用两个特征变量绘制二分类提升法决策边界图
15.4.10 XGBoost二分类提升法
15.5 多分类提升法示例
15.5.1 变量设置及数据处理
15.5.2 多元Logistic回归算法观察
15.5.3 多分类提升法(默认参数)
15.5.4 使用随机搜索寻求最优参数
15.5.5 多分类问题提升法特征变量重要性水平分析
15.5.6 绘制部分依赖图与个体条件期望图
15.5.7 模型性能评价
15.5.8 XGBoost多分类提升法
15.6 习题
第16章 支持向量机算法
16.1 支持向量机算法的基本原理
16.1.1 线性可分
16.1.2 硬间隔分类器的概念与原理解释
16.1.3 硬间隔分类器的求解步骤
16.1.4 软间隔分类器的概念与原理解释
16.1.5 软间隔分类器的求解步骤
16.1.6 核函数
16.1.7 多分类问题支持向量机
16.1.8 支持向量回归
16.2 数据准备
16.2.1 案例数据说明
16.2.2 导入分析所需要的模块和函数
16.3 回归支持向量机算法示例
16.3.1 变量设置及数据处理
16.3.2 回归支持向量机算法(默认参数)
16.3.3 通过10折交叉验证寻求最优参数
16.3.4 最优模型拟合效果图形展示
16.4 二分类支持向量机算法示例
16.4.1 变量设置及数据处理
16.4.2 二分类支持向量机算法(默认参数)
16.4.3 通过10折交叉验证寻求最优参数
16.4.4 模型性能评价
16.4.5 绘制ROC曲线
16.4.6 运用两个特征变量绘制二分类支持向量机算法决策边界图
16.5 多分类支持向量机算法示例
16.5.1 变量设置及数据处理
16.5.2 多分类支持向量机算法(一对一)
16.5.3 多分类支持向量机算法(默认参数)
16.5.4 通过10折交叉验证寻求最优参数
16.5.5 模型性能评价
16.6 习题
第17章 神经网络算法
17.1 神经网络算法的基本原理
17.1.1 神经网络算法的基本思想
17.1.2 感知机
17.1.3 多层感知机
17.1.4 神经元激活函数
17.1.5 误差反向传播算法(BP算法)
17.1.6 万能近似定理及多隐藏层优势
17.1.7 BP算法过拟合问题的解决
17.2 数据准备
17.2.1 案例数据说明
17.2.2 导入分析所需要的模块和函数
17.3 回归神经网络算法示例
17.3.1 变量设置及数据处理
17.3.2 单隐藏层的多层感知机算法
17.3.3 神经网络特征变量重要性水平分析
17.3.4 绘制部分依赖图与个体条件期望图
17.3.5 拟合优度随神经元个数变化的可视化展示
17.3.6 通过K折交叉验证寻求单隐藏层最优神经元个数
17.3.7 双隐藏层的多层感知机算法
17.3.8 最优模型拟合效果图形展示
17.4 二分类神经网络算法示例
17.4.1 变量设置及数据处理
17.4.2 单隐藏层二分类问题神经网络算法
17.4.3 双隐藏层二分类问题神经网络算法
17.4.4 早停策略减少过拟合问题
17.4.5 正则化(权重衰减)策略减少过拟合问题
17.4.6 模型性能评价
17.4.7 绘制ROC曲线
17.4.8 运用两个特征变量绘制二分类神经网络算法决策边界图
17.5 多分类神经网络算法示例
17.5.1 变量设置及数据处理
17.5.2 单隐藏层多分类问题神经网络算法
17.5.3 双隐藏层多分类问题神经网络算法
17.5.4 模型性能评价
17.5.5 运用两个特征变量绘制多分类神经网络算法决策边界图
17.6 习题
更新时间:2023-07-17 19:38:17