全书内容分为三篇。第一篇为基础篇,主要介绍量化投资与数据挖掘的关系,以及数据挖掘的概念、实现过程、主要内容、主要工具等内容。第二篇为技术篇,系统介绍了数据挖掘的相关技术及这些技术在量化投资中的应用,主要包括数据的准备、数据的探索、关联规则方法、数据回归方法、分类方法、聚类方法、预测方法、诊断方法、时间序列方法、智能优化方法等内容。第三篇为实践篇,主要介绍数据挖掘技术在量化投资中的综合应用实例,包括统计套利策略的挖掘与优化、配对交易策略的挖掘与实现、数据挖掘在股票程序化交易中的综合应用,以及基于数据挖掘技术的量化交易系统的构建。本书的读者对象为从事投资、数据挖掘、数据分析、数据管理工作的专业人士;金融、经济、管理、统计等专业的教师和学生;希望学习MATLAB的广大科研人员、学者和工程技术人员。
第一篇 基础篇 \n
第1章 绪论 2 \n
1.1 量化投资与数据挖掘的关系 2 \n
1.1.1 什么是量化投资 2 \n
1.1.2 量化投资的特点 3 \n
1.1.3 量化投资的核心――量化模型 5 \n
1.1.4 量化模型的主要产生方法―― \n
数据挖掘 7 \n
1.2 数据挖掘的概念和原理 8 \n
1.2.1 什么是数据挖掘 8 \n
1.2.2 数据挖掘的原理 10 \n
1.3 数据挖掘在量化投资中的应用 11 \n
1.3.1 宏观经济分析 11 \n
1.3.2 估价 13 \n
1.3.3 量化选股 14 \n
1.3.4 量化择时 14 \n
1.3.5 算法交易 14 \n
1.4 本章小结 15 \n
参考文献 16 \n
第2章 数据挖掘的内容、过程及 \n
工具 17 \n
2.1 数据挖掘的内容 17 \n
2.1.1 关联 17 \n
2.1.2 回归 19 \n
2.1.3 分类 20 \n
2.1.4 聚类 21 \n
2.1.5 预测 22 \n
2.1.6 诊断 23 \n
2.2 数据挖掘过程 24 \n
2.2.1 数据挖掘过程概述 24 \n
2.2.2 挖掘目标的定义 25 \n
2.2.3 数据的准备 26 \n
2.2.4 数据的探索 28 \n
2.2.5 模型的建立 29 \n
2.2.6 模型的评估 33 \n
2.2.7 模型的部署 35 \n
2.3 数据挖掘工具 36 \n
2.3.1 MATLAB 36 \n
2.3.2 SAS 37 \n
2.3.3 SPSS 38 \n
2.3.4 WEKA 39 \n
2.3.5 R 41 \n
2.3.6 工具的比较与选择 42 \n
2.4 本章小结 43 \n
参考文献 43 \n
第3章 MATLAB快速入门 44 \n
3.1 MATLAB快速入门 44 \n
3.1.1 MATLAB概要 44 \n
3.1.2 MATLAB的功能 45 \n
3.1.3 快速入门案例 46 \n
3.1.4 入门后的提高 55 \n
3.2 MATLAB常用技巧 55 \n
3.2.1 常用标点的功能 55 \n
3.2.2 常用操作指令 56 \n
3.2.3 指令编辑操作键 56 \n
3.2.4 MATLAB数据类型 56 \n
3.3 MATLAB开发模式 58 \n
3.3.1 命令行模式 58 \n
3.3.2 脚本模式 58 \n
3.3.3 面向对象模式 58 \n
3.3.4 三种模式的配合 58 \n
3.4 小结 59 \n
第二篇 技术篇 \n
第4章 数据的准备 63 \n
4.1 数据的收集 63 \n
4.1.1 认识数据 63 \n
4.1.2 数据挖掘的数据源 64 \n
4.1.3 数据抽样 65 \n
4.1.4 量化投资的数据源 67 \n
4.1.5 从雅虎获取交易数据 69 \n
4.1.6 从大智慧获取财务数据 71 \n
4.1.7 从Wind中获取高质量数据 73 \n
4.2 数据质量分析 75 \n
4.2.1 数据质量分析的必要性 75 \n
4.2.2 数据质量分析的目的 75 \n
4.2.3 数据质量分析的内容 76 \n
4.2.4 数据质量分析的方法 76 \n
4.2.5 数据质量分析的结果及应用 82 \n
4.3 数据预处理 82 \n
4.3.1 为什么需要数据预处理 82 \n
4.3.2 数据预处理的主要任务 83 \n
4.3.3 数据清洗 84 \n
4.3.4 数据集成 88 \n
4.3.5 数据归约 89 \n
4.3.6 数据变换 90 \n
4.4 本章小结 92 \n
参考文献 93 \n
第5章 数据的探索 94 \n
5.1 衍生变量 95 \n
5.1.1 衍生变量的定义 95 \n
5.1.2 变量衍生的原则和方法 96 \n
5.1.3 常用的股票衍生变量 96 \n
5.1.4 评价型衍生变量 101 \n
5.1.5 衍生变量数据收集与集成 103 \n
5.2 数据的统计 104 \n
5.2.1 基本描述性统计 105 \n
5.2.2 分布描述性统计 106 \n
5.3 数据可视化 106 \n
5.3.1 基本可视化方法 107 \n
5.3.2 数据分布形状可视化 108 \n
5.3.3 数据关联情况可视化 110 \n
5.3.4 数据分组可视化 111 \n
5.4 样本选择 113 \n
5.4.1 样本选择的方法 113 \n
5.4.2 样本选择应用实例 113 \n
5.5 数据降维 116 \n
5.5.1 主成分
卓金武,MathWorks中国科学计算业务总监,主要职责是向中国区MATLAB正版用户提供数据挖掘和量化投资解决方案。曾2次获全国大学生数学建模竞赛一等奖 (2003, 2004),1次获全国研究生数学建模竞赛一等奖 (2007);主编三著两部:《MATLAB在数学建模中的应用》(第一版和第二版),《量化投资:数据挖掘技术与实践(MATLAB版)》。周英,中科数据首席数据科学家,曾就职于知名搜索引擎公司6年,主要从事互联网文本挖掘工作的研发工作,目前专注的领域为大数据挖掘技术的工业应用研究和工程应用,曾获美国大学生数学建模竞赛二等奖一项,全国研究生数学建模竞赛二等奖一项,著有《大数据挖掘:系统方法与实例分析》