机器学习 machine learning
- def 研究通过计算手段,利用经验改善系统自身性能
- 经验 - 数据,数据中学得结果 - 模型(学习器 learner)
1. 数据集 dataset
-
def 一组记录的集合,其中每条记录是关于一个对象的描述
2. 属性 attribute / 特征 feature
-
def 反映对象某方面性质的事项
3. 特征向量 feature vector
-
def (x, y, z) 三维坐标张成一个用于描述对象的三维空间
4. 维数 dimensionality
-
def 样本空间的一个向量,表示该样本(example)由 d 个属性描述
5. 训练样本 training example
-
def 概念同样本、训练示例(training instance)
6. 训练数据 training data
-
def 训练样本组成的集合
7. 标记 label
-
def 训练样本的结果信息
8. 标记空间 label space
-
def (xi, yi) 表示 yi 是示例 xi 的标记,这里 yi 所从属的所有标记的集合
9. 分类 / 回归
-
预测的是离散值 —— 分类问题(classification)
- sp. 二分类问题:一个类为正类(positive class),一个类为负类(negative class)
-
预测的是连续值 —— 回归问题(regression)
10. 测试 testing
-
def 学得模型后,使用其进行预测的过程
11. 簇 cluster
-
def 若干样本组成的集合,通过对训练数据划分得到
12. 聚类 clustering
-
def 将训练集中的样本分成若干簇
-
目的 由于学习过程中使用的训练样本一般不具有标记信息,聚类有助于了解数据的内在规律
13. 监督 supervised / 无监督学习 unsupervised learning
-
分类、回归 —— 监督学习
-
聚类 —— 无监督学习
14. 独立同分布 independent and identically distributed
-
def 预设条件,假设样本空间中全体样本服从一个未知分布(distribution)
15. 归纳 induction / 演绎 deduction
-
从特殊到一般 - 泛化(generalization)- 归纳
-
从一般到特殊 - 演绎
16. 版本空间 version space
-
可有多个,与训练集一致的 “假设集合”,即能对所有训练样本进行正确判断的假设
17. 归纳偏好 inductive bias
-
两种走向:往尽可能特殊的模型 往尽可能一般的模型
-
引导原则:奥卡姆剃刀(Occam‘s razor),即有多个假设与观察一致时,选取最简单的
-
NFL 定理:f 均匀分布时,学习算法的期望性能相同