0%

西瓜书知识重温(一)

机器学习 machine learning

  • def 研究通过计算手段,利用经验改善系统自身性能
  • 经验 - 数据,数据中学得结果 - 模型(学习器 learner)

1. 数据集 dataset

  • def 一组记录的集合,其中每条记录是关于一个对象的描述

2. 属性 attribute / 特征 feature

  • def 反映对象某方面性质的事项

3. 特征向量 feature vector

  • def (x, y, z) 三维坐标张成一个用于描述对象的三维空间

4. 维数 dimensionality

  • def 样本空间的一个向量,表示该样本(example)由 d 个属性描述

5. 训练样本 training example

  • def 概念同样本、训练示例(training instance)

6. 训练数据 training data

  • def 训练样本组成的集合

7. 标记 label

  • def 训练样本的结果信息

8. 标记空间 label space

  • def (xi, yi) 表示 yi 是示例 xi 的标记,这里 yi 所从属的所有标记的集合

9. 分类 / 回归

  • 预测的是离散值 —— 分类问题(classification)

    • sp. 二分类问题:一个类为正类(positive class),一个类为负类(negative class)
  • 预测的是连续值 —— 回归问题(regression)

10. 测试 testing

  • def 学得模型后,使用其进行预测的过程

11. 簇 cluster

  • def 若干样本组成的集合,通过对训练数据划分得到

12. 聚类 clustering

  • def 将训练集中的样本分成若干簇

  • 目的 由于学习过程中使用的训练样本一般不具有标记信息,聚类有助于了解数据的内在规律

13. 监督 supervised / 无监督学习 unsupervised learning

  • 分类、回归 —— 监督学习

  • 聚类 —— 无监督学习

14. 独立同分布 independent and identically distributed

  • def 预设条件,假设样本空间中全体样本服从一个未知分布(distribution)

15. 归纳 induction / 演绎 deduction

  • 从特殊到一般 - 泛化(generalization)- 归纳

  • 从一般到特殊 - 演绎

16. 版本空间 version space

  • 可有多个,与训练集一致的 “假设集合”,即能对所有训练样本进行正确判断的假设

17. 归纳偏好 inductive bias

  • 两种走向:往尽可能特殊的模型 往尽可能一般的模型

  • 引导原则:奥卡姆剃刀(Occam‘s razor),即有多个假设与观察一致时,选取最简单的

  • NFL 定理:f 均匀分布时,学习算法的期望性能相同