Lecture 01 概率论基础

主要内容

机器学习：为什么和是什么？
关于 COMP90051
回顾：机器学习基础、概率论

1. 为什么需要机器学习？

动机：数据只是信息，而知识是隐藏在数据背后的模式或者模型，我们需要从数据中获取知识。
- Data = raw information
- Knowledge = patterns or models behind the data
解决方案：机器学习
- 假设：现存的数据仓库中包含许多潜在的有价值的知识。
- 学习任务：发现这些知识。
- 学习定义：从任意数据集中，以规则、规律性、模式、约束或模型的形式，（半）自动提取有效、新颖、有用和可理解的知识。

如今，机器学习的应用广泛而深入，例如：

在线广告的选择与投放
金融、保险、安全等方面的风险管理
高频交易
医学诊断
采矿和自然资源
恶意软件分析
药物发现
搜索引擎

涉及诸多学科：

人工智能
统计学
连续优化
数据库
信息检索
通讯/信息理论
信号处理
计算机科学理论
哲学
心理学与神经生物学 …

各行各业的许多公司聘请机器学习专家：

数据科学家
分析专家
商业分析师
统计学家
软件工程师
研究员 …

2. 关于本课程

课程内容
该主题将涵盖来自：统计学习基础、线性模型、非线性基础、核方法、神经网络、贝叶斯学习、概率图形模型（贝叶斯网络、马尔可夫随机场）、聚类分析、降维、正则化和模型选择。
高级机器学习：背景要求
- 算法与复杂度：
  - Big-O、终止条件
  - 基本数据结构与算法
  - 扎实的代码功底（Python）
- 数学:
  - 概率论：概率微积分、离散/连续分布、多变量、指数族、贝叶斯规则
  - 线性代数：向量内积和范数、正交基、矩阵运算、逆、特征向量/值
  - 微积分与优化：偏导数、梯度下降、凸性、拉格朗日乘数

3. 机器学习基础

3.1 相关术语

Instance (实例): 有关单个实体/对象的度量。
- 例如：一条贷款申请。
Attribute (属性，又称特征、解释变量): 实例的组成部分。
- 例如：贷款申请人的薪水、家属人数等。
Label (标签，又称响应、因变量): 类别、数值等结果。
- 例如：罚金 vs 还清。
Examples (案例): 带标签的实例。
- 例如：<(100k, 3), “罚金”>
Models (模型): 发现的属性和 / 或标签之间的关系。

3.2 监督 vs 无监督学习

	数据	模型作用
监督学习	带标签	在新的实例上预测标签
无监督学习	不带标签	对相关实例进行集群分类；投影到更低的维度；理解属性之间的关系

3.3 评估（监督学习）

问题导向：采用何种评估指标取决于具体问题。
典型流程：
- 选择 评估指标，对比标签与预测结果。
- 获取一个独立的、带标签的 测试集。
- 在测试集上对评估指标进行 “平均”。
评估指标
- 准确度、列联表、精度-召回率、ROC曲线
当数据量不足时，采用 交叉验证。

4. 概率论基础

一个概率空间
- 集合 $\Omega$ : 所有可能的结果。
  例如：掷一次骰子 ${1,2,3,4,5,6}$
- 集合 $F$ : 事件集合（$\Omega$的子集）。
  例如：${\phi,{1},…,{6},{1,2},…,{5,6},…,{1,2,3,4,5,6}}$
- 概率测度 $P: F \to \Bbb{R} $
  例如：$P(\phi)=0,P({1})=1/6,P({1,2})=1/3,…$
概率公理
1. 对于 $F$ 中的每一个事件 $f$，都有 $P(f)\ge0$
2. 对于不相交事件对的所有集合，有 $P(U_f f)=\sum_f P(f)$
3. $P(\Omega)=1$
随机变量
- 随机变量 $X$ 是结果的一个数值函数，$X(\omega)\in \Bbb{R}$
- $P(X\in A)$ 表示 $X$ 落在 $A$ 范围内的结果的概率
  例如: 赌注为 5 美金, $X$ 表示当掷出偶数时赢钱
  $X$ 将 $1,3,5$ 映射为 $-5$
  $X$ 将 $2,4,6$ 映射为 $5$
  $P(X=5)=P(X=-5)=1/2$
离散分布和连续分布
- 离散分布
  - 随机变量取值为离散值
  - 由概率质量函数 $p(x)$ 描述, 即 $P(X=x)$
  - $P(X\le x)=\sum_{a=-\infty}^{x} p(a)$
  - 例如：伯努利分布、二项分布、多项式分布、泊松分布
- 连续分布
  - 随机变量取值为连续的实数值
  - 由概率密度函数 $p(x)$ 描述
  - $P(X\le x)=\int_{-\infty}^{x} p(a)$
  - 例如：均匀分布、正态分布、拉普拉斯分布、Gamma 分布、Beta 分布、狄利克雷分布
期望与方差
- 期望 $E[X]$ 是随机变量 $X$ 的 “平均” 值
  - 离散：$E[X]=\sum_x xP(X=x)$
  - 连续：$E[X]=\int_x xP(x)dx$
- 性质
  - 线性：
    $E[aX+b]=aE(X)+b$
    $E[X+Y]=E(X)+E(Y)$
  - 单调性：
    $X\ge Y \Rightarrow E(X)\ge E(Y)$
- 方差 $Var(X)=E[(X-E[X])^2]$
独立性与条件概率
- $X,Y$ 是互相独立的，如果
  - $P(X\in A,Y\in B)=P(X\in A)P(Y\in B)$
  - 类似地，对于概率密度函数：$p_{X,Y}(x,y)=p_X(x)p_Y(y)$
  - 直观地：知道 $Y$ 的值对于了解 $X$ 没有提供任何信息
  - 代数上：$X,Y$ 的联合概率可以分解成两个因子的乘积
- 条件概率
  - $P(A\mid B)=\frac{P(A\cap B)}{P(B)}$
  - 类似地，对于概率密度函数：$p(y\mid x)=\frac{p(x,y)}{p(x)}$
  - 直观地：已知事件 $B$ 发生的情况下，事件 $A$ 发生的概率
  - $X,Y$ 独立等价于 $P(Y=y\mid X=x)=P(Y=y)$
逆转条件：贝叶斯定理
- 对于事件 $A,B$
  - $P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A)$
  - $P(A\mid B)=\frac{P(B\mid A)P(A)}{P(B)}$
- 通过简单的规则让我们得以交换条件的顺序
- 贝叶斯统计推断大量使用
  - 边缘概率：单个变量的概率
  - 边缘化：将所有感兴趣的随机变量加起来
    $P(A)=\sum_b P(A,B=b)$

总结

为什么需要机器学习？
COMP90051
机器学习基础
回顾概率论

下节内容：统计思想流派-有多少种机器学习算法

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载，并请注明来自：YEY 的博客同时保持文章内容的完整和以上声明信息！

统计机器学习 01：概率论基础

墨尔本大学 COMP90051 课程笔记

Lecture 01 概率论基础

主要内容

1. 为什么需要机器学习？

2. 关于本课程

3. 机器学习基础

3.1 相关术语

3.2 监督 vs 无监督学习

3.3 评估（监督学习）

4. 概率论基础

总结

CATALOG

FEATURED TAGS

FRIENDS