CS229 机器学习课程复习材料-概率论

CS229 机器学习课程复习材料-概率论

概率论复习和参考

概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。

1. 概率的基本要素

为了定义集合上的概率,我们需要一些基本元素,

  • 样本空间:随机实验的所有结果的集合。在这里,每个结果  可以被认为是实验结束时现实世界状态的完整描述。
  • 事件集(事件空间):元素  的集合(称为事件)是  的子集(即每个  是一个实验可能结果的集合)。

    备注:需要满足以下三个条件:

    (1) 

    (2) 

    (3) 

  • 概率度量:函数是一个的映射,满足以下性质:
    • 对于每个 ,
    • 如果 是互不相交的事件 (即 当时, ), 那么:

以上三条性质被称为概率公理

举例

考虑投掷六面骰子的事件。样本空间为。最简单的事件空间是平凡事件空间.另一个事件空间是的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率度量由给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事件的概率分配为,这里 是这个事件集合中元素的数量;例如

性质:

  • 如果,则:
  • (布尔不等式):
  • (全概率定律):如果是一些互不相交的事件并且它们的并集是,那么它们的概率之和是1

1.1 条件概率和独立性

假设是一个概率非0的事件,我们定义在给定的条件下 的条件概率为:

换句话说,)是度量已经观测到事件发生的情况下事件发生的概率,两个事件被称为独立事件当且仅当(或等价地,)。因此,独立性相当于是说观察到事件对于事件的概率没有任何影响。

2. 随机变量

考虑一个实验,我们翻转10枚硬币,我们想知道正面硬币的数量。这里,样本空间的元素是长度为10的序列。例如,我们可能有。然而,在实践中,我们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们10次投掷中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量

更正式地说,随机变量是一个的函数。通常,我们将使用大写字母或更简单的(其中隐含对随机结果的依赖)来表示随机变量。我们将使用小写字母来表示随机变量的值。

举例: 在我们上面的实验中,假设是在投掷序列中出现的正面的数量。假设投掷的硬币只有10枚,那么只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量相关联的集合取某个特定值的概率为:

举例: 假设是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下,具有无限多的可能值,因此它被称为连续随机变量。我们将在两个实常数之间取值的概率(其中)表示为:

2.1 累积分布函数

为了指定处理随机变量时使用的概率度量,通常可以方便地指定替代函数(CDFPDFPMF),在本节和接下来的两节中,我们将依次描述这些类型的函数。

累积分布函数(CDF)是函数,它将概率度量指定为:

通过使用这个函数,我们可以计算任意事件发生的概率。图1显示了一个样本CDF函数。

CS229 机器学习课程复习材料-概率论

图1:一个累计分布函数(CDF)
性质:

2.2 概率质量函数

当随机变量取有限种可能值(即,是离散随机变量)时,表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样:

在离散随机变量的情况下,我们使用符号表示随机变量可能假设的一组可能值。例如,如果是一个随机变量,表示十次投掷硬币中的正面数,那么

性质:

2.3 概率密度函数

对于一些连续随机变量,累积分布函数处可微。在这些情况下,我们将概率密度函数(PDF)定义为累积分布函数的导数,即:

请注意,连续随机变量的概率密度函数可能并不总是存在的(即,如果它不是处处可微)。

根据微分的性质,对于很小的

CDFPDF(当它们存在时!)都可用于计算不同事件的概率。但是应该强调的是,任意给定点的概率密度函数(PDF)的值不是该事件的概率,即。例如,可以取大于1的值(但是的任何子集上的积分最多为1)。

性质:

2.4 期望

假设是一个离散随机变量,其PMF为 是一个任意函数。在这种情况下,可以被视为随机变量,我们将的期望值定义为:

如果是一个连续的随机变量,其PDF 为,那么的期望值被定义为:

直觉上,的期望值可以被认为是对于不同的值可以取的值的“加权平均值”,其中权重由给出。作为上述情况的特例,请注意,随机变量本身的期望值,是通过令得到的,这也被称为随机变量的平均值。

性质:

  • 对于任意常数 
  • 对于任意常数 
  • (线性期望):
  • 对于一个离散随机变量

2.5 方差

随机变量方差是随机变量的分布围绕其平均值集中程度的度量。形式上,随机变量的方差定义为:

使用上一节中的性质,我们可以导出方差的替代表达式:

其中第二个等式来自期望的线性,以及相对于外层期望实际上是常数的事实。

性质:

  • 对于任意常数 
  • 对于任意常数 

举例:

计算均匀随机变量的平均值和方差,任意,其PDF为 ,其他地方为0。

举例:

假设对于一些子集,有,计算?

离散情况:

连续情况:

2.6 一些常见的随机变量

离散随机变量

  • 伯努利分布:硬币掷出正面的概率为(其中:),如果正面发生,则为1,否则为0。
  • 二项式分布:掷出正面概率为(其中:)的硬币次独立投掷中正面的数量。
  • 几何分布:掷出正面概率为(其中:)的硬币第一次掷出正面所需要的次数。

     

  • 泊松分布:用于模拟罕见事件频率的非负整数的概率分布(其中:)。

连续随机变量

  • 均匀分布:在之间每个点概率密度相等的分布(其中:)。
  • 指数分布:在非负实数上有衰减的概率密度(其中:)。
  • 正态分布:又被称为高斯分布。

一些随机变量的概率密度函数和累积分布函数的形状如图2所示。

CS229 机器学习课程复习材料-概率论

图2:一些随机变量的概率密度函数(PDF)和累积分布函数(CDF)
下表总结了这些分布的一些特性:

分布 概率密度函数(PDF)或者概率质量函数(PMF) 均值 方差
(伯努利分布)
(二项式分布)  其中:
(几何分布)  其中:
(泊松分布)  其中:
(均匀分布)  存在
(高斯分布)
(指数分布)  

3. 两个随机变量

到目前为止,我们已经考虑了单个随机变量。然而,在许多情况下,在随机实验中,我们可能有不止一个感兴趣的量。例如,在一个我们掷硬币十次的实验中,我们可能既关心出现的正面数量,也关心连续最长出现正面的长度。在本节中,我们考虑两个随机变量的设置。

3.1 联合分布和边缘分布

假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要。但是如果我们想知道在随机实验的结果中,同时假设的值,我们需要一个更复杂的结构,称为联合累积分布函数,定义如下:

可以证明,通过了解联合累积分布函数,可以计算出任何涉及到的事件的概率。

联合CDF和每个变量的联合分布函数分别由下式关联:

这里我们称为 边缘累积概率分布函数

性质:

3.2 联合概率和边缘概率质量函数

如果是离散随机变量,那么联合概率质量函数 由下式定义:

这里, 对于任意, 并且 

两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系?事实上:

对于类似。在这种情况下,我们称的边际概率质量函数。在统计学中,将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。

3.3 联合概率和边缘概率密度函数

假设是两个连续的随机变量,具有联合分布函数。在中处处可微的情况下,我们可以定义联合概率密度函数

如同在一维情况下,,而是:

请注意,概率密度函数的值总是非负的,但它们可能大于1。尽管如此,可以肯定的是 

与离散情况相似,我们定义:

作为边际概率密度函数(或边际密度),对于也类似。

3.4 条件概率分布

条件分布试图回答这样一个问题,当我们知道必须取某个值时,上的概率分布是什么?在离散情况下,给定的条件概率质量函数是简单的:

假设分母不等于0。

在连续的情况下,在技术上要复杂一点,因为连续随机变量的概率等于零。忽略这一技术点,我们通过类比离散情况,简单地定义给定的条件概率密度为:

假设分母不等于0。

3.5 贝叶斯定理

当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理

对于离散随机变量

对于连续随机变量