855学习记录之AIMA概率（1）基础—— 炎泽汐$de$ Blog | 炎泽汐 $de$ $Blog$

文章目录[隐藏]

引入
深入

引入

由于部分可观测性、非确定性和对抗者的存在，真实世界中的智能体需要处理不确定性。智能体可能永远都无法确切地知道它现在所处的状态，也无法知道一系列动作之后结束的位置。问题求解与逻辑智能体通过追踪信念状态和生成应变规划来处理不确定性。这种方法适用于简单问题，它存在许多缺点：

●无论可能性多么低，智能体都必须考虑传感器观测到的每种可能解释。这导致信念状态中可能存有大量不太可能发生的情况，进而导致信念状态非常庞大。

● 一个要处理每种情况的恰当的应变规划必须考虑任何不太可能的情况，因此最终可能变得任意大。

● 有时，可以保证达成目标的规划可能并不存在，但智能体必须行动。因此智能体必须有某种方式比较这些规划的优劣。

因此，正确的动作——理性决策，既依赖各种目标的相对重要性，也依赖它们实现的可能性和程度，接下来的概率部分则对不确定性进行了度量，概率提供了一种概括因惰性与无知而产生的不确定性的方式，从而解决了资格问题。

● 惰性：为确保规则没有例外情况，所需列出的完整前提和结论的工作量太大，并且这样的规则也难以使用。

● 理论无知：医学在这个领域没有完备的理论。

● 实践无知：即使知道所有的规则，对于特定的病人可能也无法得到确定的结论，因为不是所有需要的检测都已经完成或者能够被完成。

概率术语与记号

无条件概率/先验概率：指无任何其他信息下命题的信念度。

条件概率/后验概率：大多数情况下会有一些已经透露的信息，通常称为证据，此时命题的信念度叫做后验概率。

柯尔莫哥洛夫公理：

$$
\forall \omega \ ,\ 0\le P\left( \omega \right) \le 1\ ;\ \sum_{\omega \in \varOmega}{P\left( \omega \right)}=1
$$

$$
P\left( a\lor b \right) =P\left( a \right) +P\left( b \right) -P\left( a\land b \right)
$$

深入

使用完全联合分布进行推断

使用完全联合分布进行推断是概率推断的一种简单方法——给定观测证据时，为每个查询命题计算后验概率。使用完全联合分布作为“知识库”，从中可以得到所有问题的答案。

抽取变量子集或单个变量的分布，计得无条件概率（边缘概率）的过程叫做边缘化（求和消元）。一般边缘化规则：

$$
P\left( Y \right) =\sum_z{P\left( Y,Z=z \right)}=\sum_z{P\left( Y|z \right) P\left( z \right)}
$$

在许多概率计算中，在某变量边缘概率未知的情况下可以对子事件进行归一化，归一化是一种有用的捷径，既可以简化计算又允许在一些概率评估不可知的时候继续计算。其中，1 与子事件的概率和之比称为归一化常数$\alpha $。

一个通用的推断过程是从查询单变量$X$的情况开始。令$E$表示证据变量列表，$e$表示它们的观测值列表，$Y$表示剩余未观测变量。那么查询$P\left( X|e \right)$可计算为：

$$
P\left( X|e \right) =\alpha P\left( X,e \right) =\alpha \sum_y{P\left( X,e,y \right)}
$$

其中求和是针对所有可能的$y$（也就是未观测变量$Y$的值的所有可能组合）。注意，变量$X$、$E$和$Y$构成了域变量的完整集合，所以$P\left( X,e,y \right)$仅仅是完全联合分布的一个概率子集。

对于一个由$n$个布尔变量描述的域，它需要一个$O(2^n)$大小的输入表，并要花费$O(2^n)$的时间去处理这个表。问题不仅是存储和计算：真正的问题是$n$足够大时，如果这$O(2^n)$个概率都需要从样例中分别估计，所需的样例数量是极大的！出于这些原因，表形式的完全联合分布不是构建推理系统的实用工具。然而，它应该被视为构建更有效方法的理论基础。

独立性

独立性，也叫边缘独立性或绝对独立性。具体而言，天气独立于一个人的牙齿问题。命题$a$和$b$独立可以写作：

$$
P\left( a|b \right) =P\left( a \right) \text{、}P\left( b|a \right) =P\left( b \right) \text{、}P\left( ab \right) =P\left( a \right) P\left( b \right)
$$

以上所有这些形式都是等价的。独立性断言通常基于领域知识。像牙病-天气例子所阐释的那样，它们可以显著减少指定完全联合分布所需的信息量。如果整个变量集能分解成独立子集，则完全联合分布可以分解成这些子集上的单独联合分布。

当独立性断言可用时，它可以减少域表示的大小，降低推断问题的复杂性。遗憾的是，通过独立性清晰地分离整个变量集的情况非常少见。无论两个变量之间存在多么间接的联系，独立性都无法成立。此外，即使是独立子集也可能相当大，要处理这类问题，需要比直接的独立性概念更精妙的方法。

贝叶斯法则

乘积法则：

$$
P\left( a\land b \right) =P\left( a|b \right) P\left( b \right) =P\left( b|a \right) P\left( a \right)
$$

联立得到贝叶斯法则（$Bayes’$ $s$ $rule$）：

$$
P\left( b|a \right) =\frac{P\left( a|b \right) P\left( b \right)}{P\left( a \right)}
$$

也有机会使用以一些背景证据$e$为条件的更通用的推广：

$$
P\left( Y|X,e \right) =\frac{P\left( X|Y,e \right) P\left( Y|e \right)}{P\left( X|e \right)}
$$

拓展到归一化可以得到：

$$
P\left( M|s \right) =\alpha <\ P\left( S,m \right) P\left( m \right) ,P\left( S,\lnot m \right) P\left( \lnot m \right) >\
$$

给定第三个变量$Z$，两个变量$X$和$Y$的条件独立性的一般定义是：

$$
P\left( X,Y|Z \right) =P\left( X|Z \right) P\left( Y|Z \right)
$$

条件独立性断言允许概率系统进行规模扩展；此外，它们比绝对独立性断言更容易获得。通过条件独立性将大概率域分解成弱连通的子集是人工智能近期历史上最重要的进展之一。

朴素贝叶斯模型

朴素贝叶斯（$naive$ $Bayes$）模型——“朴素”是因为它经常（作为一种简化假设）用于在给定原因变量时，“结果”变量不是严格独立的情况。朴素贝叶斯模型有时被称为贝叶斯分类器（$Bayesian$ $classifier$），这种有点粗心的用法已经促使真正的贝叶斯学派称其为傻瓜贝叶斯模型。在实践中，朴素贝叶斯系统通常表现得很好，即使条件独立性假设并不是严格成立的。

朴素贝叶斯模型的标准形式是：

$$
P\left( Cause|e \right) =\alpha \sum_y{P\left( Cause,e,y \right)}
$$

$$
=\alpha \sum_y{P\left( y|Cause,e \right) P\left( Cause,e \right)}\left[ \text{应用乘法公式} \right]
$$

$$
=\alpha \sum_y{P\left( y|Cause,e \right)}P\left( Cause \right) \prod_j{P\left( e_j|Cause \right)}\left[ \text{应用乘法公式} \right]
$$

$$
=\alpha P\left( Cause \right) \prod_j{P\left( e_j|Cause \right)}\sum_y{P\left( y|Cause,e \right)}\left[ \text{分离无关部分} \right]
$$

$$
=\alpha P\left( Cause \right) \prod_j{P\left( e_j|Cause \right)}
$$

对于每一个可能的原因，将原因的先验概率乘以在给定原因时所观测到的结果的条件概率；然后将结果归一化。该计算的运行时间与观测到的结果数量呈线性关系，并不依赖于未观测到的结果数量。朴素贝叶斯模型广泛应用于语言测定、文档检索、垃圾邮件过滤和其他分类任务。对于像医学诊断这样的任务，后验概率的实际值真的很重要，人们通常更愿意使用更复杂的模型。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

引入

深入

您必须 登录 才能发表评论！

您必须登录才能发表评论！