Maximum Entropy Markov Model

释义 / Definition

最大熵马尔可夫模型（MEMM）是一种用于序列标注（如词性标注、命名实体识别、分词等）的判别式概率模型。它把“最大熵/逻辑回归（Maximum Entropy）”用于每一步的状态转移：在给定观测（输入特征）和前一状态的条件下，预测当前标签（状态）的条件概率，并通过连乘形成整条标签序列的概率。常被用来与 HMM（生成式） 和 CRF（全局归一化的判别式）进行对比；MEMM的经典问题是标签偏置（label bias）。

发音 / Pronunciation (IPA)

/ˈmæksɪməm ˈɛntrəpi ˈmɑːrkɒv ˈmɒdəl/

例句 / Examples

The maximum entropy Markov model predicts a label for each word using contextual features.
最大熵马尔可夫模型会利用上下文特征为每个词预测一个标签。

Compared with an HMM, a maximum entropy Markov model can incorporate richer, overlapping features, but it may suffer from label bias.
与隐马尔可夫模型相比，最大熵马尔可夫模型可以引入更丰富、可重叠的特征，但可能会受到标签偏置问题的影响。

词源 / Etymology

这个术语由三部分构成：

Maximum Entropy（最大熵）：源自信息论与统计建模思想，常指在满足已知约束的前提下选择“最不偏倚”的概率分布；在NLP里常对应用特征做指数形式的条件概率模型（与逻辑回归/最大熵分类器关系密切）。
Markov（马尔可夫）：来自马尔可夫链的“无记忆性”假设，即当前状态主要依赖于前一状态（或有限历史）。
Model（模型）：指用于刻画数据生成或预测规律的形式化方法。
合起来，MEMM就是“用最大熵方式来参数化每一步条件转移的马尔可夫序列模型”。

文献与著作中的使用 / Notable Works

Maximum Entropy Markov Models for Information Extraction and Segmentation（McCallum, Freitag, Pereira, 2000）：提出并系统阐述MEMM，用于信息抽取与分割任务。
Speech and Language Processing（Jurafsky & Martin）：在序列标注与判别式序列模型章节中讨论MEMM，并与HMM、CRF对比。
Foundations of Statistical Natural Language Processing（Manning & Schütze）：在统计NLP框架下涉及最大熵思想与序列建模相关内容，常作为理解MEMM背景的经典参考。
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data（Lafferty, McCallum, Pereira, 2001）：提出CRF时也常用MEMM作为对照，讨论局部归一化带来的问题（如标签偏置）。