The maximum entropy Markov model predicts a label for each word using contextual features.
最大熵马尔可夫模型会利用上下文特征为每个词预测一个标签。
Compared with an HMM, a maximum entropy Markov model can incorporate richer, overlapping features, but it may suffer from label bias.
与隐马尔可夫模型相比,最大熵马尔可夫模型可以引入更丰富、可重叠的特征,但可能会受到标签偏置问题的影响。
词源 / Etymology
这个术语由三部分构成:
Maximum Entropy(最大熵):源自信息论与统计建模思想,常指在满足已知约束的前提下选择“最不偏倚”的概率分布;在NLP里常对应用特征做指数形式的条件概率模型(与逻辑回归/最大熵分类器关系密切)。
Maximum Entropy Markov Models for Information Extraction and Segmentation(McCallum, Freitag, Pereira, 2000):提出并系统阐述MEMM,用于信息抽取与分割任务。
Speech and Language Processing(Jurafsky & Martin):在序列标注与判别式序列模型章节中讨论MEMM,并与HMM、CRF对比。
Foundations of Statistical Natural Language Processing(Manning & Schütze):在统计NLP框架下涉及最大熵思想与序列建模相关内容,常作为理解MEMM背景的经典参考。
Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(Lafferty, McCallum, Pereira, 2001):提出CRF时也常用MEMM作为对照,讨论局部归一化带来的问题(如标签偏置)。