crf++ 里的特征模板

本贴最后更新于 582 天前,其中的信息可能已经时移世异

一:

Unigram 和 Bigram 模板分别生成 CRF 的状态特征函数S_l(y_i,x,i) 和转移特征函数t_k(y_{i-1},y_i,x,i) 。其中 y_i 是标签, x 是观测序列, i 是当前节点位置。每个函数还有一个权值,具体请参考 CRF 相关资料。

crf++ 模板定义里的 %x[row,col],即是特征函数的参数x

举个例子。假设有如下用于分词标注的训练文件:


北 N B
京 N E
欢 V B
迎 V M
你 N E

其中第 3 列是标签,也是测试文件中需要预测的结果,有 BME 3 种状态。第二列是词性,不是必须的。

特征模板格式:%x[row,col]。x 可取 U 或 B,对应两种类型。方括号里的编号用于标定特征来源,row 表示相对当前位置的行,0 即是当前行;col 对应训练文件中的列。这里只使用第 1 列(编号 0),即文字。

1、Unigram 类型
每一行模板生成一组状态特征函数,数量是 LN 个,L 是标签状态数。N 是此行模板在训练集上展开后的唯一样本数,在这个例子中,第一列的唯一字数是 5 个,所以有 LN = 3*5=15。

例如:U01:%x[0,0],生成如下 15 个函数:


func1 = if (output = B and feature=U01:"北") return 1 else return 0
func2 = if (output = M and feature=U01:"北") return 1 else return 0
func3 = if (output = E and feature=U01:"北") return 1 else return 0
func4 = if (output = B and feature=U01:"京") return 1 else return 0
...
func13 = if (output = B and feature=U01:"你") return 1 else return 0
func14 = if (output = M and feature=U01:"你") return 1 else return 0
func15 = if (output = E and feature=U01:"你") return 1 else return 0

这些函数经过训练后,其权值表示函数内文字对应该标签的概率(形象说法,概率和可大于 1)。

又如 U02:%x[-1,0],训练后,该组函数权值反映了句子中上一个字对当前字的标签的影响。

2、Bigram 类型

与 Unigram 不同的是,Bigram 类型模板生成的函数会多一个参数:上个节点的标签 。

生成函数类似于:

func1 = if (prev_output = B and output = B and feature=B01:"北") return 1 else return 0

这样,每行模板则会生成 LLN 个特征函数。经过训练后,这些函数的权值反映了上一个节点的标签对当前节点的影响。

 

每行模版可使用多个位置。例如:U18:%x[1,1]/%x[2,1]

字母 U 后面的 01,02 是唯一 ID,并不限于数字编号。如果不关心上下文,甚至可以不要这个 ID。

二:

根据 CRF++ 包中给出的例子可以较为清楚的知道有那些模板构建方法。模板构建分为两类,一类是 Unigram 标注,一类是 B igram 标注。 
Unigram 模板是比较常用的模板,这类模板提取的信息较为全面,组成的模板数量也比较多;Bigram 模板比较简单,一般是当前词和前面一个词的自动组合生成的 Bigram 特征集合。 
主要介绍 Unigram 模板


Unigram
U00:%x[-2,0] 
U01:%x[-1,0] 
U02:%x[0,0] 
U03:%x[1,0] 
U04:%x[2,0] 
U05:%x[-2,0]/%x[-1,0]/%x[0,0] 
U06:%x[-1,0]/%x[0,0]/%x[1,0] 
U07:%x[0,0]/%x[1,0]/%x[2,0] 
U08:%x[-1,0]/%x[0,0] 
U09:%x[0,0]/%x[1,0] 

这是 CRF++ 例子中给出的模板,一共有 9个模板,先看第一个模板,表示当前词和前面的第二个词组成的特征,以‘小明今天穿了一件红色上衣’为例,符合 CRF++ 处理格式的这句话应该变成如下形式: 

小 B 
明 I 
今 B 
天 I 
穿 S 
了 S 
一 B 
件 I 
红 B 
色 I 
上 B 
衣 I 

假设我们有三个标记 tag,B(表示一个词的开头那个字),I(表示一个词的结尾那个字),S(表示单个字的词),先看第一个模板U00:%x[-2,0],第一个模板产生的特征如下: 
如果当前词是‘今’,那-2 位置对应的字就是‘小’, 
每个特征对应的字如下: 

U00:%x[-2,0]=====>小 
U01:%x[-1,0]=====>明 
U02:%x[0,0]=====>今 
U03:%x[1,0]=====>天 
U04:%x[2,0]=====>穿 
U05:%x[-2,0]/%x[-1,0]/%x[0,0]=====>小/明/今 
U06:%x[-1,0]/%x[0,0]/%x[1,0]=====>明/今/天 
U07:%x[0,0]/%x[1,0]/%x[2,0]=====>今/天/穿 
U08:%x[-1,0]/%x[0,0]=====>明/今 
U09:%x[0,0]/%x[1,0]=====>今/天 

根据第一个模板 U00:%x[-2,0]能得到的转移特征函数如下: 

func1=if(output=B and feature=’U00:小‘ ) return 1 else return 0 

其中 output=B 指的是当前词(字)的预测标记,也就是’今‘的预测标记,每个模板会把所有可能的标记输出都列一遍,然后通过训练确定每种标记的权重,合理的标记在训练样本中出现的次数多,对应的权重就高,不合理的标记在训练样本中出现的少,对应的权重就少,但是在利用模板生成转移特征函数是会把所有可能的特征函数都列出来,由模型通过训练决定每个特征的重要程度。 

func2=if(output=I and feature=’U00:小’) return 1 else return 0 
func3=if(output=S and feature=’U00:小) return 1 else return 0 

得到三个特征函数之后当前这个字’今‘的特征函数利用第一个模板就得到全不了,然后扫描下一个字‘天‘,以’天‘字作为当前字预测这个字的标记 tag,同样会得到三个特征函数:


func4=if(output=B and feature=’U00:明’) return 1 else return 0 
func5=if(output=I and feature=’U00:明’) return 1 else return 0 
func6=if(output=S and feature=’U00:明’) return 1 else return 0 

特征函数中的 feature 指的是当前词的-2 位置对应的词或对应的词的特征,因为在这里没有其他特征了,所以用字本身做特征,有的会有词性,那 feature 就会是’明‘这个字对应的词性而不是字本身了。 
这个 feature 的作用就是确定模板所确定的当前词和临近词

  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:PipeSoloSymWide 等。

    1128 引用 • 3384 回帖 • 515 关注
  • crf
    1 引用
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    60 引用 • 28 回帖

赞助商 我要投放

回帖
请输入回帖内容 ...