耦合模式学习者
目录
简介
耦合模式学习者(CPL)是一种机器学习算法,它耦合了类别和关系的半监督学习,以防止与自举学习方法相关的语义漂移问题。
耦合模式学习者
半监督学习方法使用少量的已标记的例子与许多未标记的例子,通常是不可靠的,因为它们产生了一个内部一致但不正确的提取集。
CPL通过同时学习许多不同类别和关系的分类器来解决这个问题,在本体定义的约束条件下,这些分类器的训练是耦合的。它是在2009年提出的。
CPL概述
CPL是一种半监督学习的方法,通过耦合许多信息提取器的训练,产生更准确的结果。
CPL的基本思想是,对单一类型的提取器(如”教练”)进行半监督训练,比同时训练许多涵盖各种相互关联的实体和关系类型的提取器要困难得多。
利用关于这些不同实体和关系之间关系的先验知识,CPL使未标记的数据成为训练过程中有用的约束条件。例如,”教练(x)”意味着”人(x)”和”非体育(x)”。
CPL描述
关系参数类型检查
这是一个类型检查信息,用于耦合关系和类别的学习。例如,’ceoOf’关系的参数被声明为’人’和’公司’的类别。
CPL不会将一对名词短语提升为关系的实例,除非这两个名词短语被分类为属于正确的参数类型。
算法描述
以下是对CPL算法的一个快速总结。输入。一个本体论O,和一个文本语料库C输出。
候选提取
CPL通过使用新推广的模式来提取文本语料库中与这些模式共同出现的名词短语来发现新的候选实例。CPL提取。
耦合模式学习者的类别
实例类别模式关系实例关系模式候选过滤候选实例和模式被过滤,以保持高精确度,并避免极其特殊的模式。
只有当一个实例在文本语料库中至少与两个推广模式共同出现,并且其与所有推广模式的共同出现次数至少是其与负面模式共同出现次数的三倍时,才会被考虑进行评估。

候选人排名
CPL使用与之共同出现的推广模式的数量对候选人实例进行排名,因此与更多模式一起出现的候选人排名更高。模式的排名是使用对每个模式的精确度的估计。
候选人晋升
CPL根据其评估分数对候选人进行排名,并为每个谓词最多晋升100个实例和5个模式。
只有当实例和模式分别与至少两个被推广的模式或实例共同出现时才会被推广。
Meta-BootstrapLearnerMeta-BootstrapLearner(MBL)也是由CPL的作者提出的。
Meta-Bootstrap学习者将多种提取技术的训练与多视图约束结合起来,这就要求提取器之间达成一致。它在现有提取算法的基础上增加了耦合约束。