记录链接
目录
记录链接
记录链接(RL)是在数据集中查找跨越不同数据源(例如,数据文件、书籍、网站和数据库)引用同一实体的记录的任务。当基于可能共享或可能不共享公共标识符(例如,数据库密钥、URI、国家标识号)的实体加入不同的数据集时,记录链接是必要的,这可能是由于记录形状,存储位置或策展人风格的差异或偏好。经历了面向RL的对帐的数据集可以称为被交叉链接。记录链接称为数据链接 在许多辖区中,但是两者是相同的过程。
确定性记录链接
最简单的记录链接称为确定性记录或基于规则的记录链接,它基于在可用数据集中匹配的单个标识符的数量来生成链接。如果所有或某些标识符(在特定阈值之上)相同,则说两个记录通过确定性记录链接程序进行匹配。当数据集中的实体由一个公共标识符标识时,或者当存在几个具有相对较高数据质量的代表性标识符(例如,姓名、出生日期和性别)时,确定性记录链接是一个不错的选择高。

概率记录链接
概率记录链接,有时也称为模糊匹配,通过考虑更广泛的潜在标识符,采用不同的方法来解决记录链接问题,并根据其正确识别匹配或不匹配的估计能力为每个标识符计算权重,并使用这些权重来计算两个给定记录引用同一实体的概率。概率高于某个阈值的记录对被认为是匹配的,而概率低于另一个阈值的记录对被认为是不匹配的;介于这两个阈值之间的对被认为是“可能的匹配”,并且可以相应地进行处理(例如,根据要求、人工检查、链接或不链接)。
许多概率记录链接算法通过称为u和m的两个概率为标识符分配匹配/不匹配权重。该ü概率是两个标识的可能性不匹配的记录将偶然纯粹同意。例如,出生月份的u概率(其中有十二个近似均匀分布的值)为1/12≈0.083;与值标识符未均匀分布将具有不同的ü为不同的值(可能包括缺失值)的概率。所述米概率的概率是在标识符匹配对将达成共识(或足够相似,例如Jaro-Winkler或Levenshtein距离较小的弦)。在完美数据的情况下,该值为1.0,但考虑到很少(如果有的话)为真,则可以估算。可以基于数据集的先验知识,通过手动标识大量匹配和不匹配对以“训练”概率记录链接算法,或通过迭代运行该算法以获得更精确的m个估计,来完成此估计。
应用
主数据管理
大多数主数据管理(MDM)产品使用记录链接过程来识别来自代表同一真实世界实体的不同来源的记录。此链接用于创建“黄金主记录”,其中包含有关实体的已清理,已核对的数据。MDM中使用的技术通常与记录链接相同。MDM扩展了此匹配,不仅创建了“黄金主记录”,而且还推断了关系。(即,一个人具有相同/相似的姓氏和相同/相似的地址,这可能意味着他们有家庭关系)。
数据仓库和商业智能
记录链接在数据仓库和商业智能中起着关键作用。数据仓库用于将来自许多不同操作源系统的数据组合到一个逻辑数据模型中,然后可以将其随后输入到商业智能系统中进行报告和分析。每个可操作的源系统可能都有其自己的方法来标识逻辑数据模型中使用的相同实体,因此不同源之间的记录链接变得必要,以确保可以将一个源系统中有关特定实体的信息与以下信息进行无缝比较:来自另一个源系统的相同实体。数据标准化和随后的记录链接通常发生在数据的“转换”部分。提取、转换、加载(ETL)过程。
历史研究
记录链接对于社会历史研究非常重要,因为大多数数据集(例如人口普查记录和教区居民名册)是在发明国家识别号之前就记录下来的。对旧资料进行数字化处理后,数据集的链接是进行纵向研究的前提。由于缺乏标准的姓名拼写,根据居住地而变化的姓氏,行政区域的变化以及对照其他来源检查数据的问题,该过程通常会更加复杂。记录链接是1980年代历史和计算领域中最突出的主题之一,但此后在研究中受到的关注较少。
医学实践与研究
记录链接是创建检查公众健康和医疗保健系统本身所需的数据的重要工具。它可以用来改善数据保存,数据收集,质量评估和信息传播。可以检查数据源以消除重复的记录,识别报告不足和遗漏的病例(例如,人口普查计数),创建以人为本的健康统计数据,并建立疾病登记和健康监控系统。一些癌症注册管理机构链接各种数据源(例如,医院住院、病理和临床报告以及死亡注册)以生成其注册管理机构。记录链接也用于创建健康指标。