数据匹配方法或技术有多种分类方法,但为了简单起见,我们将仅介绍最常见的方法。
这五种数据匹配类型分别是精确匹配、模糊匹配、概率匹配、基于机器学习的匹配和混合匹配。让我们更详细地讨论一下。
1. 精确匹配
精确匹配顾名思义,就是找到精确匹配项。虽然这种简单的记录链接技术可能适用于某些质量数据集,但大多数情况下使用它意味着丢失重要信息。
假设您想要连接潜在客户的姓名以对数据库进行重复数据删除。通过精确匹配,Richard Dickinson 和 Dick Dickinson 将被视为单独的记录,即使他们的电子邮件和位置相同。虽然您可以通过这种方式手动检查较小的数据集,但至少可以说,检查数百万条记录是不可行的。
2.模糊匹配
此实体解析方法可识别相似但不相同的实例。示例包括不完整的数据、拼写变化和打字错误。
模糊属性匹配有其自己的子技术,例如编辑距离,它计算将一个单词更改为另一个单词所需的一个字符编辑次数。在我们的例子中,从 Richard 切换到 Dick 需要 5 个操作,这个阈值可以解释为足够接近。
模糊匹配过程还会将原始数据与“Richar”或“Richars”Dickinson 配对。这种数据匹配类型非常适合对齐具有拼写差异的美国和英国数据集,例如“analog”和“analogue”相机。
然而,模糊匹配的问题在于它可能产生假阴性和 电子邮件数据 假阳性。另一方面,这也适用于概率和基于机器学习的匹配,并且这种错误发生的概率高度依赖于用户设置的规则。
3. 概率匹配
这种更先进的属性匹配方法使用统计数据来确定两条记录关联的概率。其中,0% 表示不匹配,100% 表示完全匹配,即记录是完全相同的。
回到我们的 Richard 和 Dick 示例,概率方法会注意 Levenshtein 距离和匹配的电子邮件和位置,给出最终得分,即 95%。当然,除非您犯了加权错误,否则您考虑的因素越多,概率匹配就越准确。
4.基于机器学习的匹配
这种数据匹配技术依赖于你教算法如何识别关联实体。通常,它涉及标记匹配和不匹配对,以便机器可以学习。匹配算法寻找的模式的复杂性远远超过其他三种方法,使其能够适应新数据并及时提高准确性。
在这个阶段,很难说算法如何发现理查德和迪克实际上是同一个人,但事实确实如此。哎呀,它甚至将他和他的前妻匹配了起来。
5.混合匹配
顾名思义,该技术取其他四种方法之长。可以顺序或并行应用不同的方法,以最大限度地提高找到所有匹配项的机会。当然,这并不意味着您必须使用所有四种方法 - 一个好的组合可以是运行机器,然后使用模糊匹配进行检查,以确保算法不会错过一些不太常见的实例。