本体中实体类之间的关系
Posted: Tue Feb 11, 2025 8:57 am
有一些数据库(例如 YAGO 或 DBpedia Ontology)表示实体类或实体类型之间的关系。 DBpedia Ontology 基于维基百科。在以下 DBpedia Ontology 的摘录中,实体类型(圆角矩形)通过上升箭头与父实体类相关。例如,实体类型运动员和赛车手被分配给实体类“人”。连接类型和类的属性用虚线箭头表示。
摘自 DBpedia Ontology;来源:面向实体的搜索 – Krisztian Balog
整个事物代表了一个本体,它映射了类、类型以及实体之间的关系。
属性与实体、实体类型或类别有多相关?
通过对每个实体的属性进行加权,Google 可以确定特定属性与实体的相关程度。另一方面,谷歌也可以使用它来确定使用此属性的搜索查询实体的相关性。
资料来源:Google 专利 US9047278B1
Google 专利 “实体的识别和排名属性” 展示了此类方法如何发挥作用。
根据该专利,可以通过输入某些搜索词组合将属性分配给实体并赋予权重。
本说明书中描述的主题的一个创新方面体现在包括下列操作的方法中:识别查询数据中的查询;在每个查询中确定 (i) 引用实体的实体描述部分和 (ii) 后缀;确定提交一个或多个查询的次数;基于该计数估计包括特定 欧洲华人华侨数据 后缀并被认为引用第一实体的查询提交的实体级计数;确定实体是特定类型的实体;确定包括第一后缀并估计引用特定类型实体的实体的查询提交的类型级计数;以及基于实体级计数和类型级计数为特定后缀分配分数。
通过这种方法,Google 可以确定在知识面板中显示有关某种实体类型的实体的哪些信息。此外,在陈述含糊不清的情况下,可以确定哪个属性最相关。参照上面的例子。
以下是一个例子:
拉里·佩奇是一名企业家、计算机科学家和工程师。这三个陈述哪一个最相关或最准确?
搜索“拉里·佩奇企业家”的人越多,“企业家”这个属性就越准确。
实体数据挖掘是谷歌面临的最大挑战
从本文的研究和思考中,我了解到谷歌在知识图谱方面面临的最大挑战是提取有关实体以及实体类型和类别的信息或属性,尤其是从非结构化数据源中提取。知识图谱目前仍然非常不完整,因为来自所提到的结构化数据源的信息相对于现实世界中所有实体的总集合而言非常不完整。
这导致了进一步的几篇文章涉及知识图谱实体信息的数据挖掘:
摘自 DBpedia Ontology;来源:面向实体的搜索 – Krisztian Balog
整个事物代表了一个本体,它映射了类、类型以及实体之间的关系。
属性与实体、实体类型或类别有多相关?
通过对每个实体的属性进行加权,Google 可以确定特定属性与实体的相关程度。另一方面,谷歌也可以使用它来确定使用此属性的搜索查询实体的相关性。
资料来源:Google 专利 US9047278B1
Google 专利 “实体的识别和排名属性” 展示了此类方法如何发挥作用。
根据该专利,可以通过输入某些搜索词组合将属性分配给实体并赋予权重。
本说明书中描述的主题的一个创新方面体现在包括下列操作的方法中:识别查询数据中的查询;在每个查询中确定 (i) 引用实体的实体描述部分和 (ii) 后缀;确定提交一个或多个查询的次数;基于该计数估计包括特定 欧洲华人华侨数据 后缀并被认为引用第一实体的查询提交的实体级计数;确定实体是特定类型的实体;确定包括第一后缀并估计引用特定类型实体的实体的查询提交的类型级计数;以及基于实体级计数和类型级计数为特定后缀分配分数。
通过这种方法,Google 可以确定在知识面板中显示有关某种实体类型的实体的哪些信息。此外,在陈述含糊不清的情况下,可以确定哪个属性最相关。参照上面的例子。
以下是一个例子:
拉里·佩奇是一名企业家、计算机科学家和工程师。这三个陈述哪一个最相关或最准确?
搜索“拉里·佩奇企业家”的人越多,“企业家”这个属性就越准确。
实体数据挖掘是谷歌面临的最大挑战
从本文的研究和思考中,我了解到谷歌在知识图谱方面面临的最大挑战是提取有关实体以及实体类型和类别的信息或属性,尤其是从非结构化数据源中提取。知识图谱目前仍然非常不完整,因为来自所提到的结构化数据源的信息相对于现实世界中所有实体的总集合而言非常不完整。
这导致了进一步的几篇文章涉及知识图谱实体信息的数据挖掘: