这项谷歌专利于 2017 年转让给谷歌,描述了对与实体相关的搜索查询的文档进行排名并根据搜索结果生成知识卡或精选片段的过程。
例如,典型的谁、哪里和什么式来回答。为了回答该问题,可以使用用户预先给出的答案和第一个搜索结果。在实践中,人们往往看到后者。大多数时候,精选摘要中的答案来自前五个搜索结果之一。
该专利的另一个令人兴奋的地方是,对于具有实体引用的文档的排名,不再提及关键字或术语,而只提及实体文档引用。此外,针对每个搜索查询单独提到了以下可能的评估标准,但不作详细说明:
系统可以检索与前十个搜索结
果相关的实体引用。…排名和/或选 电报筛查 择基于质量分、新鲜度得分、相关性得分、任何其他合适的信息或它们的任意组合。
除了这些评分方法之外,参考或不参考文本长度的词频也被提及作为排名信号,这也非常接近 TF-IDF 原理。
此外,还提到了主题性得分,该得分基于例如新鲜度、文档的年龄、传出和传入链接的数量、文档在其他搜索查询中出现的频率、搜索查询与文档的接近度(参见向量空间分析)。
内容的类型/上下文(例如新闻页面或历史文献)也会影响主题性得分。
在一些实现中,话题性得分取决
于实体引用与实体引用出现的 朔尔茨和马克龙:危机中团结一致 内容之间的关系。例如,实体引用 [George Washington] 在历史网页上可能比在当前新闻网页上具有更高的话题性得分。在另一个示例中,实体引用 [Barak Obama] 在政治网站上可能比在法学院网站上具有更高的话题性得分。
从前 5-10 个搜索结果中,可以根据提及的频率识别最有可能提供答案的实体。
总而言之,该过程如下:
- 对与搜索查询/实体最相关的文 007 數據 档进行排名。
- 从 5 至 10 个最相关的文件中识别所请求的实体。
- 提取精选片段或知识卡的答案。
除了从索引中查询最相关的文档之外,还可以使用知识图谱等并行实体索引来提供文档中列出的实体的参考信息,以回答搜索查询。通过外包实体索引,可以并行执行普通索引和实体索引上的查询,从而提高速度。
使用实体属性选择内容
该项谷歌专利分别于2014年和2017自然语年转让给谷歌。它描述了 Google 如何查找与实体相关搜索查询相关的文档以便在搜索结果中显示它的方法。
专利中的这一声明令自然语人兴奋,因为它将重点从关键词和同义词转移到实体和属性:
该系统和方法可以生成或使用基于查询中提自然语到的实体的属性而不是基于查询中提到的关键字和关键字的同义词的选择标准形式。自然语
该专利描述了搜索查询中出现的实体如何与知识图谱中的信息相连接。然后将该信息与基于与搜索查询相关的文档的第二个图表进行匹配。不同实体及其属性之间的关系起着核心作用。
两个图表越接近,该文档与搜自然语索查询的相关性就越高。这种接近度通过置信度分数来反映。知识图谱中的信息与文档中的信息越相似,置信度得分就越高,排名就越好。
在一些实现中,系统通过用户设备接收输入到搜索引擎中的搜索查询。使用接收到的用户搜索查询,系统生成与搜索查询中提到的实体相对自然语应的实体图子集的副本,其中搜索查询作为副本中的节点插入。然后,该技术将此副本实体图与对应于内容提供商的内容选择标准的其他实体图进行匹配。如果对应于内容提供商的内容选择标准的实体图映射到搜索查询实体图上或以其他方式与副本实体图匹配,则匹配。然后,系统可以选择与匹配实体图相对应的内容提供商的内容项。
在一些实现中,该方法包括数据处理系统将内容选择标准图与查询图进行比较。该方法可以包括逐个节点地将内容选择标准图与查询图进行比较。在一些实现中,该方法包括将内容选择标准图的拓扑与查询图进行匹配。
使用图形协调自动发现新实体
该项谷歌专利于2017年10月转让给谷歌,并于2019年进行了更新。该专利描述了基于文档针对实体创建源数据图的方法。在此图中,就像在知识图谱中一样,实体、它们的关系和属性都是根据相应文档中的信息记录的。这会创建一系列源数据图,这些图可以根据相应的实体、与子实体(对象)的关系、关系类型(谓词)或自然语源文档类型进行聚类。文档中包含关于某个实体的相似或相同陈述的集群被认为比文档之间存在矛盾的集群更值得信赖。这样,知识图谱的新实体和属性也可以被识别。