实体类型体类型的排名之比。这表达了该实体相对于专业团体、行业等的重要性。
贡献指标是一种影响力指标,基于“德国最佳 20 名 SEO”等顶级列表中的提及或评级和评论。
价格指标依据赢得的奖品(例如奖为全局流行金)确定。例如,一部电影可能获得奥斯卡奖、金球奖等多种奖项,每个奖项都具有一定的价值。
该专利的另一个有趣之处是引用
了术语“域”,它描述了不同实体类型的更高级别的分类。
在一些实现中,域的元素具有 电报数据 共同的特征、属性、特质、分类技术、任何其他合适的参数或它们的任何组合。在一个示例中,域包括“书籍”、“电影”、“人物”和“地点”。域“电影”中的实体类型可能包括:“演员”、“导演”和“拍摄地点”。
这些指标可以根据领域具有不同的权重。例如,一部电影可能获得奥斯卡奖、金球奖等多种奖项,每个奖项都具有一定的价值。
识别主题实体
该项谷歌专利由谷歌于 2017 年 10 月签署最新版本,自 2019 年 12 月起状态为“申请状态为活跃”。该专利描述了方法,例如有关该主题的文献。或者可以对主题进行分类。这些文件是通过内容中提到的附加实体来识别的。例如,关于篮球运动员迈克尔乔丹的文章将始终包含相关实体和实体类型,例如篮球、NBA 或芝加哥公牛队。此外,该文档可以明确地归属于实体迈克尔·乔丹(篮球运动员),而不是作者迈克尔·乔丹。
这里值得注意的是,在文档中,实体被 提高网站加载速度以改善用户体验 定义为主题或概念。因此,这与通常情况下的命名实体(如人或公司)关系不大,但更多地与主题形式的实体有关。
因此,这项专利与之前讨论过的谷歌专利“基于实体指标对搜索结果进行排名”一样有趣,因为它也在知识图谱和搜索索引中的文档和媒体之间架起了一座桥梁。
附加内容系统 130 包括或可与
实体图存储 140 通信。实体图存储 140 可以是一个或多个数据存储,其存储根据与资源集合中的资源相关联的实体的信息编译的实体图。资源集合可以是例如已被搜索引擎 120 索引的资源。实体图可包括与资源集合中的至少一个资源相关联的每个实体的相应节点。如果实体出现在资源的内容中、通过常规或其他技术从资源中提取或收集等,则实体可以与资源相关联。
这描述了实体与内容之间的关系,这强化了我在文章基于实体的索引:从内容索引到实体索引中解释的“实体优先”思想。
该专利还描述了知识图谱中的实体 007 數據 如何连接或与边缘相关。如果实体在相关文档语料的许多内容中频繁被一起提及,则这两个实体可以相互关联。
如果两个实体频繁地与集合
中的同一资源相关联,则实体图中与这些实体相对应的节点将通过边连接。具体而言,如果节点所表示的两个实体与集合中的同一资源相关联的频率高于两个实体不相关或独立时所预期的频率,则两个节点将通过边连接。例如,表示实体“迈克尔·乔丹为全局流行”和“篮球”的节点可能通过实体图中的边连接,因为两个实体与集合中的同一资源相关联的概率比实体“迈克尔·乔丹”与实体“篮球”没有任何关系时高出阈值量。可以对边进行加权,例如,两个实体与同一资源相关联的次数越多,与这两个实体相对应的两个节点之间的边的权重就越大。
此外,该专利还描述了如何从文档相关为全局流行实体图中删除没有边或与其他实体没有关系或只有弱关系的记录节点或实体。这样就可以将相关实体与不相关实体区分开来。
一旦确定了文档的主要实体,就可以根据与知识图谱中其他实体的传出连接数,使用中心性分数对它们