首頁 » 博客 » 了确定文档所代表的主要实

了确定文档所代表的主要实

进行加权。这也是与主题相关的实体权重的一个重要概念,我将在另一篇文章中更详细地讨论。

为体,需要计档所代表算“中心性分数”,该分数基于传出边的总档所代表和,即与其他实体的关系。这可能是从 Google NLP API 的实体分析中得知的显著性分数。

旦确定了中心实体,附加内容

系统 130 就会根据代表实体的节 电报数据 点的出边权重为每个中心实体生成初始中心性得分。例如,实体档所代表图中节点 A 所代表的实档所代表体 A 的初始中心性得分可以基于节点 A 的出边权重总和与实体图中所有边权重总和的比率。因此,具有大量高权重出边的节点将具有更高的初始中心性得分。

衡量实体重要性的另一个信号是其在相关语料库的文档中被提及的频率。逆文档频率(IDF)在这里也可以发挥作用。

附加内容系统 130 可能使用的第二个信号档所代表是实体在资源集合中出现的频率。可以根据实体在资源集合中出现的频率来降低​​实体的初始中心性得分,使得在集合中频繁出现的实体的得分低于不频繁出现的实体的得分。在一些实现中,使用实体的逆文档频率 (IDF) 来调整每个实体的初始中心性得分。实体的 IDF 可以是实体在资源中出现的次数除以实体在资源集合中出现的次数。通过使用 IDF 调整实体的初始中心性得分,附加内容系统 130 确保实体不会仅仅因为在集合中的其他资源中频繁出现而被视为与资源的主要主题高度相关。

同样有趣的是,根据选择文档的

实体的搜索频率进行额外的加权,这使 另一位唐纳德打击移民 我们回到点击率。与实体相关的搜索一起频繁选择的文档会加强文档和实体之间的关联。

附加内容系统130可以使用的另一个信号  是实体是否出现在导致对资源的请求的搜索查询日志中。具体而言,出现在搜索查询日志中的实体的初始中心性得分可以增加。在一些实现中,在搜索查询日志中出现频率较高的实体的得分将比出现频率较低的实体的得分增加更多。

另一个信号是在页面标题、URL 或元数据中提及实体。

其他信号可能与实体在资源档所代 007 數據 表中出现的位置有关。例如,出现在资源标题、资源 URL 或与资源相关的元数据中的实体的初始中心性得分可能会增加。

除了中心性得分之外,还描述了一种相当简单的方法来识别来源的主要主题实体。如果有两个实体 A 和 B 可供选择,则此决定仅基于与 A 和 B 的搜索相关的文档排名来做出。如果某个文档在 A 方面的排名高于在 B 方面的排名,则 A 是主要主题实体。

 

 用于语义分析引擎训练和评估的自动标注

该项谷歌专利已于2017年转让给谷歌。描述了一种对与维基百科等权威网站相关的文档进行语义分析的方法。这种关系是从这些文档到权威页面的链接。这样,这些文档就被标记或评论了。注释文档的语料库可以包含每个网页的实体提及、实体提及在文档所代表档中的位置以及提及所引用的权威页面的位置。

这样的链接可以是带有锚文本“相关性”的指向相应维基百科文章的外向链接。这将使该文档成为实体相关性语料库的候选。

返回頂端