Page 1 of 1

搜索中常使用几种不同类型的文档模型

Posted: Wed Mar 19, 2025 3:19 am
by rakibhasanbd4723
最后,金字塔的顶端是查询的更抽象的表示,例如实体提取或潜在主题表示 (LDA)。事实上,Google 知道“费城费城人队”是一支美国职棒大联盟球队,而且由于现在是棒球赛季,所以昨晚的比分会显示在搜索结果的顶部(右侧的知识图谱除外)。

文档模型
与查询模型一样,


TF-IDF是最古老和最著名的方法之一,它将每 布韦岛商业指南 个查询和文档表示为一个向量,并使用余弦相似度的某种变体作为评分函数。语言模型对语言统计信息进行编码,并包括一些知识,例如短语“搜索引擎优化”比“搜索引擎行走”更常见。语言模型在机器翻译和语音识别等应用中被广泛使用。它们在信息检索中也非常有用。还有一类模型使用概率排名原理,它直接对给定查询和文档的相关性概率进行建模。其中,Okapi BM25已被证明特别有效。

相关性研究
现在,您可能想知道搜索引擎是否真的使用其中任何一项,如果是,哪些是最重要的。为了探索这个问题,我们设计了一个与我们过去进行的类似的相关性研究(见此处提供了一些有关一般方法的背景知识)。在本例中,我们从 Google-US 收集了大约 14,000 个关键词的前 50 个结果。这产生了大约 600,000 个页面,然后我们抓取了这些页面并计算出许多不同的相似度分数。


可以看出,语言模型方法表现最佳,平均 Spearman 相关性为 0.10,与研究文献中发表的结果一致。

如果我们首先对查询和文档进行一些词干提取并重新计算,相关性会全面略有增加:


这表明谷歌在其相关性计算中确实做了某种类型的词汇规范化或词干提取。