BibGenie 如何理解你的文献库
了解什么是 embedding,BibGenie 如何用它进行语义检索,以及 indexing 为什么能提升找论文的效果。
为什么需要这篇说明
当你在 BibGenie 里搜索文献时,你很多时候并不只是想找“包含同样关键词的论文”,而是想找“讨论相近问题、方法或主题的论文”。
这就是 embedding 和 indexing 发挥作用的地方。
什么是 embedding?
可以把 embedding 理解成一种把文本转换为“可比较表示”的方式。 它不是简单提取关键词,而是尽量保留文本的语义信息。
你不需要关心背后的数学细节,只需要理解这几点:
- 语义相近的文本,embedding 通常也更接近
- 主题差异较大的文本,embedding 通常距离更远
- 这样 BibGenie 就可以比较“意思是否相近”,而不只是比较“字面是否一样”
比如,一篇论文写的是 knowledge graphs for drug discovery,另一篇写的是 graph-based methods in biomedical research。即使它们的用词不完全相同,BibGenie 仍然可能判断它们在主题上接近。
BibGenie 是如何使用 embedding 的?
BibGenie 当前会基于 Zotero 中 regular item 的 标题 和 摘要 来建立语义检索能力。
大致流程是这样的:
- BibGenie 读取一篇论文的标题和摘要
- 把这些文本转换成 embedding
- 将结果保存到你本地文献库对应的索引中
- 当你输入一个研究主题或问题时,BibGenie 也会把你的查询转换成 embedding
- 然后将查询与已索引论文进行比较,返回最接近的结果
因此,BibGenie 能做的不只是关键词匹配,而是更接近“按主题找论文”。
BibGenie 文档