BibGenie がライブラリを理解する仕組み
Embedding とは何か、BibGenie がセマンティック検索にどう使うか、インデックス化が論文発見をどう改善するかを説明します。
このページの目的
BibGenie で検索するとき、目的は入力した語と完全に同じ言葉を含む論文を見つけることだけではありません。多くの場合、用語が異なっていても、同じアイデアについて書かれた 論文を見つけたいはずです。
そこで embeddings と indexing が役立ちます。
Embedding とは?
Embedding は、テキストを意味を捉えた数値表現に変換する方法です。
背後の数学を理解する必要はありません。実用上の考え方はシンプルです。
- 似たテキストは似た embedding を生成しやすい
- 異なるトピックはより離れた embedding になりやすい
- これにより BibGenie は、正確な語句だけでなく意味を比較できます
たとえば、drug discovery with knowledge graphs についての論文は、語句が完全に一致していなくても、graph methods for biomedical research と検索したときに見つかる可能性があります。
BibGenie が embedding を使う方法
BibGenie は現在、通常の Zotero アイテムの タイトル と 要旨 からセマンティック検索を構築します。
流れは次のとおりです。
- BibGenie が論文のタイトルと要旨を読み取ります。
- そのテキストを embedding に変換します。
- 結果を Zotero ライブラリ用のローカル検索インデックスに保存します。
- トピック型の質問をすると、BibGenie は検索クエリも embedding に変換します。
BibGenieドキュメント