BibGenie がライブラリを理解する仕組み
Embedding とは何か、BibGenie がセマンティック検索にどう使うか、インデックス化が論文発見をどう改善するかを説明します。
このページの目的
BibGenie で検索するとき、目的は入力した語と完全に同じ言葉を含む論文を見つけることだけではありません。多くの場合、用語が異なっていても、同じアイデアについて書かれた 論文を見つけたいはずです。
そこで embeddings と indexing が役立ちます。
Embedding とは?
Embedding は、テキストを意味を捉えた数値表現に変換する方法です。
背後の数学を理解する必要はありません。実用上の考え方はシンプルです。
- 似たテキストは似た embedding を生成しやすい
- 異なるトピックはより離れた embedding になりやすい
- これにより BibGenie は、正確な語句だけでなく意味を比較できます
たとえば、drug discovery with knowledge graphs についての論文は、語句が完全に一致していなくても、graph methods for biomedical research と検索したときに見つかる可能性があります。
BibGenie が embedding を使う方法
BibGenie は現在、通常の Zotero アイテムの タイトル と 要旨 からセマンティック検索を構築します。
流れは次のとおりです。
- BibGenie が論文のタイトルと要旨を読み取ります。
- そのテキストを embedding に変換します。
- 結果を Zotero ライブラリ用のローカル検索インデックスに保存します。
- トピック型の質問をすると、BibGenie は検索クエリも embedding に変換します。
- クエリとインデックス済み論文を比較し、もっとも近い一致を返します。
そのためセマンティック検索は、言葉が一致するだけでなく、意味として関連する論文を見つけられます。
Indexing とは?
Indexing は、セマンティック検索を高速で実用的にするための準備段階です。
検索のたびにすべてを再計算するのではなく、BibGenie はまずライブラリ用の embedding ローカルインデックスを準備します。インデックスが存在すれば、BibGenie は論文全体をはるかに効率よく検索できます。
要するに:
- Embedding は BibGenie が意味を表現する助けになります
- Indexing は BibGenie がその意味をすばやく検索する助けになります
何に役立ちますか?
セマンティックインデックスは、次のような場合に特に役立ちます。
- 研究テーマに関連する論文を探す
- 同じようなアイデアを別の言葉で扱う研究を見つける
- 方法、理論、問題領域を探索する
- 大規模な Zotero ライブラリをより自然に検索する
正確な著者、タイトル、用語、フレーズが分かっている場合は、キーワード検索も依然として有用です。質問が概念的な場合は、セマンティック検索のほうが役立ちます。
含まれるコンテンツ
BibGenie が現在使用するもの:
- 論文タイトル
- 論文要旨
BibGenie は現在、次の内容からセマンティックインデックスを構築していません。
- PDF 全文
- ノート
- 注釈
- 添付ファイル
これにより、インデックス化は焦点が明確で、予測可能かつ高速になります。
インデックスは頻繁に再構築する必要がありますか?
通常は ありません。
多くの場合、ライブラリが変わると BibGenie がバックグラウンドで自動的にインデックス更新を処理します。論文の追加、レコードの変更、アイテムの削除があっても、必要な更新は通常 BibGenie が行います。
次のような場合は、インデックスの再構築を検討してください。
- セマンティックインデックスを初めて設定するとき
- 別の embedding モデルへ切り替えたあと
- 大量インポート後、結果が不完全または古いように見えるとき
- BibGenie が現在のインデックスに注意が必要だと表示したとき
- セマンティック結果が明らかにおかしく、きれいに作り直したいとき
基本ルール
セマンティック検索が通常どおり動作しているなら、基本的に何もする必要はありません。アプリが提案したとき、または結果が期待と合わなくなったときだけ再構築してください。
Indexing ページのボタンの意味
Build / Rebuild
初回のインデックス作成、または必要に応じた完全な再構築を行います。
使う場面:
- 初めてインデックスを設定する
- embedding モデルを変更した
- インデックス全体を更新したい
Retry Failed Items
過去のインデックス作成で失敗した論文だけを再試行します。
使う場面:
- 失敗したアイテム数が 0 より大きい
- 完全な再構築の前に、軽い回復手順を試したい
よくある質問
次のステップ
- インデックスの状態確認とトラブルシューティング:Semantic Index
- 実際にセマンティック検索を使う方法:Literature Search
BibGenieドキュメント