Comment BibGenie comprend votre bibliothèque
Découvrez ce que sont les embeddings, comment BibGenie les utilise pour la recherche sémantique et pourquoi l'indexation améliore la découverte d'articles.
Pourquoi cette page existe
Lorsque vous recherchez dans BibGenie, l'objectif n'est pas seulement de trouver des articles contenant exactement les mêmes mots que ceux que vous avez saisis. Dans de nombreux cas, vous voulez que BibGenie trouve des articles portant sur la même idée, même s'ils utilisent une terminologie différente.
C'est là qu'interviennent les embeddings et l'indexation.
Qu'est-ce qu'un embedding ?
Un embedding est une façon de transformer un morceau de texte en représentation numérique qui capture son sens.
Vous n'avez pas besoin de comprendre les mathématiques sous-jacentes. L'idée pratique est simple :
- Les textes similaires ont tendance à produire des embeddings similaires
- Les sujets différents ont tendance à produire des embeddings plus éloignés
- Cela permet à BibGenie de comparer le sens, pas seulement les mots exacts
Par exemple, un article sur drug discovery with knowledge graphs peut tout de même être trouvé lorsque vous recherchez graph methods for biomedical research, même si les formulations ne sont pas identiques.
Comment BibGenie utilise les embeddings
BibGenie construit actuellement la recherche sémantique à partir du titre et du résumé de vos éléments Zotero classiques.
Le processus est le suivant :
- BibGenie lit le titre et le résumé d'un article.
- Il convertit ce texte en embedding.
- Il stocke le résultat dans un index de recherche local pour votre bibliothèque Zotero.
- Lorsque vous posez une question de type thématique, BibGenie convertit aussi votre requête en embedding.
- Il compare votre requête aux articles indexés et renvoie les correspondances les plus proches.
C'est pourquoi la recherche sémantique peut faire remonter des articles pertinents par leur sens, et pas seulement par leur formulation.
Qu'est-ce que l'indexation ?
L'indexation est l'étape de préparation qui rend la recherche sémantique rapide et pratique.
Au lieu de tout recalculer à chaque recherche, BibGenie prépare d'abord un index local d'embeddings pour votre bibliothèque. Une fois cet index créé, BibGenie peut chercher dans vos articles beaucoup plus efficacement.
En résumé :
- Embedding aide BibGenie à représenter le sens
- Indexation aide BibGenie à chercher rapidement dans ce sens
À quoi cela sert-il ?
L'indexation sémantique est particulièrement utile lorsque vous voulez :
- trouver des articles liés à un sujet de recherche ;
- découvrir des travaux qui emploient des termes différents pour une idée similaire ;
- explorer une méthode, une théorie ou un domaine problématique ;
- rechercher plus naturellement dans une grande bibliothèque Zotero.
La recherche par mots-clés reste utile lorsque vous connaissez l'auteur, le titre, le terme ou l'expression exacts. La recherche sémantique est plus utile lorsque votre question est conceptuelle.
Quel contenu est inclus ?
BibGenie utilise actuellement :
- les titres des articles ;
- les résumés des articles.
BibGenie ne construit pas actuellement cet index sémantique à partir de :
- texte intégral des PDF ;
- notes ;
- annotations ;
- pièces jointes.
Cela permet de garder l'indexation ciblée, prévisible et rapide.
Dois-je reconstruire souvent l'index ?
En général, non.
La plupart du temps, BibGenie gère automatiquement les mises à jour d'index en arrière-plan lorsque votre bibliothèque change. Si vous ajoutez des articles, modifiez des notices ou supprimez des éléments, BibGenie effectue généralement les mises à jour nécessaires.
Vous pouvez vouloir reconstruire l'index dans quelques situations :
- lors de la première configuration de l'indexation sémantique ;
- après le passage à un autre modèle d'embedding ;
- après une importation volumineuse, si les résultats semblent incomplets ou obsolètes ;
- si BibGenie indique que l'index actuel nécessite votre attention ;
- si les résultats sémantiques semblent clairement erronés et que vous voulez repartir d'une base propre.
Bonne règle par défaut
Si la recherche sémantique fonctionne normalement, vous n'avez généralement rien à faire. Ne reconstruisez l'index que lorsque l'application le suggère ou lorsque les résultats ne correspondent plus à vos attentes.
Que signifient les boutons de la page Indexing ?
Build / Rebuild
Crée l'index pour la première fois ou le reconstruit entièrement si nécessaire.
À utiliser lorsque :
- vous configurez l'indexation pour la première fois ;
- vous avez changé de modèle d'embedding ;
- vous voulez rafraîchir l'ensemble de l'index.
Retry Failed Items
Relance uniquement les articles qui ont échoué lors de précédentes tentatives d'indexation.
À utiliser lorsque :
- le nombre d'éléments en échec est supérieur à zéro ;
- vous voulez tenter une récupération légère avant une reconstruction complète.
Questions fréquentes
Prochaines étapes
- Vérifier l'état de l'index et résoudre les problèmes : Semantic Index
- Apprendre à utiliser la recherche sémantique en pratique : Literature Search
Documentation BibGenie