ai 10 min • intermediate

Déployer une Pile de Mémoire Ancrée de Zéro à la Production

Un guide de construction étape par étape avec réglage de récupération, suites d'évaluation, gouvernance et contrôle des coûts

Par AI Research Team
Déployer une Pile de Mémoire Ancrée de Zéro à la Production

Déployer une Pile de Mémoire Fondée de Zéro à la Production

Les systèmes de mémoire fondée sont passés des démonstrations en laboratoire à des modèles de production, propulsés par des récupérations hybrides et des mémoires stratifiées qui réduisent de manière mesurable les hallucinations et améliorent les résultats des tâches lorsqu’ils sont associés à des preuves vérifiables et des politiques de lecture/écriture fondées sur des principes [1,2,3]. L’état de l’art actuel combine des récupérations denses et clairsemées, un reranking à l’aide de cross-encoders, et un service de long contexte efficace pour équilibrer précision, latence et coût, avec une provenance et des contrôles de confidentialité de qualité audit intégrés [1,2,17,20–24,39].

Cet article est un guide étape par étape et un manuel des meilleures pratiques pour livrer une pile de mémoire fondée. Nous définirons l’étendue des données et des critères de réussite; mettrons en place une pile minimale viable avec un modèle ajusté par instruction ou de long contexte sur vLLM; ajusterons la récupération et le reranking avec une validation de type BEIR/KILT; mettrons en œuvre des politiques de mémoire qui contrôlent la croissance; appliquerons le rattachement et la surveillance; créerons un harnais d’évaluation; configurerons la gouvernance; et mettrons en production avec un sharding, un stockage échelonné, des tâches de fond et l’observabilité [1,2,17,20–27,39,42,57].

À la fin, vous aurez une feuille de route pour passer de zéro à la production avec des traces reproductibles, une évaluation rigoureuse, et des garde-fous pour les coûts — sans sacrifier la sécurité ou la confidentialité.

Détails d’Architecture/Implémentation

Définition du projet et cartographie des données

Commencez par définir les tâches cibles, les sources de vérité, les frontières de confidentialité et les indicateurs de succès.

  • Sources de vérité: Les KBs organisées, la documentation, les historiques de tickets, les bases de code et les API autorisées doivent être explicitement cartographiées et connectées via des outils; les conceptions hybrides qui combinent la recherche vectorielle sur du contenu non structuré avec des requêtes structurées vers des systèmes de source de vérité dominent à grande échelle [1,3].
  • Frontières de confidentialité: Identifiez les PII et les champs sensibles dès le départ; prévoyez la détection/l’occultation avant l’intégration ou la pérennité (par exemple, Microsoft Presidio) et segmentez par locataire avec des ACL de niveau ligne/champ dans les magasins vectoriels [20–24,44].
  • Indicateurs de succès: Pour les tâches de long contexte et intensives en connaissances, suivez la pertinence (couverture des preuves et fidèlité), la calibration, la latence/le débit et le coût par tâche; pour les flux de travail inter-session, mesurez les taux de rappel et de contradiction [10–16,25,40].

Configuration d’une pile minimale viable

Une référence de pile de mémoire fondée inclut:

  • Modèle et service: Choisissez un LLM ajusté par instruction ou de long contexte et déployez-le avec le PagedAttention de vLLM pour un haut débit, un regroupement continu et un cache de préfixe; combinez avec des noyaux d’attention efficaces tels que FlashAttention-2 pour réduire la latence et l’empreinte mémoire [17,62]. L’attention en flux ou en anneau peut également stabiliser le débit pour les longs contextes [18,19].
  • Récupération hybride: Mettez en place un pipeline clairsemé-dense (BM25 + représentations denses) avec un reranker cross-encoder. Ce modèle améliore constamment la précision/le rappel et la pertinence avec des citations lorsqu’il est ajusté sur les tâches BEIR et KILT [1,26,27].
  • Stockage: Utilisez une base de données vectorielle de production qui prend en charge l’ANN (HNSW/IVF), la recherche hybride, les filtres de métadonnées (locataire/temps/modalité/mots-clés PII) et le sharding horizontal — les options incluent Pinecone, Weaviate, Milvus, Qdrant, ou Chroma; FAISS est une solide bibliothèque locale [20–24,22,58]. Pour les charges de travail transactionnelles + vectorielles unifiées à une échelle modérée, pgvector ou LanceDB sont viables; à très grande échelle sur des disques rotatifs, l’indexation de type DiskANN peut contrôler la latence/l’empreinte [59–61].
  • Mémoire stratifiée: Maintenez la mémoire de travail (cache d’instruction/KV), la mémoire épisodique (événements utilisateur/tâche horodatés), et la mémoire sémantique (faits/compétences avec provenance). La mémoire sémantique devrait être structurée pour une recherche exacte et une auditabilité (par ex., graphes de connaissances, magasins relationnels) aux côtés des magasins vectoriels pour le rappel non structuré [1–3].

Flux de travail de réglage de la récupération

Construisez un pipeline de récupération reproductible avant d’ajouter une complexité agentique.

  • Préparation et découpage du corpus: Alignez les morceaux à des unités sémantiques (paragraphes/sections pour docs; fonctions/classes pour code; limites de transaction/session pour journaux) pour préserver la cohérence.
  • Indexation et filtres: Étiquetez chaque morceau avec URI, horodatage, hash de contenu, locataire, modalité et drapeaux PII pour permettre la gouvernance et un classement sensible à la fraîcheur.
  • Validation: Évaluez les récupérateurs et rerankers sur les tâches BEIR et KILT, qui mesurent la qualité de la récupération et la justesse bout-en-bout avec attribution; ajoutez HotpotQA pour un raisonnement multi-hop si applicable [26–28].
  • Calibration: Réglez les paramètres du récupérateur dense, les poids MMR/diversité et le seuil du cross-encoder pour minimiser la longueur du contexte tout en maximisant la précision/le rappel des preuves [1,27].

Mise en œuvre des politiques de mémoire

Contrôlez la croissance et l’interférence avec des politiques d’écriture/lecture/décroissance fondées sur des principes.

  • Politiques d’écriture: Évaluez les mémoires candidates par importance, nouveauté, utilité prédite et pertinence signalée par l’utilisateur; les contrôleurs de type bandit peuvent apprendre des seuils sous contraintes de coût. Évitez d’écrire du contenu spéculatif/non vérifié; préférez la récupération à la demande.
  • Politiques de lecture: Utilisez la récupération multi-pool (tampon épisodique récent, profil sémantique personnel, KB globale, et outils) et appliquez MMR ou une sélection sous-modulaire pour équilibrer pertinence et diversité; incorporez la décroissance basée sur l’âge et le poids de récence.
  • Déduplication et compression: Appliquez LSH/MinHash/SimHash pour la détection des doublons proches; regroupez et fusionnez les mémoires similaires. Utilisez la synthèse hiérarchique et la compression (par ex., LLMLingua) pour produire des résumés denses tout en préservant les entités clés, dates, et décisions; assurez-vous que les résumés portent une provenance. L’indexation hiérarchique de type RAPTOR peut augmenter le rappel/précision sur des corpus longs ou hétérogènes.

Harnais de Réglage de la Récupération, de Vérification et d’Évaluation

Vérification et surveillance

Faites de la provenance une priorité et surveillez en continu la fidélité.

  • Provenance: Chaque morceau récupéré doit inclure un URI, un horodatage et un hash de contenu; les générations doivent citer explicitement les sources près des revendications. Adoptez les concepts W3C PROV pour représenter les dérivations et les agents/outils responsables pour l’auditabilité.
  • Critique et vérification: Entraînez la politique à récupérer-puis-critiquer (par exemple, Self-RAG) pour réduire les hallucinations et améliorer la couverture des preuves; entremêlez le raisonnement avec la récupération/la navigation médiée par les outils (ReAct) pour vérifier les étapes intermédiaires et obtenir des données fraîches [2,3].
  • Métriques automatiques et calibration: Intégrez RAGAS pour la fidélité, la pertinence des réponses et la précision/le rappel des preuves; connectez les scores de récupération et les résultats de vérification. Calibrez les confiances via la mise à l’échelle de la température, le vote de cohérence interne, ou les estimations basées sur le reranking pour améliorer les décisions d’abstention/re-routage; stockez les confiances par revendication et les IDs de preuve pour les audits [25,40,41].

Harnais d’évaluation et reproductibilité

Adoptez un harnais bout-en-bout qui couvre les longs contextes, le rappel multi-session, et les tâches agentiques.

  • Long-contexte: Utilisez LongBench, SCROLLS, RULER, L-Eval, et InfiniteBench pour sonder le raisonnement et le rappel avec de grandes entrées; ajoutez des sondes Needle-in-a-Haystack pour tester le rappel sélectif sous bruit [10–13,51,52].
  • Inter-sessions: Évaluez la cohérence et le rappel multi-session avec MSC; suivez la proportion de faits/préférences requis rappelés et les taux de contradictions.
  • Tâches web agentiques et codage: Pour les tâches web, utilisez WebArena et Mind2Web avec journalisation de la précision de l’outil et de l’utilisation sécurisée de l’outil; pour le codage basé sur le dépôt, utilisez SWE-bench pour mesurer la résolution bout-en-bout ancrée dans la base de code réelle [15,16,65].
  • Traçabilité: Utilisez des harnais ouverts tels que TruLens et Haystack pour tracer les contextes de récupération, les prompts, les graines, et les actions des outils afin d’assurer la reproductibilité et le diagnostic; incluez les latences par étape p50/p95, les jetons/seconde, et le calcul de coût par tâche [54,55].

Schémas de Gouvernance et de Mise en Production

Sauvegardes, conformité et contrôle d’accès

Expédiez avec des contrôles de sécurité et de confidentialité activés par défaut.

  • Détection et occultation de PII: Détectez et occultez les PII avant l’ingestion ou la pérennité; lorsque la ré-identification est autorisée, utilisez des jetons réversibles avec un strict audit. Évitez d’encoder les PII brutes autant que possible; si inévitable, cryptez au repos et en transit, et segmentez par locataire avec des ACL de niveau ligne/champ dans les magasins vectoriels [20–24,58].
  • Droit à l’oubli: Mettez en œuvre des flux de travail de suppression qui propagent des tombes à travers les index, les caches, et les sauvegardes (y compris les graphes ANN) pour la conformité au RGPD; maintenez des logs d’audit complets, alignés sur la provenance [39,45].
  • Cartographie des contrôles: Alignez les politiques avec HIPAA (PHI), NIST SP 800-53 (accès/audit/réponse aux incidents), NIST AI RMF (risque du cycle de vie), ISO/IEC 42001 (gestion de l’IA), et les obligations basées sur le risque de la loi AI de l’UE, y compris la transparence et la supervision humaine [46–48,67,70].

Productionisation et contrôles des coûts

Concevez pour l’échelle, la résilience, et l’efficacité dès le premier jour.

  • Sharding et espaces de noms: Partitionnez par locataire/utilisateur, projet/domaine, et modalité pour réduire l’interférence et assurer la confidentialité; maintenez des logs en ajout seulement avec des suppressions douces et un versionnage pour l’auditabilité.
  • Stockage échelonné: Gardez des caches chauds pour les articles récents/de haute valeur, des index vectoriels chauds pour le contenu actif, et un stockage d’objet froid pour les archives afin d’équilibrer latence et coût; suivez les versions de modèles d’intégration pour éviter la dérive de distribution [20–24].
  • Tâches en arrière-plan: Exécutez la consolidation (synthèse hiérarchique/résumés), le recrawling des sources, et la re-indexation pendant les fenêtres creuses; marquez les artefacts obsolètes et déclenchez la re-vérification lorsque les sources amont changent [42,57].
  • Efficacité du service et observabilité: Utilisez vLLM avec PagedAttention et FlashAttention-2; envisagez le décodage spéculatif pour réduire encore plus la latence. Observez les traces de récupération, les latences par étape, les budgets de jetons, et le coût par tâche; ciblez des scénarios de concurrence réalistes [17,62].

Livres de procédures et Pratiques SRE

Les systèmes de mémoire fondée nécessitent des manuels d’opérations explicites.

  • Réponse aux incidents pour les mauvaises écritures: Mettez en quarantaine les mémoires suspectes, revenez aux derniers points de contrôle connus comme bons et relancez les tests par revendication; préférez l’édition des mémoires externes avec versionnage et provenance. Pour les faits d’urgence intégrés dans le modèle, des éditeurs paramétriques tels que ROME ou MEMIT peuvent appliquer des mises à jour localisées, suivies de vérifications de régression pour les effets collatéraux [36–38].
  • Édits de mémoire et retour en arrière: Maintenez des logs en ajout seulement avec des éditions diffs et des suppressions douces; stockez les hashes de contenu et les horodatages pour la reproductibilité; implémentez des copies d’ombres lors des tests d’édition pour éviter la contamination inter-locataire.
  • Vérifications d’interférence: Après consolidations ou éditions, exécutez la précision pré/post sur des connaissances et des sondes de sécurité mises de côté pour détecter l’oubli ou l’interférence; suivez les décalages de calibration et les deltas de pertinence (via RAGAS).
  • Garde-fous de coût: Appliquez des budgets par étape (appels récupérateurs, jetons, utilisation d’outil/API); utilisez la synthèse hiérarchique et la compression de prompts pour contenir les coûts en jetons; ajustez la profondeur de critique/vérification en fonction de la tolérance au risque et tracez le succès des tâches par rapport au budget de jetons.

Tableaux Comparatifs

Choix de conception principaux et quand les préférer

Choix de conceptionImpact sur la précisionImpact sur la latence/coûtImpact sur la sécurité/confidentialitéQuand préférer
Modèle de long-contexte (grande fenêtre) [10,17–19,62]Améliore la cohérence/rappel local du contexte récent; nécessite toujours une récupération pour l’étendueCoût/latence par jeton plus élevé; atténué par une attention et un service optimisésNeutre pour la confidentialitéDocuments courts, besoins élevés en cohérence locale
Hybride RAG (BM25 + dense + cross-encoder) [1,27]Gains importants en précision/rappel et rattachement avec citationsAjoute de la latence de récupération; réduit les jetons de génération via des preuves concisesPositif: provenance vérifiableTâches intensives en connaissances sur de grands corpus
Récupération augmentée par graphe (GraphRAG)Meilleur raisonnement multi-hop, désambiguïsation; résultats favorisant les citationsConstruction de graphe hors ligne; coût de requête modéréPositif: schéma/provenance explicitesDomaines procéduraux/relationnels
Critique/vérification Self-RAGRéduit les hallucinations; améliore la couverture des preuvesÉtapes d’outil/modèle supplémentaires augmentent p95Positif: moins de revendications non sécuriséesDomaines à enjeux élevés, faible tolérance à l’erreur
Synthèse hiérarchique (LLMLingua, RAPTOR) [42,57]Préserve les infos saillantes; certains risques de nuanceFaible coût de lecture si pré-calculéNeutre; dépend de la rétention de provenanceLongs fils, historiques multi-sessions
Isolation des espaces de noms + logs en ajout seulementRéduit l’interférence/contamination inter-locataireFaible surcharge d’exécutionPositif fort: confidentialité, auditabilitéCharges multi-locataires, réglementées
vLLM + FlashAttention-2 [17,62]Neutre pour la précision; permet un plus grand regroupement/contexteAméliorations significatives du débit/latenceNeutreService en ligne à grande échelle

Meilleures Pratiques

  • Commencez par la provenance: Attachez l’URI/l’horodatage/le hash de contenu à chaque morceau et exigez une citation à proximité des revendications; adoptez des enregistrements alignés W3C PROV pour l’auditabilité.
  • Réglez la récupération avant les prompts: Validez les pipelines BM25+denses+reranker sur BEIR/KILT et itérez sur les schémas de découpage/fenêtrage alignés sur des unités sémantiques [1,26,27].
  • Écrivez moins, récupérez plus: Utilisez des seuils de saillance et de nouveauté, avec une allocation de type bandit sous contrainte de coût; évitez les écritures spéculatives; privilégiez la récupération.
  • Contrôlez la croissance: Dédupliquez avec LSH/MinHash/SimHash; regroupez et fusionnez; planifiez des cadences de synthèse hiérarchique (session → hebdomadaire → mensuelle) et conservez la provenance dans les résumés.
  • Calibrez et abstenez-vous: Enregistrez les confiances par revendication, appliquez la mise à l’échelle de la température et le vote de cohérence interne, et router/abstenez-vous lorsque la confiance est faible [40,41].
  • Évaluez bout-en-bout: Combinez des suites long-contexte (LongBench/SCROLLS/RULER/L-Eval/InfiniteBench) avec des sondes Needle, des tests MSC multi-session, et des tâches de domaine (WebArena/Mind2Web/SWE-bench); stockez les graines, les prompts, les contextes de récupération, et les actions des outils pour la reproductibilité [10–16,51,52,65].
  • Gouvernez par conception: Effectuez la détection/l’occultation de PII avant l’intégration; appliquez des ACL de niveau ligne/champ; réalisez des suppressions conformes au RGPD avec des tombes dans les index et les caches; alignez avec HIPAA/NIST/ISO/l’Acte AI de l’UE, selon le cas [20–24,45–48,67,70].
  • Observez tout: Émettez des traces de récupération, l’utilisation des jetons, les latences par étape, et le coût par tâche; surveillez l’interférence/l’oubli via des sondes pré/post et la pertinence via RAGAS.

Exemples Pratiques

Bien que les extraits de code concrets et les benchmarks propriétaires ne soient pas fournis dans le rapport de recherche, le parcours de déploiement suivant décrit une progression reproductible de MVP à production fondée sur les pratiques citées:

  • Semaine 1 MVP: Déployez un modèle ajusté par instruction ou de long contexte sur vLLM avec PagedAttention; activez FlashAttention-2 pour des accélérations de noyau. Mettez en place une BD vectorielle (par ex., Pinecone/Weaviate/Milvus/Qdrant/Chroma) et un index BM25; ajoutez un reranker cross-encoder. Instrumentez les traces de récupération et la comptabilité des jetons dès le premier jour [1,17,20–24,27,62].
  • Préparation du corpus: Découpez les documents par unités sémantiques (sections/paragraphes) et étiquetez chaque morceau avec URI, horodatage, hash de contenu, locataire, modalité, et drapeaux PII. Effectuez la détection/l’occultation de PII avant l’intégration. Indexez avec ANN (HNSW/IVF) et activez les filtres de métadonnées par locataire/temps [39,44].
  • Réglage de la récupération: Validez sur les tâches BEIR/KILT; réglez les paramètres du récupérateur dense et les poids/variance MMR; calibrez les seuils du cross-encoder pour réduire la longueur du contexte sans perdre en précision/le rappel des preuves. Ajoutez des sondes Needle-in-a-Haystack pour capter les échecs “perdus dans le milieu” [13,26,27].
  • Politiques de mémoire: Mettez en œuvre des scores de saillance/novelty pour les écritures; activez la déduplication LSH/MinHash/SimHash; planifiez des cadences de synthèse hiérarchique (session → hebdomadaire → mensuelle) à l’aide de techniques de compression qui préservent les entités, dates, et décisions avec provenance.
  • Vérification et critique: Exigez des citations par revendication; adoptez des boucles de récupérez-générez-critiques de type Self-RAG pour augmenter la couverture des preuves; entremêlez l’utilisation d’outils de style ReAct pour la fraîcheur et la vérification [2,3].
  • Harnais d’évaluation: Ajoutez LongBench/SCROLLS/RULER et InfiniteBench pour le raisonnement au long-contexte; MSC pour le rappel multi-session; WebArena/Mind2Web (et SWE-bench pour le codage) pour les tâches de bout-en-bout. Utilisez TruLens/Haystack pour stocker les graines, les prompts, les contextes de récupération, et les actions des outils pour la reproductibilité et le diagnostic [10–16,51,52,54,55,65].
  • Gouvernance: Appliquez des ACL de niveau ligne/champ dans les magasins vectoriels; réalisez des pipelines de suppression conformes au RGPD avec des tombes dans les index et les caches; maintenez des logs d’audit alignés sur W3C PROV; alignez avec HIPAA/NIST/ISO/loi AI de l’UE selon le cas [39,45–48,58,67,70].
  • Productionisation: Répartissez par locataire/projet; utilisez le stockage échelonné (caches chauds, index vectoriels chauds, stockage froid d’objets); planifiez la consolidation de fond, le resurfaçage et le ré-indexage; surveillez les latences p50/p95 par étape, les jetons/seconde, et le coût par tâche sous une concurrence réaliste [17,20–24].
  • Livres de procédures: Définissez la réponse aux incidents pour les mauvaises écritures (quarantaine, rollback, re-vérification). Préférez les éditions de mémoire externe avec versionnage et provenance; pour les correctifs paramétriques urgents, utilisez des éditeurs localisés (ROME/MEMIT) suivis de vérifications de régression pour l’interférence/l’oubli [36–38].

Conclusion

Les piles de mémoire fondée mélangent la mémoire stratifiée avec la récupération hybride, la provenance vérifiable, et les politiques disciplinées d’écriture/lecture/décroissance — toutes servies efficacement et gouvernées rigoureusement. La voie de zéro à la production commence par la cartographie des données et le réglage de la récupération, puis ajoute la surveillance pour la pertinence et la calibration, un harnais d’évaluation couvrant les tâches long-contexte et agentiques, et des schémas de gouvernance plus productionisation qui s’adaptent avec des contrôles de coût et une auditabilité [1,2,17,20–27,39].

Points clés:

  • La récupération hybride avec reranking, plus récupérez-puis-critiquer, est la manière la plus fiable pour améliorer la pertinence et réduire les hallucinations [1,2,27].
  • La provenance (URI/horodatage/hash) et la surveillance basée sur RAGAS devraient être prioritaires, non accessoires [25,39].
  • La croissance de la mémoire doit être gérée via des écritures conscientes de la saillance, la déduplication, et la synthèse hiérarchique avec la provenance préservée [4,42,57].
  • Évaluez de bout-en-bout avec des suites de tâches long-contexte, multi-session, et agentiques; stockez des traces complètes pour la reproductibilité [10–16,51,52,54,55].
  • Gouvernez par conception: l’occultation des PII, les ACL, la suppression conforme au RGPD, et la journalisation des audits sont obligatoires en production [44,45,58].

Prochaines étapes: Mettez en place la pile MVP avec vLLM et un récupérateur hybride; exécutez l’ajustement BEIR/KILT; activez la provenance et RAGAS; intégrez les sondes LongBench/Needle et une suite de tâches de domaine; puis itérez les seuils de saillance, la cadence de synthèse, et la profondeur de critique tout en suivant le coût par tâche et les latences p95. En regardant vers l’avenir, la récupération augmentée par graphe et une calibration de confiance plus robuste promettent un rattachement et une fiabilité encore plus solides à mesure que les corpus, les modalités et les exigences réglementaires s’élargissent [40,56].

Sources & Références

arxiv.org
A Survey on Retrieval-Augmented Generation for Large Language Models Supports the hybrid RAG pattern (dense + sparse + re-ranking), tuning guidance, and benefits on groundedness essential to the minimal viable stack and best practices.
arxiv.org
Self-RAG: Learning to Retrieve, Generate, and Critique for Improving Language Models Provides the retrieve‑then‑critique strategy to reduce hallucinations and improve evidence coverage used in grounding and monitoring.
arxiv.org
ReAct: Synergizing Reasoning and Acting in Language Models Informs tool‑mediated retrieval/browsing interleaved with reasoning for verification and freshness during grounding.
arxiv.org
vLLM: PagedAttention Specifies high‑throughput serving, continuous batching, and prefix caching for efficient long‑context deployment in the minimal viable stack.
arxiv.org
FlashAttention-2 Details optimized attention kernels that reduce latency and memory, central to serving efficiency and cost controls.
arxiv.org
StreamingLLM Provides techniques for handling long sequences with stable throughput, relevant to long-context serving design.
arxiv.org
Ring Attention Offers additional attention optimizations for long-context serving under production constraints.
docs.pinecone.io
Pinecone documentation Represents production vector DB capabilities (ANN, hybrid search, metadata filters, ACLs) used in storage design.
weaviate.io
Weaviate documentation Supports the vector store feature set and governance-relevant capabilities referenced in productionization.
github.com
FAISS Provides high-performance local ANN indexing referenced for retrieval infrastructure.
milvus.io
Milvus documentation Another production vector DB option supporting hybrid retrieval and governance features.
docs.trychroma.com
Chroma documentation Lightweight vector DB option for MVP setups in the storage layer.
qdrant.tech
Qdrant documentation Vector DB reference for ANN, hybrid search, and metadata filtering used in the stack.
github.com
pgvector Supports the unified transactional + vector workload option at moderate scale.
lancedb.github.io
LanceDB documentation Alternative for combined vector and data management at moderate scale in production patterns.
www.microsoft.com
DiskANN Covers graph-on-disk indexing to control latency/footprint at very large scale.
arxiv.org
KILT One of the core retrieval/QA benchmarks used for validation and tuning.
arxiv.org
BEIR Benchmark suite for evaluating retrieval quality that guides re-ranker calibration.
arxiv.org
HotpotQA Provides multi-hop retrieval/QA evaluation relevant to retrieval tuning.
github.com
RAGAS Supplies automatic groundedness metrics for monitoring faithfulness and evidence coverage.
www.w3.org
W3C PROV Overview Defines provenance standards used to audit retrieval/generation pipelines with URI/timestamp/hash tracking.
arxiv.org
LLaVA Supports multimodal memory considerations mentioned as part of production design (modality tagging and provenance).
arxiv.org
LLMLingua Informs compression strategies used in hierarchical summarization to control token budgets.
arxiv.org
RAPTOR Introduces hierarchical indexing that boosts recall/precision for long or heterogeneous corpora.
github.com
Microsoft GraphRAG (repository) Demonstrates graph-augmented retrieval for multi-hop reasoning and citation-friendly outputs.
arxiv.org
MemPrompt: Memory-Augmented Prompting for LLMs Provides the salience-aware write policy framework for allocating write budgets.
github.com
Needle-in-a-Haystack test Used in the evaluation harness to assess selective recall under noise in long contexts.
arxiv.org
LongBench Core long-context benchmark for assessing reasoning/recall with large inputs.
arxiv.org
SCROLLS Additional long-context benchmark to probe sequence understanding.
arxiv.org
RULER Benchmark for long-context evaluation included in the recommended harness.
arxiv.org
L-Eval Another long-context evaluation suite for coverage in the harness.
arxiv.org
InfiniteBench Evaluates model behavior at extreme context lengths used in evaluation.
github.com
Multi-Session Chat (MSC) dataset Measures cross-session recall and consistency for multi-session memory evaluation.
arxiv.org
WebArena Agentic web task suite for end-to-end evaluation of retrieval and tool use.
arxiv.org
Mind2Web Additional agentic web task suite to evaluate planning, retrieval, and tool usage.
www.trulens.org
TruLens Open evaluation/tracing framework for reproducible runs with stored prompts and retrieval contexts.
haystack.deepset.ai
Haystack Framework supporting tracing and evaluation of retrieval pipelines in a reproducible manner.
github.com
Microsoft Presidio PII detection/redaction tool recommended for safeguarding embeddings and stored content.
gdpr-info.eu
GDPR Article 17 Right-to-be-forgotten requirement informing deletion workflows across indexes and caches.
www.hhs.gov
HIPAA (HHS) Regulatory framework for handling PHI referenced in governance configuration.
csrc.nist.gov
NIST SP 800-53 Rev. 5 Control framework for access/audit/incident response used to shape governance and SRE practices.
www.iso.org
ISO/IEC 42001:2023 AI management system standard relevant to governance configuration.
www.consilium.europa.eu
EU AI Act (Council of the EU overview) Provides risk-based obligations for AI systems applied to governance design.
arxiv.org
Calibrate Before Use Guides confidence calibration (temperature scaling) for improved abstention/routing in monitoring.
arxiv.org
Self-Consistency Improves Chain of Thought Reasoning Supports calibration via self-consistency voting in uncertainty tracking.
arxiv.org
ROME: Locating and Editing Factual Associations in GPT Parametric editing approach for urgent fixes with post-edit regression checks in runbooks.
arxiv.org
MEMIT: Mass-Editing Memory in a Transformer Further details on parametric editing and risks of interference requiring regression tests.
arxiv.org
SERAC: Editing Models with Task Arithmetic Additional editing method informing the playbook for safe model updates.
crdt.tech
CRDTs Supports append-only, conflict-free logs and synchronization for multi-agent or multi-device memory systems.

Ad space (disabled)