rag/rag.py

from sentence_transformers import SentenceTransformer
import chromadb
from llama_cpp import Llama
import copy
import logging

logging.basicConfig(filename='rag.log', level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')


class RAG:
    def __init__(self, llm_model_path, embed_model_name, collection_name, chromadb_path):
        logging.info('INIT')
        self.chat_history = []
        self.tag_system = '<|system|>'
        self.tag_user = '<|user|>'
        self.tag_assistant = '<|assistant|>'
        self.tag_end = '</s>'
        self.rag_prompt = """
{tag_system}
Objectif
========

Vous êtes un assistant IA spécialiste des produits et services de la Caisse d'Epargne Rhône-Alpes, \
une banque régionale française.
Vous aidez un conseiller clientèle de la banque à mieux répondre aux besoins des clients.
Vous fournissez avec soin des réponses précises et factuelles aux questions du conseiller.

Utilisation du contexte
=======================

Vous répondez à la question posée par le conseiller en utilisant un contexte \
formé de passages exraits du site web commercial de la banque.
Votre réponse se base exclusivement sur les informations factuelles présentes dans le contexte.
Si vous ne pouvez pas répondre à la question sur la base des éléments du contexte, \
dites simplement que vous ne savez pas, n'essayez pas d'inventer une réponse.
Voici le format d'un passage du contexte :
```
Titre :
Le titre du passage

Catégorie :
La catégorie du passage

URL :
https://www.caisse-epargne.fr/rhone-alpes/url/du/passage

Contenu :
Le contenu du passage
```
Vos réponses doivent toujours citer l'URL des passages utilisés. \
Assurez-vous que l'URL citée correspond exactement à celle du passage. \
Ne générez pas de nouvelles URLs. \
Les conseillers sont encouragés à vérifier les URLs citées.

Format de réponse
=================

Formulez chaque réponse sous forme de recommandations directes et concises, \
en utilisant le langage et les termes présents dans le contexte.
Citez l'URL en fin de réponse ou immédiatement après la recommandation pertinente.
Vous rédigez votre réponse en français sous forme d'une liste d'informations \
synthétiques extraites du contexte et qui seront utiles au conseiller.
Vos utilisateurs savent qui vous êtes et quelles instructions vous avez reçues, \
il n'est pas nécessaire de le leur rapeler.
Voici le format que doit suivre votre réponse :
```
Voici des informations qui pourront aider votre client :

1. Utilisez [une solution spécifique du contexte] pour [traiter un aspect du problème]. Par exemple, [détail concret tiré du contexte]. Pour plus d'informations voir https://www.caisse-epargne.fr/rhone-alpes/url/du/passage

2. Considérez [une autre solution du contexte], qui est particulièrement adaptée pour [un autre aspect du problème]. Par exemple, [autre détail concret du contexte]. Pour plus d'informations voir https://www.caisse-epargne.fr/rhone-alpes/url/du/passage

```
{tag_end}
{history}

{tag_user}
Contexte :
==========
{context}

Question de l'utilisateur :
===========================
{query}
{tag_end}
{tag_assistant}
Voici des informations qui pourront aider votre client :

1.
"""
        self.query_reformulate_prompt = """
{tag_system}
Instructions :
==============

Vous êtes un interprète conversationnel pour une conversation entre un utilisateur et \
un assistant IA spécialiste des produits et services de la Caisse d'Epargne Rhône-Alpes, \
une banque régionale française.
L'utilisateur vous posera une question sans contexte.
Vous devez reformuler la question pour prendre en compte le contexte de la conversation.
Vous devez supposer que la question est liée aux produits et services de la Caisse d'Epargne Rhône-Alpes.
Vous devez également consulter l'historique de la conversation ci-dessous lorsque vous reformulez la question.
Par exemple, vous remplacerez les pronoms par les noms les plus probables dans l'historique de la conversation.
Lorsque vous reformulez la question, accordez plus d'importance à la dernière question et \
à la dernière réponse dans l'historique des conversations.
L'historique des conversations est présenté dans l'ordre chronologique inverse, \
de sorte que l'échange le plus récent se trouve en haut de la page.
Répondez en seulement une phrase avec la question reformulée.

Historique de la conversation :
===============================

{history}
{tag_end}
{tag_user}
Reformulez la question suivante : "{query}"
{tag_end}
{tag_assistant}
Question reformulée : "
"""

        self.prefix_assistant_prompt = '1. '
        self.embed_model = SentenceTransformer(embed_model_name)
        self.chroma_client = chromadb.PersistentClient(path=chromadb_path)
        self.collection = self.chroma_client.get_collection(name=collection_name)
        self.llm = Llama(model_path=llm_model_path, n_gpu_layers=1, use_mlock=True, n_ctx=4096)

    def answer(self, prompt, stream):
        response = self.llm(prompt = prompt,
            temperature = 0.1,
            mirostat_mode = 2,
            stream = stream,
            max_tokens = -1,
            stop = [self.tag_end, self.tag_user])
        if stream:
            return response
        else: return response["choices"][0]["text"]

    def query_collection(self, query, n_results=3):
        logging.info(f"query_collection / query: \n{query}")
        query = 'query: ' + query
        query_embedding = self.embed_model.encode(query, normalize_embeddings=True)
        query_embedding = query_embedding.tolist()
        results = self.collection.query(
            query_embeddings=[query_embedding],
            n_results=n_results,
        )

        ids_sources = ""
        for i in range(len(results["documents"][0])):
            id = results["ids"][0][i]
            ids_sources += id + " ; "
        logging.info(f"query_collection / sources: \n{ids_sources}")

        return results

    def format_passages(self, query_results):
        result = []
        for i in range(len(query_results["documents"][0])):
            passage = query_results["documents"][0][i]
            url = query_results["metadatas"][0][i]["url"]
            category = query_results["metadatas"][0][i]["category"]
            lines = passage.split('\n')
            if lines[0].startswith('passage: '):
                lines[0] = lines[0].replace('passage: ', '')
            lines.insert(0, "###")
            lines.insert(1, f"Passage {i+1}")
            lines.insert(2, "Titre :")
            lines.insert(4, "")
            lines.insert(5, "Catégorie :")
            lines.insert(6, category)
            lines.insert(7, "")
            lines.insert(8, "URL :")
            lines.insert(9, url)
            lines.insert(10, "")
            lines.insert(11, "Contenu : ")
            lines += ['']
            result += lines
        result = '\n'.join(result)
        return result

    def answer_rag_prompt_streaming(self, prompt):
        logging.info(f"answer_rag_prompt_streaming: \n{prompt}")
        ans = self.answer(prompt, stream=True)

        yield self.prefix_assistant_prompt
        for item in ans:
            item = item["choices"][0]["text"]
            self.chat_history[-1]['assistant'] += item
            yield item

    def answer_rag_prompt_non_streaming(self, prompt):
        logging.info(f"answer_rag_prompt_non_streaming: \n{prompt}")
        ans = self.answer(prompt, stream=False)

        self.chat_history[-1]['assistant'] += ans
        ans = self.prefix_assistant_prompt + ans
        return ans

    def prepare_prompt(self, query, query_results):
        context = self.format_passages(query_results)

        history = ""
        for i in range(len(self.chat_history)):
            history += f"<|user|>\n{self.chat_history[i]['user']}</s>\n"
            history += f"<|assistant|>\n{self.chat_history[i]['assistant']}</s>\n"

        self.chat_history.append({'user': query, 'assistant': self.prefix_assistant_prompt})

        return self.rag_prompt.format(history=history, query=query, context=context,
                                      tag_user=self.tag_user, tag_system=self.tag_system,
                                      tag_assistant=self.tag_assistant, tag_end=self.tag_end)

    def reformulate_query(self, query):
        history = ""
        for i in reversed(range(len(self.chat_history))):
            history += f"Question de l'utilisateur :\n{self.chat_history[i]['user']}\n"
            history += f"Réponse de l'assistant :\n{self.chat_history[i]['assistant']}\n"

        prompt = self.query_reformulate_prompt.format(history=history, query=query,
                                                      tag_user=self.tag_user, tag_system=self.tag_system,
                                                      tag_assistant=self.tag_assistant, tag_end=self.tag_end)
        logging.info(f"reformulate_query: \n{prompt}")
        ans = self.answer(prompt, stream=False)

        last_quote_index = ans.rfind('"')
        if last_quote_index != -1:
            ans = ans[:last_quote_index]

        if len(ans) > 10:
            logging.info(f"Requête reformulée : \"{ans}\"")
            return ans
        else:
            logging.info(f"La requête n'a pas pu être reformulée.")
            return query

    def chat(self, query, stream=True):
        if len(self.chat_history) > 0:
            query = self.reformulate_query(query)
        query_results = self.query_collection(query)
        prompt = self.prepare_prompt(query, query_results)
        if stream:
            ans = self.answer_rag_prompt_streaming(prompt)
        else:
            ans = self.answer_rag_prompt_non_streaming(prompt)
        return ans

    def reset_history(self):
        self.chat_history = []