Welcome to GraphRAG
Welcome to GraphRAG
GraphRAG é uma abordagem estruturada e hierárquica para Geração Aumentada por Recuperação (RAG), em oposição a abordagens de pesquisa semântica ingênuas usando trechos de texto simples. O processo GraphRAG envolve a extração de um gráfico de conhecimento a partir de texto bruto, a construção de uma hierarquia de comunidade, a geração de resumos para essas comunidades e, em seguida, a utilização dessas estruturas ao realizar tarefas baseadas em RAG.
Perguntas Frequentes sobre Welcome to GraphRAG
O que é GraphRAG?
O GraphRAG é uma abordagem estruturada e hierárquica para a Geração Aumentada por Recuperação (RAG), que se diferencia das abordagens de pesquisa semântica ingênuas que utilizam trechos de texto simples. O processo do GraphRAG envolve a extração de um gráfico de conhecimento a partir de texto bruto, a construção de uma hierarquia de comunidade, a geração de resumos para essas comunidades e, em seguida, o aproveitamento dessas estruturas ao executar tarefas baseadas em RAG.
Quais são as vantagens do GraphRAG em relação ao RAG de linha de base?
O GraphRAG oferece melhorias significativas em relação ao RAG de linha de base, especialmente ao lidar com informações complexas. Ele supera as dificuldades do RAG de linha de base em conectar pontos dispersos em grandes conjuntos de dados e em compreender conceitos semânticos resumidos em documentos extensos. O GraphRAG consegue isso criando um gráfico de conhecimento a partir do corpus de entrada, utilizando LLMs para extrair entidades, relacionamentos e informações importantes, permitindo uma busca e compreensão mais profunda.
Como o GraphRAG processa a informação?
O GraphRAG processa a informação em duas fases principais: Indexação e Consulta. Na fase de Indexação, o texto é dividido em unidades menores, entidades e relacionamentos são extraídos, é criada uma hierarquia de comunidades e são gerados resumos. Na fase de Consulta, essas estruturas são usadas para fornecer contexto ao LLM ao responder a perguntas, seja através de uma busca global, que utiliza os resumos das comunidades, ou uma busca local, que se concentra nas relações entre entidades específicas. Esse processo garante que o LLM tenha acesso à informação mais relevante para responder a pergunta do usuário.
O que é Prompt Tuning no contexto do GraphRAG?
O Prompt Tuning no GraphRAG refere-se à capacidade de criar templates personalizados para a geração do gráfico de conhecimento, adaptando-o a um domínio específico. Isso pode ser feito de forma automática ou manual. Embora opcional, o Prompt Tuning é altamente recomendado para melhorar a qualidade dos resultados, pois permite que o modelo seja ajustado para lidar com as nuances e especificidades de cada conjunto de dados.
Como funciona a busca local no GraphRAG?
A busca local no GraphRAG se concentra em responder perguntas sobre entidades específicas. O processo envolve a identificação de entidades relacionadas à consulta do usuário no gráfico de conhecimento. Em seguida, informações relevantes sobre essas entidades, como entidades conectadas, relacionamentos, covariáveis e relatórios de comunidade, são extraídas e usadas para gerar a resposta. Esse método é ideal para perguntas que exigem uma compreensão profunda de uma entidade específica e suas conexões dentro do conjunto de dados.
Como funciona a busca global no GraphRAG?
A busca global no GraphRAG visa responder a perguntas que exigem uma compreensão holística do conjunto de dados. Em vez de se concentrar em entidades específicas, a busca global utiliza os resumos gerados para cada comunidade no gráfico de conhecimento. Esses resumos capturam os temas e informações essenciais de cada cluster, permitindo que o LLM responda a perguntas amplas e complexas que exigem a agregação de informações de todo o conjunto de dados.
Qual é a função da geração de perguntas no GraphRAG?
A geração de perguntas no GraphRAG tem como objetivo auxiliar o usuário a explorar o conjunto de dados de forma mais aprofundada. Com base no histórico de perguntas do usuário e no contexto atual, o sistema pode gerar automaticamente novas perguntas relevantes que incentivam a descoberta de informações adicionais. Isso ajuda o usuário a navegar pelo gráfico de conhecimento e a obter insights mais completos sobre o conjunto de dados.
Como posso usar a interface de linha de comando (CLI) do GraphRAG?
O GraphRAG oferece uma interface de linha de comando (CLI) para indexação e consulta de dados. Para indexar, use o comando `python -m graphrag.index` com as opções desejadas. Para consultar, use `python -m graphrag.query`, especificando o caminho para os dados indexados, o nível da comunidade, o tipo de resposta desejado, o método de busca (local ou global) e a sua pergunta. A CLI oferece flexibilidade para configurar e executar o GraphRAG sem a necessidade de escrever código.
Quais são os requisitos para usar o GraphRAG?
Para usar o GraphRAG, você precisa ter o Python 3.10-3.12 instalado, juntamente com a ferramenta de gerenciamento de pacotes Poetry. É necessário ter uma chave de API da OpenAI para utilizar os modelos de linguagem e embeddings. Além disso, o GraphRAG utiliza o Azurite para emular recursos do Azure em testes. Certifique-se de ter esses requisitos atendidos antes de começar a usar o GraphRAG.
Onde posso encontrar mais informações e recursos sobre o GraphRAG?
Você pode encontrar mais informações e recursos sobre o GraphRAG no repositório do GitHub do projeto: [https://github.com/microsoft/graphrag](https://github.com/microsoft/graphrag). Lá você encontrará documentação detalhada, exemplos de uso e notebooks que demonstram as funcionalidades do GraphRAG. Você também pode consultar o blog de pesquisa da Microsoft e o artigo do GraphRAG no Arxiv para obter mais informações sobre a pesquisa e desenvolvimento por trás do projeto.