Hybrid Document Question-Answering System

A Python-based document analysis system that combines vector search and graph-based retrieval for intelligent document processing and question answering.

Features

Hybrid Document Retrieval: Combines vector similarity search with graph-based entity relationships
Smart Text Processing: Semantic chunking and intelligent summarization
Multi-Database Integration: Uses Qdrant for vector storage and Neo4j for graph relationships
Adaptive Summarization: Map-reduce approach for handling large documents
Entity Recognition: Built-in named entity recognition and relationship extraction
Error Handling: Comprehensive error handling and fallback mechanisms
Progress Logging: Detailed logging for monitoring and debugging

Components

1. Data Intake (`intake.py`)

Document parsing and text extraction
Semantic chunking of text
Vector embeddings generation
Storage in Qdrant vector database
Entity extraction and relationship mapping
Storage in Neo4j graph database

2. Retriever (`retriever.py`)

Hybrid search combining vector and graph approaches
Entity-aware search capabilities
Contextual and filtered searches
Support for parent-child document relationships

3. Summarizer (`summarizer.py`)

Automatic token counting and limit handling
Direct and map-reduce summarization strategies
Rate limiting and error handling
Progress monitoring and logging

4. Main Interface (`main.py`)

Unified question-answering interface
Document summarization capabilities
Flexible configuration options

Dependencies

OpenAI API for embeddings and completions
Qdrant for vector storage
Neo4j for graph database
Sentence Transformers for local embeddings
spaCy for NLP tasks
Transformers for entity recognition
Apache Tika for document parsing

Environment Setup

Required environment variables:

TIKA_SERVER_URL: URL for Apache Tika server
QDRANT_HOST: Qdrant server host
QDRANT_PORT: Qdrant server port
BASE_URL: OpenAI API base URL
API_KEY: OpenAI API key
NEO4J_URI: Neo4j database URI
NEO4J_AUTH: Neo4j authentication credentials

Usage

Document Ingestion:

intake = DataIntake(collection_name="your_collection", file_path="path/to/document")
intake.organize_intake()

Question Answering:

answer = Answering(collection_name="your_collection")
result = await answer.answer(
    question="Your question?",
    use_type="retriever",
    max_tokens=4096,
    top_k=10,
    use_graph=True
)

Document Summarization:

summarizer = QdrantSummarizer(collection_name="your_collection")
texts = summarizer.retrieve_all_texts()
summary = summarizer.summarize_texts(texts, max_tokens=4096)

Error Handling

The system includes comprehensive error handling for:

Rate limiting
Context length exceeded
API errors
Database connection issues
Token limit violations

Performance Considerations

Uses batching for large document processing
Implements fallback mechanisms for embedding generation
Supports both local and API-based models
Includes retry logic for API calls

License

The Code is Licensed under APGLv3. You may read the License in LICENSE.md

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
archive		archive
.gitignore		.gitignore
.python-version		.python-version
LICENSE.md		LICENSE.md
README.md		README.md
__init__.py		__init__.py
compose_n.yaml		compose_n.yaml
compose_q.yaml		compose_q.yaml
intake.py		intake.py
main.py		main.py
pyproject.toml		pyproject.toml
retriever.py		retriever.py
summarizer.py		summarizer.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Hybrid Document Question-Answering System

Features

Components

1. Data Intake (`intake.py`)

2. Retriever (`retriever.py`)

3. Summarizer (`summarizer.py`)

4. Main Interface (`main.py`)

Dependencies

Environment Setup

Usage

Error Handling

Performance Considerations

License

About

Uh oh!

Releases

Packages

Languages

License

FBR65/HDQAS

Folders and files

Latest commit

History

Repository files navigation

Hybrid Document Question-Answering System

Features

Components

1. Data Intake (intake.py)

2. Retriever (retriever.py)

3. Summarizer (summarizer.py)

4. Main Interface (main.py)

Dependencies

Environment Setup

Usage

Error Handling

Performance Considerations

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

1. Data Intake (`intake.py`)

2. Retriever (`retriever.py`)

3. Summarizer (`summarizer.py`)

4. Main Interface (`main.py`)

Packages