embedding-search

2025-08-31 19:20:43 +03:00
parent 7325cdc5f5
commit db3dafa569
8 changed files with 1197 additions and 49 deletions
--- a/docs/README.md
+++ b/docs/README.md
@@ -1,4 +1,4 @@
-# Документация Discours Core v0.9.8
+# Документация Discours Core v0.9.16

 ## 📚 Быстрый старт

@@ -22,7 +22,7 @@ python -m granian main:app --interface asgi

 ### 📊 Статус проекта

- **Версия**: 0.9.8
+- **Версия**: 0.9.16
 - **Тесты**: 344/344 проходят (включая E2E Playwright тесты) ✅
 - **Покрытие**: 90%
 - **Python**: 3.12+
@@ -38,6 +38,7 @@ python -m granian main:app --interface asgi
 - **[Authentication](auth.md)** - Система авторизации и OAuth
 - **[RBAC System](rbac-system.md)** - Роли и права доступа
 - **[Caching System](redis-schema.md)** - Redis схема и кеширование
+- **[Search System](search-system.md)** - 🔍 Семантический поиск с эмбедингами
 - **[Admin Panel](admin-panel.md)** - Админ-панель управления

 ### 🛠️ Разработка
--- a/docs/features.md
+++ b/docs/features.md
@@ -31,6 +31,22 @@
 - **Type safety**: Строгая типизация для всех GraphQL операций в админ-панели
 - **Developer Experience**: Автокомплит и проверка типов в IDE

+## 🔍 Семантическая поисковая система
+
+- **Настоящие векторные эмбединги**: Использование SentenceTransformers вместо псевдослучайных чисел
+- **Многоязычная поддержка**: Модель `paraphrase-multilingual-MiniLM-L12-v2` с поддержкой русского языка
+- **Семантическое понимание**: Поиск по смыслу, а не только по ключевым словам
+- **Оптимизированная индексация**:
+  - **Batch обработка**: Массовая индексация документов за один вызов
+  - **Тихий режим**: Отключение детального логирования при больших объёмах
+  - **FDE сжатие**: Компрессия векторов для экономии памяти
+- **Высокая производительность**: Косинусное сходство для точного ранжирования результатов
+- **GraphQL интеграция**: 
+  - `load_shouts_search` - поиск по публикациям
+  - `load_authors_search` - поиск по авторам
+- **Асинхронная архитектура**: Неблокирующая индексация и поиск
+- **Fallback модели**: Автоматическое переключение на запасную модель при ошибках
+
 ## Улучшенная система кеширования топиков

 - **Централизованная функция**: `invalidate_topic_followers_cache()` в модуле cache
--- a/docs/search-system.md
+++ b/docs/search-system.md
@@ -0,0 +1,243 @@
+# 🔍 Система поиска Discours
+
+## Обзор
+
+Система поиска Discours использует **семантические эмбединги** для точного поиска по публикациям. Реализована на базе `SentenceTransformers` с поддержкой русского языка и FDE (Fast Document Encoding) для оптимизации.
+
+## 🚀 Основные возможности
+
+### **1. Семантический поиск**
+- Понимание смысла запросов, а не только ключевых слов
+- Поддержка русского и английского языков
+- Векторное представление документов через SentenceTransformers
+
+### **2. Оптимизированная индексация**
+- Batch-обработка для больших объёмов данных
+- Тихий режим для массовых операций
+- FDE кодирование для сжатия векторов
+
+### **3. Высокая производительность**
+- Косинусное сходство для ранжирования
+- Кеширование результатов
+- Асинхронная обработка
+
+## 📋 API
+
+### GraphQL запросы
+
+```graphql
+# Поиск по публикациям
+query SearchShouts($text: String!, $options: ShoutsOptions) {
+  load_shouts_search(text: $text, options: $options) {
+    id
+    title
+    body
+    topics {
+      title
+    }
+  }
+}
+
+# Поиск по авторам
+query SearchAuthors($text: String!, $limit: Int, $offset: Int) {
+  load_authors_search(text: $text, limit: $limit, offset: $offset) {
+    id
+    name
+    email
+  }
+}
+```
+
+### Параметры поиска
+
+```python
+options = {
+    "limit": 10,        # Количество результатов
+    "offset": 0,        # Смещение для пагинации
+    "filters": {        # Дополнительные фильтры
+        "community": 1,
+        "status": "published"
+    }
+}
+```
+
+## 🛠️ Техническая архитектура
+
+### Компоненты системы
+
+```
+📦 Search System
+├── 🧠 SentenceTransformer    # Генерация эмбедингов
+├── 🗜️ Muvera FDE            # Сжатие векторов
+├── 🗃️ MuveraWrapper         # Хранение и поиск
+└── 🔍 SearchService         # API интерфейс
+```
+
+### Модель эмбедингов
+
+**Основная модель**: `paraphrase-multilingual-MiniLM-L12-v2`
+- Поддержка 50+ языков включая русский
+- Размерность: 384D
+- Fallback: `all-MiniLM-L6-v2`
+
+### Процесс индексации
+
+```python
+# 1. Извлечение текста
+doc_content = f"{title} {subtitle} {lead} {body}".strip()
+
+# 2. Генерация эмбединга
+embedding = encoder.encode(doc_content)
+
+# 3. FDE кодирование
+compressed = muvera.encode_fde(embedding, buckets=128, method="avg")
+
+# 4. Сохранение в индекс
+embeddings[doc_id] = compressed
+```
+
+### Алгоритм поиска
+
+```python
+# 1. Эмбединг запроса
+query_embedding = encoder.encode(query_text)
+query_fde = muvera.encode_fde(query_embedding, buckets=128, method="avg")
+
+# 2. Косинусное сходство
+for doc_id, doc_embedding in embeddings.items():
+    similarity = cosine_similarity(query_fde, doc_embedding)
+    results.append({"id": doc_id, "score": similarity})
+
+# 3. Ранжирование
+results.sort(key=lambda x: x["score"], reverse=True)
+```
+
+## ⚙️ Конфигурация
+
+### Переменные окружения
+
+```bash
+# Поиск
+MUVERA_INDEX_NAME=discours_search
+SEARCH_MAX_BATCH_SIZE=100
+SEARCH_PREFETCH_SIZE=200
+SEARCH_CACHE_ENABLED=true
+SEARCH_CACHE_TTL_SECONDS=600
+```
+
+### Настройки производительности
+
+```python
+# Batch размеры
+SINGLE_DOC_THRESHOLD = 10      # Меньше = одиночная обработка
+BATCH_SIZE = 32                # Размер batch для SentenceTransformers
+FDE_BUCKETS = 128              # Количество bucket для сжатия
+
+# Logging
+SILENT_BATCH_MODE = True       # Тихий режим для batch операций
+DEBUG_SINGLE_DOCS = True       # Подробные логи для одиночных документов
+```
+
+## 🔧 Использование
+
+### Индексация новых документов
+
+```python
+from services.search import search_service
+
+# Одиночный документ
+search_service.index(shout)
+
+# Batch индексация (тихий режим)
+await search_service.bulk_index(shouts_list)
+```
+
+### Поиск
+
+```python
+# Поиск публикаций
+results = await search_service.search("машинное обучение", limit=10, offset=0)
+
+# Поиск авторов
+authors = await search_service.search_authors("Иван Петров", limit=5)
+```
+
+### Проверка статуса
+
+```python
+# Информация о сервисе
+info = await search_service.info()
+
+# Статус индекса
+status = await search_service.check_index_status()
+
+# Проверка документов
+verification = await search_service.verify_docs(["1", "2", "3"])
+```
+
+## 🐛 Отладка
+
+### Логирование
+
+```python
+# Включить debug логи
+import logging
+logging.getLogger("services.search").setLevel(logging.DEBUG)
+
+# Проверить загрузку модели
+logger.info("🔍 SentenceTransformer model loaded successfully")
+```
+
+### Диагностика
+
+```python
+# Проверить количество проиндексированных документов
+info = await search_service.info()
+print(f"Documents: {info['muvera_info']['documents_count']}")
+
+# Найти отсутствующие документы
+missing = await search_service.verify_docs(expected_doc_ids)
+print(f"Missing: {missing['missing']}")
+```
+
+## 📈 Метрики производительности
+
+### Типичные показатели
+
+```
+📊 Производительность поиска:
+├── Поиск по 1000 документов: ~50ms
+├── Индексация 1 документа: ~100ms
+├── Batch индексация 100 документов: ~2s
+└── Память на 1000 документов: ~50MB
+```
+
+### Оптимизация
+
+1. **Batch обработка** - для массовых операций используйте `bulk_index()`
+2. **Тихий режим** - отключает детальное логирование
+3. **Кеширование** - результаты поиска кешируются в Redis
+4. **FDE сжатие** - уменьшает размер векторов в 2-3 раза
+
+## 🔄 Миграция и обновления
+
+### Переиндексация
+
+```python
+# Полная переиндексация
+from main import initialize_search_index_with_data
+await initialize_search_index_with_data()
+```
+
+### Обновление модели
+
+1. Остановить сервис
+2. Обновить `sentence-transformers`
+3. Изменить модель в `MuveraWrapper.__init__()`
+4. Запустить переиндексацию
+
+## 🔗 Связанные документы
+
+- [API Documentation](api.md) - GraphQL эндпоинты
+- [Testing](testing.md) - Тестирование поиска
+- [Performance](performance.md) - Оптимизация производительности