Add comprehensive user guide for Clickzetta vector database integration

- Add USER_GUIDE.md with detailed configuration instructions - Add INDEX.md explaining relationship between core integration and plugin tools - Update README.md to reference new user guide - Cover Docker Compose setup, environment variables, and troubleshooting - Include performance optimization and monitoring guidelines 🤖 Generated with [Claude Code](https://claude.ai/code) Co-Authored-By: Claude <noreply@anthropic.com>
10 months ago · aa86546c14
parent f36fe2f9db
commit aa86546c14
3 changed files with 412 additions and 1 deletions
--- a/clickzetta/INDEX.md
+++ b/clickzetta/INDEX.md
@ -0,0 +1,70 @@
 # Clickzetta Lakehouse & Dify 集成方案
 ## 项目关系
 本目录包含Clickzetta Lakehouse与Dify集成的两种方案：
 ### 1. 核心向量数据库集成 (当前目录)
 - **位置**: `/Users/liangmo/Documents/GitHub/dify/clickzetta/`
 - **类型**: Dify核心功能集成
 - **用途**: 将Clickzetta Lakehouse作为Dify的底层向量数据库
 - **目标用户**: Dify部署管理员
 - **文档**: `USER_GUIDE.md`
 ### 2. 插件工具集成 (独立项目)
 - **位置**: `/Users/liangmo/Documents/GitHub/clickzetta_dify/`
 - **类型**: Dify插件工具
 - **用途**: 提供Clickzetta相关的工具供Dify工作流使用
 - **目标用户**: Dify应用开发者
 - **GitHub**: https://github.com/yunqiqiliang/clickzetta_dify
 - **文档**: 插件项目中的`docs/INSTALLATION_GUIDE.md`
 ## 使用场景对比
 | 特性 | 核心集成 | 插件工具 |
 |------|----------|----------|
 | **安装方式** | 配置环境变量 | 安装插件包 |
 | **使用对象** | Dify系统管理员 | Dify应用开发者 |
 | **功能范围** | 底层向量存储 | 工作流工具 |
 | **配置复杂度** | 中等 | 简单 |
 | **适用场景** | 替换默认向量数据库 | 灵活的数据操作 |
 ## 推荐使用方案
 ### 场景1: 企业级部署
 - **使用**: 核心向量数据库集成
 - **优势**: 统一的数据存储，更好的性能和管理
 - **配置**: 参考 `USER_GUIDE.md`
 ### 场景2: 应用开发
 - **使用**: 插件工具集成
 - **优势**: 灵活的工具使用，无需系统级配置
 - **配置**: 参考插件项目的安装指南
 ### 场景3: 混合使用
 - **使用**: 同时使用两种方案
 - **优势**: 既有统一的底层存储，又有灵活的工具操作
 - **注意**: 确保两种方案使用相同的Clickzetta实例和配置
 ## 快速开始
 ### 核心集成配置
 ```bash
 # 设置环境变量
 export VECTOR_STORE=clickzetta
 export CLICKZETTA_USERNAME=your_username
 export CLICKZETTA_PASSWORD=your_password
 export CLICKZETTA_INSTANCE=your_instance
 # ... 其他配置
 # 重启Dify服务
 docker-compose restart
 ```
 ### 插件工具安装
 1. 从GitHub下载插件包
 2. 在Dify中安装插件
 3. 配置连接信息
 4. 在工作流中使用工具
 详细说明请参考各自的文档。
--- a/clickzetta/README.md
+++ b/clickzetta/README.md
@ -14,6 +14,7 @@ This directory contains the implementation and testing materials for integrating
 - `test_clickzetta_integration.py` - Comprehensive integration test suite with Dify framework
 - `TESTING_GUIDE.md` - Testing instructions and methodology
 - `PR_SUMMARY.md` - Complete PR preparation summary
 - `USER_GUIDE.md` - **NEW**: Complete user guide for configuring Clickzetta in Dify
 ## Quick Start
@ -42,7 +43,10 @@ python test_clickzetta_integration.py
 cat TESTING_GUIDE.md
 ```
-### 3. PR Status
+### 3. User Guide
 For detailed configuration and usage instructions, see `USER_GUIDE.md`.
 ### 4. PR Status
 See `PR_SUMMARY.md` for complete PR preparation status and submission strategy.
 ## Technical Highlights
--- a/clickzetta/USER_GUIDE.md
+++ b/clickzetta/USER_GUIDE.md
@ -0,0 +1,337 @@
 # Dify中配置Clickzetta Lakehouse作为向量数据库指南
 ## 概述
 Clickzetta Lakehouse是一个统一的数据湖仓平台，支持向量数据存储和高性能搜索。本指南将帮助您在Dify中配置Clickzetta作为向量数据库，替代默认的向量数据库选项。
 ## 前置条件
 ### 1. 系统要求
 - Dify 平台已部署并运行
 - Python 3.11+ 环境
 - 可访问的Clickzetta Lakehouse实例
 ### 2. 必需的连接信息
 在开始配置之前，请确保您有以下Clickzetta Lakehouse连接信息：
 | 参数 | 说明 | 示例 |
 |------|------|------|
 | `username` | Clickzetta用户名 | `your_username` |
 | `password` | Clickzetta密码 | `your_password` |
 | `instance` | Clickzetta实例ID | `your_instance_id` |
 | `service` | 服务端点 | `api.clickzetta.com` |
 | `workspace` | 工作空间名称 | `quick_start` |
 | `vcluster` | 虚拟集群名称 | `default_ap` |
 | `schema` | 数据库模式 | `dify` |
 ## 配置步骤
 ### 1. 环境变量配置
 在Dify部署环境中设置以下环境变量：
 ```bash
 # Clickzetta Lakehouse连接配置
 export VECTOR_STORE=clickzetta
 export CLICKZETTA_USERNAME=your_username
 export CLICKZETTA_PASSWORD=your_password
 export CLICKZETTA_INSTANCE=your_instance_id
 export CLICKZETTA_SERVICE=api.clickzetta.com
 export CLICKZETTA_WORKSPACE=quick_start
 export CLICKZETTA_VCLUSTER=default_ap
 export CLICKZETTA_SCHEMA=dify
 # 可选的高级配置
 export CLICKZETTA_BATCH_SIZE=100
 export CLICKZETTA_ENABLE_INVERTED_INDEX=true
 export CLICKZETTA_ANALYZER_TYPE=chinese
 export CLICKZETTA_ANALYZER_MODE=smart
 export CLICKZETTA_VECTOR_DISTANCE_FUNCTION=cosine_distance
 ```
 ### 2. Docker Compose配置
 如果使用Docker Compose部署Dify，请在`docker-compose.yml`中添加环境变量：
 ```yaml
 version: '3'
 services:
  api:
    image: langgenius/dify-api:latest
    environment:
      # ... 其他配置
      # Clickzetta向量数据库配置
      VECTOR_STORE: clickzetta
      CLICKZETTA_USERNAME: ${CLICKZETTA_USERNAME}
      CLICKZETTA_PASSWORD: ${CLICKZETTA_PASSWORD}
      CLICKZETTA_INSTANCE: ${CLICKZETTA_INSTANCE}
      CLICKZETTA_SERVICE: ${CLICKZETTA_SERVICE:-api.clickzetta.com}
      CLICKZETTA_WORKSPACE: ${CLICKZETTA_WORKSPACE:-quick_start}
      CLICKZETTA_VCLUSTER: ${CLICKZETTA_VCLUSTER:-default_ap}
      CLICKZETTA_SCHEMA: ${CLICKZETTA_SCHEMA:-dify}
      # 可选的高级配置
      CLICKZETTA_BATCH_SIZE: ${CLICKZETTA_BATCH_SIZE:-100}
      CLICKZETTA_ENABLE_INVERTED_INDEX: ${CLICKZETTA_ENABLE_INVERTED_INDEX:-true}
      CLICKZETTA_ANALYZER_TYPE: ${CLICKZETTA_ANALYZER_TYPE:-chinese}
      CLICKZETTA_ANALYZER_MODE: ${CLICKZETTA_ANALYZER_MODE:-smart}
      CLICKZETTA_VECTOR_DISTANCE_FUNCTION: ${CLICKZETTA_VECTOR_DISTANCE_FUNCTION:-cosine_distance}
 ```
 ### 3. 配置文件设置
 如果使用配置文件方式，请在Dify配置文件中添加：
 ```python
 # config.py
 class Config:
    # ... 其他配置
    # 向量数据库配置
    VECTOR_STORE = "clickzetta"
    # Clickzetta连接配置
    CLICKZETTA_USERNAME = os.getenv("CLICKZETTA_USERNAME")
    CLICKZETTA_PASSWORD = os.getenv("CLICKZETTA_PASSWORD")
    CLICKZETTA_INSTANCE = os.getenv("CLICKZETTA_INSTANCE")
    CLICKZETTA_SERVICE = os.getenv("CLICKZETTA_SERVICE", "api.clickzetta.com")
    CLICKZETTA_WORKSPACE = os.getenv("CLICKZETTA_WORKSPACE", "quick_start")
    CLICKZETTA_VCLUSTER = os.getenv("CLICKZETTA_VCLUSTER", "default_ap")
    CLICKZETTA_SCHEMA = os.getenv("CLICKZETTA_SCHEMA", "dify")
    # 高级配置
    CLICKZETTA_BATCH_SIZE = int(os.getenv("CLICKZETTA_BATCH_SIZE", "100"))
    CLICKZETTA_ENABLE_INVERTED_INDEX = os.getenv("CLICKZETTA_ENABLE_INVERTED_INDEX", "true").lower() == "true"
    CLICKZETTA_ANALYZER_TYPE = os.getenv("CLICKZETTA_ANALYZER_TYPE", "chinese")
    CLICKZETTA_ANALYZER_MODE = os.getenv("CLICKZETTA_ANALYZER_MODE", "smart")
    CLICKZETTA_VECTOR_DISTANCE_FUNCTION = os.getenv("CLICKZETTA_VECTOR_DISTANCE_FUNCTION", "cosine_distance")
 ```
 ## 验证配置
 ### 1. 连接测试
 启动Dify后，可以通过以下方式验证Clickzetta连接：
 1. **查看日志**：
   ```bash
   # 查看Dify API日志
   docker logs dify-api
   # 查找Clickzetta相关日志
   docker logs dify-api | grep -i clickzetta
   ```
 2. **创建知识库测试**：
   - 登录Dify管理界面
   - 创建新的知识库
   - 上传测试文档
   - 观察是否成功创建向量索引
 ### 2. 功能验证
 在Dify中验证以下功能：
 - ✅ **知识库创建**：能否成功创建知识库
 - ✅ **文档上传**：能否上传和处理文档
 - ✅ **向量化存储**：文档是否被正确向量化并存储
 - ✅ **相似度搜索**：搜索功能是否正常工作
 - ✅ **问答功能**：基于知识库的问答是否准确
 ## 使用指南
 ### 1. 知识库管理
 #### 创建知识库
 1. 登录Dify管理界面
 2. 点击「知识库」→「创建知识库」
 3. 填写知识库名称和描述
 4. 选择嵌入模型（推荐使用支持中文的模型）
 5. 点击「保存并处理」
 #### 上传文档
 1. 在知识库中点击「上传文档」
 2. 选择支持的文件格式（PDF、Word、TXT等）
 3. 配置文档分块规则
 4. 点击「保存并处理」
 5. 等待文档处理完成
 #### 管理向量数据
 - **查看统计**：在知识库详情页查看向量数量和存储统计
 - **更新文档**：可以更新或删除已上传的文档
 - **搜索测试**：使用搜索功能测试向量检索效果
 ### 2. 应用开发
 #### 在聊天应用中使用
 1. 创建新的聊天应用
 2. 在「提示词编排」中关联知识库
 3. 配置检索设置：
   - **TopK值**：建议3-5
   - **相似度阈值**：建议0.3-0.7
   - **重排序**：可选启用
 4. 测试问答效果
 #### 在工作流中使用
 1. 创建工作流应用
 2. 添加「知识检索」节点
 3. 配置检索参数：
   - **查询变量**：`{{sys.query}}`
   - **知识库**：选择目标知识库
   - **检索设置**：TopK和相似度阈值
 4. 将检索结果传递给LLM节点
 ## 性能优化
 ### 1. 向量索引优化
 Clickzetta自动为向量字段创建HNSW索引，您可以通过以下方式优化：
 ```python
 # 在配置中调整索引参数
 CLICKZETTA_VECTOR_DISTANCE_FUNCTION = "cosine_distance"  # 适合文本嵌入
 # 或
 CLICKZETTA_VECTOR_DISTANCE_FUNCTION = "l2_distance"      # 适合图像嵌入
 ```
 ### 2. 批处理优化
 ```python
 # 调整批处理大小
 CLICKZETTA_BATCH_SIZE = 200  # 增加批处理大小可提高吞吐量
 ```
 ### 3. 全文搜索优化
 ```python
 # 启用倒排索引以支持全文搜索
 CLICKZETTA_ENABLE_INVERTED_INDEX = true
 CLICKZETTA_ANALYZER_TYPE = "chinese"  # 中文分词
 CLICKZETTA_ANALYZER_MODE = "smart"    # 智能分词模式
 ```
 ## 监控和维护
 ### 1. 性能监控
 监控以下关键指标：
 - **连接状态**：数据库连接是否正常
 - **查询延迟**：向量搜索响应时间
 - **吞吐量**：每秒处理的向量查询数
 - **存储使用**：向量数据存储空间使用情况
 ### 2. 日志分析
 关注以下日志信息：
 ```bash
 # 连接日志
 INFO - Clickzetta connection established successfully
 # 向量操作日志
 INFO - Vector insert completed: 1000 vectors in 2.3s
 INFO - Vector search completed: 5 results in 120ms
 # 错误日志
 ERROR - Clickzetta connection failed: ...
 WARNING - Vector search timeout: ...
 ```
 ### 3. 数据备份
 定期备份重要的向量数据：
 ```sql
 -- 查看向量集合
 SHOW TABLES IN dify;
 -- 备份向量数据
 CREATE TABLE dify.backup_vectors AS 
 SELECT * FROM dify.knowledge_base_vectors;
 -- 查看数据统计
 SELECT COUNT(*) FROM dify.knowledge_base_vectors;
 ```
 ## 故障排除
 ### 常见问题
 #### Q1: 连接失败
 **症状**: Dify启动时报Clickzetta连接错误
 **解决方案**:
 1. 检查网络连接
 2. 验证用户名和密码
 3. 确认实例ID正确
 4. 检查防火墙设置
 #### Q2: 向量搜索性能差
 **症状**: 搜索响应时间过长
 **解决方案**:
 1. 检查是否创建了向量索引
 2. 调整TopK值
 3. 优化查询条件
 4. 考虑增加计算资源
 #### Q3: 文档处理失败
 **症状**: 文档上传后处理失败
 **解决方案**:
 1. 检查文档格式是否支持
 2. 验证文档大小限制
 3. 查看详细错误日志
 4. 检查向量化模型状态
 #### Q4: 中文搜索效果差
 **症状**: 中文文档搜索结果不准确
 **解决方案**:
 1. 启用中文分词器
 2. 调整相似度阈值
 3. 使用支持中文的嵌入模型
 4. 检查文档分块设置
 ## 迁移指南
 ### 从其他向量数据库迁移
 如果您从其他向量数据库（如Pinecone、Weaviate等）迁移到Clickzetta：
 1. **备份现有数据**：
   ```bash
   # 导出现有向量数据
   python export_vectors.py --source=pinecone --output=vectors.json
   ```
 2. **更新配置**：
   - 修改环境变量
   - 重启Dify服务
 3. **数据导入**：
   ```bash
   # 导入向量数据到Clickzetta
   python import_vectors.py --source=vectors.json --target=clickzetta
   ```
 4. **验证迁移**：
   - 测试搜索功能
   - 验证数据完整性
   - 检查性能指标
 ## 技术支持
 ### 获取帮助
 如遇到问题，请：
 1. 查看Dify系统日志
 2. 检查Clickzetta连接状态
 3. 参考本指南的故障排除部分
 4. 联系技术支持团队
 ### 有用的资源
 - **Dify官方文档**: https://docs.dify.ai
 - **Clickzetta文档**: https://docs.clickzetta.com
 - **GitHub Issues**: https://github.com/langgenius/dify/issues
 - **社区论坛**: https://community.dify.ai
 ---
 *本指南基于Dify v0.8.0+ 和 Clickzetta Lakehouse v1.0.0+*