【Dify】增加全文检索的接口

11 months ago · 76753ce0d1
parent d988bf7ec8
commit 76753ce0d1
2 changed files with 101 additions and 1 deletions
--- a/api/controllers/console/workspace/account_ext.py
+++ b/api/controllers/console/workspace/account_ext.py
@ -6,6 +6,7 @@ from unstructured.utils import first
 from controllers.console import api
 from controllers.console.wraps import setup_required
 from services.ext.account_ext_service import AccountExtService, TenantExtService
 from services.ext.dataset_ext_service import DocumentExtService
 from models.account import (
    Account,
    Tenant,
@ -81,7 +82,35 @@ class TenantInitApi(Resource):
        tenant_data = TenantExtService.init_tenant(target_tenant_id=target_tenant_id,target_tenant_name=target_tenant_name)
        return tenant_data.to_dict(),200
 class FullSearchTextApi(Resource):
    @setup_required
    def post(self):
        parser = reqparse.RequestParser()
        parser.add_argument(
            'dataset_names',
            action='append',
            help='List of names'
        )
        parser.add_argument("query_text", type=str, required=True, location="json")
        args = parser.parse_args()
        dataset_names = args.dataset_names
        query_text = args.query_text
        current_user = flask_login.current_user
        tenant = current_user.current_tenant
        search_datas = DocumentExtService.get_full_search_data(
            dataset_names=dataset_names,
            tenant_id=tenant.id,
            query_text=query_text
        )
        return search_datas
 api.add_resource(AccountsApi, "/accounts/update")
 api.add_resource(TenantEnableApi, "/tenant/enable")
 api.add_resource(TenantInitApi, "/tenant/init")
 api.add_resource(LoginAccountsApi, "/login/account/info")
 api.add_resource(FullSearchTextApi, "/full/search")
--- a/api/services/ext/dataset_ext_service.py
+++ b/api/services/ext/dataset_ext_service.py
@ -1,6 +1,6 @@
 from models import ApiToken, Account, Tenant
 from models.dataset import (
-    Dataset,DocumentSegment
+    Dataset,DocumentSegment,Document
 )
 from core.rag.models.document import Document as DocumentModel
 from core.errors.error import (
@ -18,6 +18,9 @@ from extensions.ext_database import db
 from services.dataset_service import DatasetService, DocumentService
 from configs.ext_config import get_init_knowledge_config,get_init_full_text_knowledge_config
 from services.entities.knowledge_entities.knowledge_entities import KnowledgeConfig
 from sqlalchemy import text, bindparam,select,func
 from collections import defaultdict
 from sqlalchemy.dialects.postgresql import ARRAY
 class DatasetExtService:
    resource_type = "dataset"
@ -198,3 +201,71 @@ class DocumentExtService:
                    break
        return next_segment
    def get_full_search_data(dataset_names: list[str], tenant_id : str, query_text: str):
        datasets = db.session.query(Dataset).filter(Dataset.name.in_(dataset_names),Dataset.tenant_id == tenant_id).all()
        dataset_ids = [dataset.id for dataset in datasets]
        # 精准查询的向量片段
        fetch_segments = DocumentExtService.get_full_search_segments(dataset_ids=dataset_ids,query_text=query_text)
        search_datas = []
        for segment in fetch_segments:
            search_data = {
                "title": segment.document_name,
                "content": segment.segment_content,
                "query": query_text
            }
            search_datas.append(search_data)
        return search_datas
    def get_full_search_segments(dataset_ids: list[str], query_text: str):
        sql = text("""
            SELECT s.id segment_id, s.document_id, s.content segment_content, d.name document_name
            FROM document_segments s
                left join documents d on d.id = s.document_id
            WHERE content ILIKE :keyword and d.dataset_id::text = ANY(:dataset_ids)
        """)
        # import uuid
        # dataset_ids_uuid = [uuid.UUID(id_str) for id_str in dataset_ids]
        segments_rows = db.session.execute(sql, {"keyword": f"%{query_text}%", "dataset_ids" : dataset_ids}).fetchall()
        sql = text("""
            SELECT d.id AS document_id,
                   d.name AS document_name,
                   s.id AS segment_id,
                   s.content AS segment_content
            FROM documents d
            JOIN (
                SELECT s1.*
                FROM document_segments s1
                INNER JOIN (
                    SELECT document_id, MIN(position) AS first_position
                    FROM document_segments
                    GROUP BY document_id
                ) s2 ON s1.document_id = s2.document_id AND s1.position = s2.first_position
            ) s ON d.id = s.document_id
            WHERE d.name ILIKE :keyword and d.dataset_id::text = ANY(:dataset_ids_)
        """)
        document_rows = db.session.execute(sql, {"keyword": f"%{query_text}%", "dataset_ids_" : dataset_ids}).fetchall()
        grouped = defaultdict(list)
        for row in document_rows:
            grouped[row.document_id].append(row)
        for row in segments_rows:
            grouped[row.document_id].append(row)
        fetch_segments = []
        # 遍历 grouped
        for document_id, segment_list in grouped.items():
            # document_name = segment_list[0].document_name
            if len(segment_list) == 1:
                fetch_segments.append(segment_list[0])
            else:
                fetch_segments.append(segment_list[1])
        return fetch_segments