【Dify】全文检索的分片，1：保持每片的长度都达到阈值，最后一段自动补齐并达到阈值。 2，将标题加入到第一个分片内

11 months ago · e51dad7639
parent 4d14e5d2bd
commit e51dad7639
2 changed files with 88 additions and 11 deletions
--- a/api/core/rag/splitter/fixed_text_splitter.py
+++ b/api/core/rag/splitter/fixed_text_splitter.py
@ -4,6 +4,8 @@ from __future__ import annotations
 from typing import Any, Optional
 from sqlalchemy.dialects.postgresql import JSONB
 from core.model_manager import ModelInstance
 from core.model_runtime.model_providers.__base.tokenizers.gpt2_tokenzier import GPT2Tokenizer
 from core.rag.splitter.text_splitter import (
@ -63,7 +65,7 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
        self._fixed_separator = fixed_separator
        self._separators = separators or ["\n\n", "\n", " ", ""]
-    def split_text(self, text: str) -> list[str]:
+    def split_text(self, text: str, metadata:Optional[dict] = None) -> list[str]:
        """Split incoming text and return chunks."""
        if self._fixed_separator:
            chunks = text.split(self._fixed_separator)
@ -75,7 +77,7 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
        for chunk, chunk_length in zip(chunks, chunks_lengths):
            if chunk_length > self._chunk_size:
                if self._keep_separator :
-                    final_chunks.extend(self.recursive_split_text_keep_separator_(chunk))  # 调用递归分割方法进一步拆分。
+                    final_chunks.extend(self.recursive_split_text_keep_separator_(chunk,metadata))  # 调用递归分割方法进一步拆分。
                    continue
                final_chunks.extend(self.recursive_split_text(chunk))
            else:
@ -159,20 +161,37 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
-    def recursive_split_text_keep_separator_(self, text: str) -> list[str]:  # 定义递归分割方法。
+    def recursive_split_text_keep_separator_(self, text: str,metadata:Optional[dict] = None) -> list[str]:  # 定义递归分割方法。
        """Split incoming text and return chunks."""  # 文档字符串，说明该方法的作用是递归地分割文本并返回块。
        char_split = False
        full_last_text = False
        if metadata is not None:
            if "char_split" in metadata:
                # 分片未达阈值，是否按照char分片继续合并
                char_split = metadata["char_split"]
            if "char_split" in metadata:
                # 是否补全最后一个未达到阈值的分片
                full_last_text = metadata["full_last_text"]
        final_chunks = []  # 初始化最终的块列表。
        current_part_list = []
        self.append_next_split_text(current_part_list=current_part_list,
                                    current_length_list=[],
                                    text=text,
                                    final_chunks = final_chunks,
-                                    separators = self._separators)
+                                    separators = self._separators,
                                    char_split=char_split,
                                    )
        if len(current_part_list):  # 如果还有剩余的当前块。
            final_chunks.append("".join(current_part_list))  # 将其加入最终块列表。
        # 是否补全最后一个未达到阈值的分片
        if full_last_text:
            # 补全
            self.set_full_last_text_chunks(final_chunks=final_chunks)
        return final_chunks  # 返回最终的块列表。
    @classmethod
@ -201,23 +220,34 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
                               current_length_list:list[int],
                               text: str,
                               final_chunks: list[str],
-                               separators : list[str]):  # 定义递归分割方法。
+                               separators : list[str],
                               char_split : bool,
                               ):  # 定义递归分割方法。
        if text:
            # 需要判断是否可以再拼接
            splits, new_separators_ = self.get_splits_(text, separators)
            s_lens = self._length_function(splits)  # 计算每个分割部分的长度。
-            for s, s_len in zip(splits, s_lens):  # 遍历每个分割部分及其长度。
+            split_len = len(splits)
-
+            for idx,s in  enumerate(splits):  # 遍历每个分割部分及其长度。
                s_len = s_lens[idx]
                current_length = sum(current_length_list)
                if "制定综合主进度" in s:
                    # import pdb; pdb.post_mortem()
                    print(s)
                if current_length + s_len <= self._chunk_size:  # 如果当前块可以容纳更多内容。
                    current_part_list.append(s)  # 将当前部分加入当前块。
                    current_length_list.append(s_len)
                else:
                    if len(new_separators_) == 0:
                        # 判断是否启用字符拆分
                        if char_split:
                            # 按照char拆分和拼接，直到长度达到阈值
                            s,s_len = self.char_splits(
                                current_part_list=current_part_list,
                                current_length_list=current_length_list,
                                text=s,
                                s_len=s_len
                            )
                        # 将片段加入到列表中
                        final_chunks.append("".join(current_part_list))
                        # 计算出重叠部分的内容
@ -237,7 +267,8 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
                                                current_length_list=current_length_list,
                                                text=s,
                                                final_chunks=final_chunks,
-                                                separators=new_separators_)
+                                                separators=new_separators_,
                                                char_split=char_split)
    def get_overlap_part(self,current_part_list:list[str],
                               current_length_list:list[int]) -> (int,str):  # 定义递归分割方法。
@ -265,3 +296,49 @@ class FixedRecursiveCharacterTextSplitter(EnhanceRecursiveCharacterTextSplitter)
            overlap_part_list[0:0] = current_part_list_reversed[index]
            # overlap_part_list.append(current_part_list_reversed[index])
        return overlap_part_length_, "".join(overlap_part_list)
    # 按照char 继续拼接，直到长度达到阈值
    def char_splits(self,
                   current_part_list:list[str],
                   current_length_list:list[int],
                   text: str,
                   s_len: int) -> (str,int):  # 定义递归分割方法。
        char_splits = list(text)
        char_s_lens = self._length_function(char_splits)  # 计算每个分割部分的长度。
        for char_idx, char_s in enumerate(char_splits):  # 遍历每个分割部分及其长度。
            char_s_len = char_s_lens[char_idx]
            char_current_length = sum(current_length_list)
            if char_current_length + char_s_len <= self._chunk_size:  # 如果当前块可以容纳更多内容。
                current_part_list.append(char_s)  # 将当前部分加入当前块。
                current_length_list.append(char_s_len)
            else:
                last_s = char_splits[char_idx:]
                text = "".join(last_s)
                last_s_lens = self._length_function([text])
                s_len = last_s_lens[0]
                break
        return text,s_len
    # 按照char 继续拼接，直到长度达到阈值
    def set_full_last_text_chunks(self,
                    final_chunks: list[str]):  # 定义递归分割方法。
        if final_chunks:
            # 取最后一个片段
            final_chunk = final_chunks[-1]
            # 计算最后一个分片的长度
            final_chunk_lens = self._length_function([final_chunk])
            # 是否达到阈值,如果未达到，计算空格的长度，使用空格补全
            if final_chunk_lens[0] < self._chunk_size:
                # 计算空格的长度
                space_len = self._length_function(["-"])[0]
                # 未达阈值，补充空格
                sum_len = self._chunk_size - final_chunk_lens[0]
                # 整除
                num = sum_len // space_len
                # 重新合并空格
                space_s = [final_chunk]
                for i in range(num):
                    space_s.append("-")
                final_chunks[-1] = "".join(space_s)
--- a/api/core/rag/splitter/text_splitter.py
+++ b/api/core/rag/splitter/text_splitter.py
@ -69,7 +69,7 @@ class TextSplitter(BaseDocumentTransformer, ABC):
        self._add_start_index = add_start_index
    @abstractmethod
-    def split_text(self, text: str) -> list[str]:
+    def split_text(self, text: str, metadata:Optional[dict] = None) -> list[str]:
        """Split text into multiple components."""
    def create_documents(self, texts: list[str], metadatas: Optional[list[dict]] = None) -> list[Document]:
@ -78,7 +78,7 @@ class TextSplitter(BaseDocumentTransformer, ABC):
        documents = []
        for i, text in enumerate(texts):
            index = -1
-            for chunk in self.split_text(text):
+            for chunk in self.split_text(text,_metadatas[i]):
                metadata = copy.deepcopy(_metadatas[i])
                if self._add_start_index:
                    index = text.find(chunk, index + 1)