| docs/zh/product/knowledge/create-knowledge.md | ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/embedding.md | ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/config_embedding_first.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/config_embedding_second.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/create_knowledge.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/file_import_first.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/file_import_second.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/search_test.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/resource/what_is_knowledge.png | 补丁 | 查看 | 原始文档 | blame | 历史 | |
| docs/zh/product/knowledge/splitter.md | ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史 |
docs/zh/product/knowledge/create-knowledge.md
New file @@ -0,0 +1,26 @@ # 如何创建一个知识库 这里以向量数据库 **redis-stack** 为例,创建知识库的时候需要注意以下几点: 1. **知识库名称**:知识库的名称非常重要,所以请确保名称不重复。知识库名称需要让大模型识别,大模型会判断该知识库的名称,从而进行知识库的检索。 2. **知识库描述**:知识库的描述是可选的,但是建议添加描述,方便用户了解知识库的内容。 ## 1. 创建向量模型 请参考 [如何创建向量模型](/zh/product/knowledge/embedding) ## 2. 创建知识库  ## 3. 向知识库导入文件 1. 进入知识库 **文件导入** 页面  2. 首先选择 **分割器** ,然后设置分割器参数,然后选择 点击 **上传文件**,文件分割成功后会返回分割的效果  3. 返回分割效果后,点击 **确认导入**,等待文件上传到知识库中,会提示 **上传成功** ## 4. 检索测试  docs/zh/product/knowledge/embedding.md
New file @@ -0,0 +1,27 @@ # 向量模型 ## 介绍 Embedding 模型处理器是一款基于最先进神经网络的向量化计算引擎,能够将文本、图像等非结构化数据转化为高维向量表示。适用于语义搜索、智能推荐、聚类分析等AI应用场景 如何更好的利用好知识库,向量模型的选择是非常重要的,这里建议使用 [模力方舟](https://ai.gitee.com/) 的向量模型。向量模型支持的维度越高,搜索的准确度越高,但是搜索速度越慢。 ## 向量模型配置步骤 1. 点击左侧菜单栏的大模型,点击 **新增** 按钮  2. 如果配置的是知识库的向量模型,记得勾选上 **向量化**, 只有勾选上 **向量化**,向量模型才会生效  **参数说明**: **名称**:向量模型名称,可以自由填写<br/> **品牌**:该模型属于哪个品牌的,**注意**:如果使用 Gitee 的模力方舟,则品牌填写为 **Open AI**<br/> **API Key**: 向量模型的 ApiKey<br/> **模型名称**:使用的模型名称,必须和官方的模型名称一致 **其他配置(这里用 Gitee 的向量模型作为配置参考,其他配置参考大模型官方要求进行配置)**: ```yml embedding=/v1/embeddings # 模型向量化地址 ``` docs/zh/product/knowledge/resource/config_embedding_first.png
docs/zh/product/knowledge/resource/config_embedding_second.png
docs/zh/product/knowledge/resource/create_knowledge.png
docs/zh/product/knowledge/resource/file_import_first.png
docs/zh/product/knowledge/resource/file_import_second.png
docs/zh/product/knowledge/resource/search_test.png
docs/zh/product/knowledge/resource/what_is_knowledge.png
docs/zh/product/knowledge/splitter.md
New file @@ -0,0 +1,48 @@ # 分割器介绍 ## **简单文档分割器**: 默认为 **简单文档分割器**,将文件内容按段进行分割,并生成多个文件块。 **简单文档分割器**:主要用于将长文本切分成多个较小的片段(Chunks),并支持片段之间的重叠(Overlap)。 1. 核心参数说明 **(1)chunkSize(分段长度)** - **含义**:每个文本片段(Chunk)的 最大字符长度(按 String.length() 计算)。 - **作用**:控制单段文本的大小,避免因文本过长导致模型处理困难(如超出 LLM 的上下文窗口限制)。 - **示例**:<br/> 若 chunkSize=500,则每个片段的字符数 ≤ 500。<br/> 若剩余文本不足 500 字符,则直接截取剩余部分。 **(2)overlapSize(分段重叠长度)** - **含义**:相邻两个片段之间 重叠的字符数。 - **作用**:避免因硬截断导致语义断裂(例如一个句子被截成两半)。 - **示例**: 若 chunkSize=500、overlapSize=100,则: 第 1 个片段:0~500 字符 第 2 个片段:400~900 字符(前 100 字符与第 1 片段重叠) 第 3 个片段:800~1300 字符(依此类推) ## **正则文档分割器**: **正则文档分割器**:采用正则表达式(Regex)作为分割规则,将文档内容按照匹配的模式进行智能拆分,特别适合处理具有规律性结构的文档。 - **智能分割**:根据用户提供的正则表达式模式进行内容分割 - **灵活匹配**:支持所有标准正则表达式语法 - **结构保留**:完美处理结构化文档(如日志、代码等) ## **简单分词器**: 这是一个基于 **Token 计数** 的智能文档分割器,专为处理大语言模型(LLM)输入设计。主要特点: - 按Token数量而非字符数分割 - 支持重叠分割保持上下文连贯 - 自动处理中文等Unicode字符 - 适配OpenAI等主流模型的Token计算方式 **分段长度**:单段最大Token数<br/> **分段重叠长度**: 分段重叠Token数 ## **Excel片段生成器**: 这是一个专门用于处理 **Excel表格数据** 的文档分割器 **分段长度**:每个分块的行数,根据excel的行数进行分割