18586361686
2025-05-16 ff33954721dd6c59c79d64c067e90b6de9c31dd1
docs: 更新知识库产品文档
10个文件已添加
101 ■■■■■ 已修改文件
docs/zh/product/knowledge/create-knowledge.md 26 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/embedding.md 27 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/config_embedding_first.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/config_embedding_second.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/create_knowledge.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/file_import_first.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/file_import_second.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/search_test.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/resource/what_is_knowledge.png 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/splitter.md 48 ●●●●● 补丁 | 查看 | 原始文档 | blame | 历史
docs/zh/product/knowledge/create-knowledge.md
New file
@@ -0,0 +1,26 @@
# 如何创建一个知识库
这里以向量数据库 **redis-stack** 为例,创建知识库的时候需要注意以下几点:
1. **知识库名称**:知识库的名称非常重要,所以请确保名称不重复。知识库名称需要让大模型识别,大模型会判断该知识库的名称,从而进行知识库的检索。
2. **知识库描述**:知识库的描述是可选的,但是建议添加描述,方便用户了解知识库的内容。
## 1. 创建向量模型
请参考 [如何创建向量模型](/zh/product/knowledge/embedding)
## 2. 创建知识库
![img_1.png](resource/create_knowledge.png)
## 3. 向知识库导入文件
1. 进入知识库 **文件导入** 页面
![file_import_first.png](resource/file_import_first.png)
2. 首先选择 **分割器** ,然后设置分割器参数,然后选择 点击 **上传文件**,文件分割成功后会返回分割的效果
![file_import_second.png](resource/file_import_second.png)
3. 返回分割效果后,点击 **确认导入**,等待文件上传到知识库中,会提示 **上传成功**
## 4. 检索测试
![search_test.png](resource/search_test.png)
docs/zh/product/knowledge/embedding.md
New file
@@ -0,0 +1,27 @@
# 向量模型
## 介绍
Embedding 模型处理器是一款基于最先进神经网络的向量化计算引擎,能够将文本、图像等非结构化数据转化为高维向量表示。适用于语义搜索、智能推荐、聚类分析等AI应用场景
如何更好的利用好知识库,向量模型的选择是非常重要的,这里建议使用 [模力方舟](https://ai.gitee.com/) 的向量模型。向量模型支持的维度越高,搜索的准确度越高,但是搜索速度越慢。
## 向量模型配置步骤
1. 点击左侧菜单栏的大模型,点击 **新增** 按钮
![config_embedding_first.png](resource/config_embedding_first.png)
2. 如果配置的是知识库的向量模型,记得勾选上 **向量化**, 只有勾选上  **向量化**,向量模型才会生效
![config_embedding_second.png](resource/config_embedding_second.png)
**参数说明**:
**名称**:向量模型名称,可以自由填写<br/>
**品牌**:该模型属于哪个品牌的,**注意**:如果使用 Gitee 的模力方舟,则品牌填写为 **Open AI**<br/>
**API Key**: 向量模型的 ApiKey<br/>
**模型名称**:使用的模型名称,必须和官方的模型名称一致
**其他配置(这里用 Gitee 的向量模型作为配置参考,其他配置参考大模型官方要求进行配置)**:
```yml
embedding=/v1/embeddings # 模型向量化地址
```
docs/zh/product/knowledge/resource/config_embedding_first.png
docs/zh/product/knowledge/resource/config_embedding_second.png
docs/zh/product/knowledge/resource/create_knowledge.png
docs/zh/product/knowledge/resource/file_import_first.png
docs/zh/product/knowledge/resource/file_import_second.png
docs/zh/product/knowledge/resource/search_test.png
docs/zh/product/knowledge/resource/what_is_knowledge.png
docs/zh/product/knowledge/splitter.md
New file
@@ -0,0 +1,48 @@
# 分割器介绍
## **简单文档分割器**:
默认为 **简单文档分割器**,将文件内容按段进行分割,并生成多个文件块。
**简单文档分割器**:主要用于将长文本切分成多个较小的片段(Chunks),并支持片段之间的重叠(Overlap)。
1. 核心参数说明
**(1)chunkSize(分段长度)**
- **含义**:每个文本片段(Chunk)的 最大字符长度(按 String.length() 计算)。
- **作用**:控制单段文本的大小,避免因文本过长导致模型处理困难(如超出 LLM 的上下文窗口限制)。
- **示例**:<br/>
  若 chunkSize=500,则每个片段的字符数 ≤ 500。<br/>
  若剩余文本不足 500 字符,则直接截取剩余部分。
**(2)overlapSize(分段重叠长度)**
- **含义**:相邻两个片段之间 重叠的字符数。
- **作用**:避免因硬截断导致语义断裂(例如一个句子被截成两半)。
- **示例**:
若 chunkSize=500、overlapSize=100,则:
第 1 个片段:0~500 字符
第 2 个片段:400~900 字符(前 100 字符与第 1 片段重叠)
第 3 个片段:800~1300 字符(依此类推)
## **正则文档分割器**:
**正则文档分割器**:采用正则表达式(Regex)作为分割规则,将文档内容按照匹配的模式进行智能拆分,特别适合处理具有规律性结构的文档。
- **智能分割**:根据用户提供的正则表达式模式进行内容分割
- **灵活匹配**:支持所有标准正则表达式语法
- **结构保留**:完美处理结构化文档(如日志、代码等)
## **简单分词器**:
这是一个基于 **Token 计数** 的智能文档分割器,专为处理大语言模型(LLM)输入设计。主要特点:
- 按Token数量而非字符数分割
- 支持重叠分割保持上下文连贯
- 自动处理中文等Unicode字符
- 适配OpenAI等主流模型的Token计算方式
**分段长度**:单段最大Token数<br/>
**分段重叠长度**:    分段重叠Token数
## **Excel片段生成器**:
这是一个专门用于处理 **Excel表格数据** 的文档分割器
**分段长度**:每个分块的行数,根据excel的行数进行分割