千帆AppBuilder企业级RAG新功能演示1:导入文本文档数据
千帆AppBuilder企业级RAG新功能演示1:导入文本文档数据
大家好!本节内容我们将体验千帆AppBuilder平台上企业级RAG(检索增强生成技术)的全新功能,特别是关于如何导入文本文档数据。
千帆AppBuilder平台支持多种不同类型、不同格式的知识上传。首先,我们来演示如何导入文本文档。
登录百度智能云千帆AppBuilder后,在左侧个人空间可以查看并创建知识库。当前,平台支持创建多达100个知识库。创建时,需要给知识库起一个名字,并可选择性地添加描述。
接下来,选择切片托管资源。这里有两种方式:千帆AppBuilder共享资源和百度BS独享资源。千帆AppBuilder共享资源支持小规模的文件切片索引,操作简便。而百度BS独享资源则需要先开通BS并创建BS集群实例,支持检索更大的文件数量规模,且用户可自由管理知识,实现资源隔离,数据更安全。
文件源导入平台支持三种方式:文本文档数据、知识问答数据以及读取网页数据源。
导入文本文档数据:支持Word、TXT、PDF等多种格式。可以选择本地上传或百度对象存储(BOS)作为导入来源。本地上传支持单次上传最多100个文档,且文档不宜过大。BOS支持大规模数据导入,配合BS使用则不限制上传文档数量。
导入知识问答数据:支持Excel等表格类文件。用户需先下载Excel模板,再根据模板上传问答对数据。
读取URL链接数据:支持解析网页内容,并可设置更新频率,对导入知识库的URL网页数据进行定时内容更新。
以导入文本文档数据为例,演示步骤如下:
- 登录千帆AppBuilder平台,选择创建知识库并命名。
- 选择切片托管资源,这里以千帆AppBuilder共享资源为例。
- 选择导入文本文档数据,并从本地或BOS上传文件。
- 上传后,进行文档配置,包括自定义配置和模板配置。自定义配置中,可设置解析策略(文字提取、光学字符识别、版面分析)、切片策略(默认切分或自定义切片,包括切片最大长度、切片重叠最大字数占比等)、关联信息(关联标题、文件名及子标题)。模板配置则提供了简历、PPT、论文文档、结构化问答对等内置模板,以快速解析和切片文档。
此外,平台还提供了知识增强功能,通过调用大模型抽取更丰富的知识点,增加切片的召回率。知识增强方式包括问题生成、段落概要和三元组知识抽取,可多选以提升知识问答的效果。
完成配置后,点击确认创建知识库。当状态变为可用时,说明知识已解析完成,可通过查看切片来检查文档的切分效果。
以上便是千帆AppBuilder企业级RAG新功能中导入文本文档数据的详细演示。