千帆AppBuilder企业级RAG新功能演示3:读取网页数据源
千帆AppBuilder企业级RAG新功能演示3:读取网页数据源
大家好!
本小节我们继续分享千帆IB平台上企业级RAG(Rapid Application Generation,快速应用开发)功能的使用。上一小节我们分享了如何导入文本文档数据及导入知识问答数据,那么本小节我们来分享第三种功能——读取网页数据源。
在文件源导入功能中,平台支持三种主要文件类型:除了文本文档和Excel文件外,还支持用户直接通过URL链接来创建知识库。接下来,我们将详细介绍如何通过URL链接来读取网页数据源。
平台提供了两种URL解析方式:
解析网页内容:
- 这种方式仅支持解析用户所上传的URL对应的网页数据。
- 用户可以进行逐个上传,最多支持10条URL。
- 或者,用户也可以通过Excel文件填写多个URL进行批量上传。
解析子网页及网页内容:
- 这种方式会将用户上传的URL作为根目录,自动解析其包含的全部子目录的网页数据。
- 用户可以通过单个根目录URL上传,此时只支持一个URL。
- 同样,用户也可以通过Excel文件填写多个作为根目录的URL进行批量上传。
为了演示,我们找了一个有关进出口商品交易会的网页链接。在平台上,我们将这个链接粘贴到相应的输入框中。由于网页可能会更新,为了保证知识库中信息的及时性,用户可以设置更新频率。设定更新频率后,系统将在每周期的0点开始采集URL内容并入库,新内容将会覆盖原始的自动切分切片及知识点。如果用户长时间未调用知识库,URL的自动更新将会暂停,直至再次调用后继续执行自动更新。
当然,用户也可以选择不自动更新URL,而是根据需要手动更新。
解析成功之后,用户可以看到网址已经解析了多少个子目录(以我们的例子为例,解析了214个子目录)。接下来,用户需要进行切分配置,这与前面小节演示的内容相同,有三种切分策略可选,每种策略对应不同的选项。
由于子网页的内容可能较多,知识库的创建需要一些时间。此外,可能会有部分URL处理失败,这时用户可以手动检查这些网址是否本身存在问题,或者是否与知识内容无关,进而选择是否删除。
等到所有的URL都变成可用状态时,表示知识库已经创建完成。此时,用户可以查看每一个URL的切片,并进行进一步的管理和操作。
以上就是通过URL链接在千帆IB平台上创建知识库的方式。RAG作为千帆IB平台的核心功能之一,为用户提供了便捷的数据导入和知识库创建能力。欢迎大家结合自己的实际业务在平台上使用这个功能。
谢谢大家!