千帆AppBuilder企业级RAG新功能演示3:读取网页数据源

千帆AppBuilder企业级RAG新功能演示3:读取网页数据源 大家好! 本小节我们继续分享千帆IB平台上企业级RAG(Rapid Application Generation,快速应用开发)功能的使用。上一小节我们分享了如何导入文本文档数据及导入知识问答数据,那么本小节我们来分享第三...

作者 铂傲智能团队
英文版本稍后补充。
#RAG #千帆AppBuilder #网页数据

千帆AppBuilder企业级RAG新功能演示3:读取网页数据源

大家好!

本小节我们继续分享千帆IB平台上企业级RAG(Rapid Application Generation,快速应用开发)功能的使用。上一小节我们分享了如何导入文本文档数据及导入知识问答数据,那么本小节我们来分享第三种功能——读取网页数据源。

在文件源导入功能中,平台支持三种主要文件类型:除了文本文档和Excel文件外,还支持用户直接通过URL链接来创建知识库。接下来,我们将详细介绍如何通过URL链接来读取网页数据源。

平台提供了两种URL解析方式:

  1. 解析网页内容

    • 这种方式仅支持解析用户所上传的URL对应的网页数据。
    • 用户可以进行逐个上传,最多支持10条URL。
    • 或者,用户也可以通过Excel文件填写多个URL进行批量上传。
  2. 解析子网页及网页内容

    • 这种方式会将用户上传的URL作为根目录,自动解析其包含的全部子目录的网页数据。
    • 用户可以通过单个根目录URL上传,此时只支持一个URL。
    • 同样,用户也可以通过Excel文件填写多个作为根目录的URL进行批量上传。

为了演示,我们找了一个有关进出口商品交易会的网页链接。在平台上,我们将这个链接粘贴到相应的输入框中。由于网页可能会更新,为了保证知识库中信息的及时性,用户可以设置更新频率。设定更新频率后,系统将在每周期的0点开始采集URL内容并入库,新内容将会覆盖原始的自动切分切片及知识点。如果用户长时间未调用知识库,URL的自动更新将会暂停,直至再次调用后继续执行自动更新。

当然,用户也可以选择不自动更新URL,而是根据需要手动更新。

解析成功之后,用户可以看到网址已经解析了多少个子目录(以我们的例子为例,解析了214个子目录)。接下来,用户需要进行切分配置,这与前面小节演示的内容相同,有三种切分策略可选,每种策略对应不同的选项。

由于子网页的内容可能较多,知识库的创建需要一些时间。此外,可能会有部分URL处理失败,这时用户可以手动检查这些网址是否本身存在问题,或者是否与知识内容无关,进而选择是否删除。

等到所有的URL都变成可用状态时,表示知识库已经创建完成。此时,用户可以查看每一个URL的切片,并进行进一步的管理和操作。

以上就是通过URL链接在千帆IB平台上创建知识库的方式。RAG作为千帆IB平台的核心功能之一,为用户提供了便捷的数据导入和知识库创建能力。欢迎大家结合自己的实际业务在平台上使用这个功能。

谢谢大家!