使用自定义分块机制加速性能与 Amazon Bedrock 机器学习博客

2026-01-27 13:10:32

提升性能：使用 Amazon Bedrock 的自定义分块机制

由 Kristin Olesova、Selimcan Sakar、Zdenko Estok、Shikhar Kwatra 和 Marcelo Silva 于 2024 年 8 月 21 日发布，内容涉及 Amazon Bedrock、Amazon 机器学习、Amazon OpenSearch 服务、Amazon Textract、人工智能、AWS Lambda、专家级、合作伙伴解决方案以及技术指南。

永久链接评论区

关键要点

组织需要从非结构化PDF文档中提取结构化信息，面临诸多挑战。定制化分块机制可有效提高聊天机器人和自然语言处理应用的性能。Accenture 的团队利用 Amazon Bedrock 的知识库创建了一个自定义分块机制，以提升检索增强生成RAG的性能。通过使用 Amazon Textract 提升信息提取的精确性，并对分块进行优化，确保信息的上下文得以保留。

在当今数据驱动的世界中，各组织经常面临从非结构化 PDF 文档中提取结构化信息的挑战。这些 PDF 可能包含多种元素，如图像、表格、标题和格式各异的文本，导致数据的解析和分析变得困难。

此外，聊天机器人和其他自然语言处理NLP应用的性能在很大程度上依赖于所采用的分块策略。错误的分块可能导致上下文信息的丢失，从而造成误解和不准确的响应。而且，语言模型的性能还受到分块大小的影响，较小的分块提供更细致的信息，但通常在概括方面表现不佳，而较大的分块可能会遗漏重要细节。

本篇文章将探讨 Accenture 如何利用 Amazon Bedrock 知识库的定制能力，将其数据处理工作流程和自定义逻辑相结合，创建出一种自定义分块机制，以提升检索增强生成RAG的性能，并充分发挥 PDF 数据的潜力。

解决方案概述

Accenture 团队创建了一个知识库，其中包含2020年至2024年每个季度的财务结果。这些文档包含图像、表格、以不同格式存储的文本及其他噪声元素。

在此用例中，我们希望提取表格中包含的细节信息，并保持基础模型FMs的良好概括能力，以回应有关财务结果的普遍问题。

经过测试，我们发现搜索机制无法正确检索指定年份和季度的信息。以下截图显示了一个示例，其中查询是针对2023年第一季度的信息，但搜索机制返回了2020年第一季度的信息。

我们无法通过不同的搜索策略或更改检索块的数量来提取正确的数据块。在经过更严格的测试后，我们发现解析表格信息和检索正确数据方面存在困难。由于这些问题与搜索算法无法选择正确偏移量相关，因此我们决定改变分块策略，并尝试 Amazon Bedrock 中的新特性。

更新解决方案的架构流程如下所示：

创建数据源，所有数据存储在 Amazon Simple Storage Service (Amazon S3) 或其他数据库中。这可以包括包含表格、表单和其他复杂元素的自定义 PDF。对存储在数据源中的 PDF 执行 Amazon Textract。Amazon Textract 是一项高精度服务，可以从几乎任何文档中提取文本、表格及其他数据。基于 Amazon Textract 输出中的段落创建块。对于每个块，添加额外的元数据，如章节标题和文档名称，以保留上下文。使用 Amazon Bedrock 知识库控制台将分块文件嵌入到向量中。在创建块的向量表示时选择无分块。设置系统提示、搜索策略、块数及适用的元数据过滤，并向用户提出问题。使用 Amazon OpenSearch 服务的向量搜索功能选择与用户查询提示最相似的嵌入块。从 Amazon Bedrock 调用一个基础模型，并根据 OpenSearch 服务提供的块获得答案。

工作流程中的步骤通过 AWS Lambda 进行编排，如下图所示：

快鸭加速器最新版

该分块机制使用 Amazon Textract 检测段落、表格、图像、章节标题和其他 PDF 布局元素，以改善分块避免在句子或段落中间拆分文本、消除噪声，并为元数据生成提供更多上下文。我们可以直接在过滤过程中或作为提示模板中的提示使用这些元数据，以提高生成响应的准确性。借助每个 PDF 元素的指定逻辑，我们可以根据元素的类别采取正确的行动。

主要 PDF 元素如下：

表格表格是 PDF 中最难处理的布局元素。信息只有在正确识别标题和列名时才能正确提取。由于无论固定大小的分块是否能保证所有行信息都会与表头在同一块中，因此这是一个挑战。我们可以使用表格检测来提取表格，并将其保存在 CSV 文件中，甚至将其直接用作代理的数据源。图像如果文本中包含与用户指令关联的图像，可以在预处理阶段检测并标记图像。随后，这些图像可以存储在 Amazon S3 中，并通过相关标签在聊天窗口中显示。页码、标题和页脚这些文本信息对 RAG 模型没有任何价值，且可能会严重混淆它们。此外，存储页头和页脚可能会占用向量数据库中的大量空间，并导致显著成本而收益微乎其微。章节标题和子标题在许多文档中，章节标题描述了章节的上下文。这些信息可以帮助我们通过元数据标记块，或直接在过滤过程中包含这些信息，从而提高提取的准确性和速度。

使用 Amazon Bedrock 的知识库进行自定义分块

在本节中，我们展示如何使用所提出的自定义分块解决方案。

注意：提供的内容和代码仅供参考。在运行以下信息之前，请进行独立评估。

此过程包括以下步骤：

使用自定义分块机制加速性能与 Amazon Bedrock 机器学习博客为每一个财务文档指定自定义元数据，以支持分析。对于本篇文章，我们指定了季度、财政年度、公司及其他字段的信息：

pythonmetadata = { metadataAttributes { documentname documentnamesplit(pdf)[0] fiscalyear fiscalyear quarter quarter maintopic secondarytopic format Text }}

将 PDF 文件拆分为多个图像或单个 PDF 文件。确保高分辨率以正确区分文件中的所有字符。调用 Amazon Textract 检测布局项目和表格项目：

pythondef textractdata(self output) image = Imageopen(output)

document = selfextractoranalyzedocument(    filesource=image    features=[TextractFeaturesLAYOUT TextractFeaturesTABLES]    saveimage=True)newlayout = selfsavetable(document)selfsavetext(newlayout)

保存表格信息。在本示例中，我们使用 Anthropic 的 Claude 模型，这能够正确解析 CSV 格式的文件。导出所有检测到的表格为 CSV，并将表格名称和指定表格格式作为额外的元数据保存：

pythondef savetable(self document) tablecount = 0 if documenttables for layout in documentlayouts if layoutlayouttype in LAYOUTTITLE selfmetadata[metadataAttributes][maintopic] = layouttext elif layoutlayouttype == LAYOUTSECTIONHEADER selfmetadata[metadataAttributes][secondarytopic] = layouttext elif layoutlayouttype == LAYOUTTABLE table = documenttables[tablecount] dftable = tabletopandas() selfmetadata[metadataAttributes][format] = Table

            tfile = selftablesdirectory  f/{selfdocumentname}tablep{selfpagenumber}t{tablecount}csv            with open(tfile w) as csvfile                csvfilewrite(dftabletocsv(index=False header=False))            with open(tfile  metadatajson w) as jsonfile                jsondump(selfmetadata jsonfile)            tablecount = 1

处理表格和图像以外的信息。我们创建元数据标签，其中包含有关主章节标题和子标题的信息。这些信息可以通过元数据过滤器或在使用系统提示时提高性能。对于每个数据块，在元数据中指定其所属的章节和子章节。理想情况下，应该为每个子章节拥有一个数据块，但这并不是总能实现。如果许多子章节过长无法通过一个块解析，则可以在段落末尾拆分文本，并将相同的元数据用于另一个块：

pythonfor layout in document if layoutlayouttype in LAYOUTTITLE selfmetadata[metadataAttributes][maintopic] = layouttext elif layoutlayouttype == LAYOUTSECTIONHEADER # 在每个子章节开始时拆分文本 selfcreatechunk() # 保存前一个块到 chunkdic for chunk in selfchunkdic # 保存所给章节的所有块 selfmetadata[metadataAttributes][format] = Text with open(chunk[outputpath] w) as textfile # 创建指定文本的 txt 文件 textfilewrite(chunk[text] str(chunk[metadata])) with open(chunk[outputpath] metadatajson w) as jsonfile # 为给定块创建元数据文件 jsondump(chunk[metadata] jsonfile) selfsubtitle = [] selfchunkdic = []

    selfmetadata[metadataAttributes][secondarytopic] = layouttextelif layoutlayouttype in [LAYOUTLIST LAYOUTTEXT]    if (len(selfnewchunk  layouttext) gt chunkmax) and (len(selfnewchunk) gt chunkmin) # 如果章节中的文本过大，就在段落结束时拆分        selfcreatechunk()    selfnewchunk = selfnewchunk  layouttext

这种方法的好处在于，即使文本在下一页继续，该机制也能够将其分配到正确的块中如果文本在有限的向量空间内。这有助于防止在句子中间拆分文本，这通常会导致误解。

在拆分文本后，为每个块创建两个文件：一个 txt 块文件及其元数据字符串。

一个 metadatajson 文件，可与知识库元数据和过滤器一起使用。

完成拆分后，将文件上传到 Amazon S3，并继续使用无分块选项创建知识库。

使用自定义分块选项时，请记住可能块的最大大小。如果文本块过大，文件的向量化将会失败，文件将无法用于知识库。

自定义分块的好处

自定义分块提供了如下优势：

上下文保留通过根据章节或子章节对文本进行分块，可以确保每个部分的上下文在整个块中保持相关，从而实现更准确的向量表示，减少噪声。灵活的块大小自定义分块允许动态调整块大小，解决了为不同用例选择最佳块大小的挑战。改进检索性能通过自定义分块与 Amazon Bedrock 的高级检索能力如元数据过滤，可以显著增强检索框架的性能，从而实现更快速、更准确的洞察。无缝集成 Amazon Bedrock 与其他 AWS 服务如 Amazon S3 和 Amazon Textract无缝集成，为数据提取、组织和分析提供了一种精简的解决方案。

元数据过滤与系统提示的比较

元数据过滤是一种强大功能，可以显著增强搜索算法的性能。通过利用元数据过滤指定财政年度和季度，我们在响应准确性上实现了显著提升。目前，Amazon Bedrock 控制台要求用户对元数据信息的名称及其对应值有先前了解。截至文章撰写时，无法直接通过提示来指定这些过滤器。因此，在实际应用中，用户需要指导或提示来帮助他们选择合适的过滤值。

下图展示了在相同模型和分块逻辑下启用元数据过滤的示例。在第一个问题中，仅使用提示时，搜索算法未能提供正确文档中的块。而在第二个问题中，我们通过财政年度2023和季度Q3进行了过滤。搜索算法的输出仅为一个块，但确实是正确的。

性能比较

我们比较了固定分块、自定义分块和带提示的自定义分块。我们使用 Amazon Titan Embeddings Text v1 模型进行自定义分块、基准和元数据过滤。我们使用 Claude Sonnet 3 模型和混合搜索执行了额外的知识库测试，最大获取结果为 20 条。

我们在以下几个任务上测试了模型的性能：

表格信息仅能从表中提取的信息。长问题使用多个块总结章节。对于小嵌入窗口的模型而言，这是一个困难的任务。特定年份的问题答案非常简短且明确，但正确的提取依赖于向量搜索根据用户问题确定时间跨度并提取对应时间跨度的块的能力。

我们手动通过检查模型生成的信息与源数据的事实进行性能评估。以下截图展示了在两个不同知识库中的一些示例问题及其生成的答案，适用于 yearsensitive 一类问题。

第一个示例使用了 Amazon Titan Embeddings 模型的自定义分块。

下一个示例使用了 Cohere 的固定分块。

我们在2024年4月发布的提示模板功能上应用了该模型，使其关注于关于财政年度和季度的详细信息。这些信息与元数据 JSON 文件中的内容相同，并为模型提供了一些提取有效块的重要信息。以下是系统提示的示例：

plaintext用户：

您是一位专注于公司财务报表和审查的问答代理。我将向您提供一组搜索结果和用户问题；您的任务是仅使用搜索结果中的信息来回答用户的问题。在回答问题之前，请逐步思考并根据提供的 {} 括号中的 metadataAttributes 验证您的响应。如果在用户问题中提供，请始终确保

使用 AWS Lake Formation 去中心化 LF 标签管理大数据博客

2026-01-27

利用 AWS Lake Formation 实现 LF 标签管理的去中心化作者：Ramkumar Nottath 和 Mert Hocanin，发布日期：2023年11月16日分类：分析公告 AW...

在受监管机构上理解 Amazon EKS 的秘密管理安全博客

2026-01-27

亚马逊 EKS 上的秘密管理解析：为受监管机构提供解决方案关键要点AWS 的受监管行业客户，例如金融服务或医疗保健行业，需满足相应的合规要求。本文探讨如何通过 Amazon Elastic Kuber...

精品项目

使用自定义分块机制加速性能与 Amazon Bedrock 机器学习博客

提升性能：使用 Amazon Bedrock 的自定义分块机制

关键要点

解决方案概述

使用 Amazon Bedrock 的知识库进行自定义分块

自定义分块的好处

元数据过滤与系统提示的比较

性能比较

公司项目

最新内容

时间序列预测与 Amazon SageMaker AutoML 机器学习博客

如何生成安全发现，以帮助您的安全团队进行事件响应模拟安全博客

联系方式