欢迎登录广州市档案馆  今天是  
当前位置: 首页 > 人才培养 > 理论研究

人工智能大模型赋能智慧档案馆建设的可为与局限

作者:王海滨、杨柳、叶梓    |    发布时间:2026-01-23    |    来源:中国档案报

  随着人工智能大模型技术的突破,尤其是高性能、低成本开源模型的涌现,档案智能化转型和智慧档案馆建设有了新的技术支撑。本文从实践层面探讨了人工智能大模型在档案领域应用的基础条件,分析了具体应用场景,并针对潜在问题提出了路径建议。

  基础条件

  将人工智能大模型技术应用于档案领域,是推动档案智能化转型、建设智慧档案馆的重要手段。从海量档案的智能化检索、历史文献的语义解析,到破损档案数字化副本的图像修复、敏感信息的自动化脱敏,大模型技术有望全面提升各项档案业务的效率与质量。但这一技术的有效落地,除必需的经费保障外,还需诸多方面的协同。

  软件算法。人工智能大模型在档案领域的应用依赖于成熟的软件算法,但由于档案涉及大量非结构化数据,包括历史文献、图片、音视频等,要求大模型具备强大的自然语言处理、计算机视觉和多模态理解能力,而通用大模型往往难以直接满足需求。档案馆需针对档案数据治理的特点,对预训练大模型进行调整或定制开发,使其在文本处理方面具备强大的自然语言理解能力,进而准确识别不同时期的文字表达方式和专业术语。在图像处理方面,需要具备高精度的OCR识别能力,能够处理不同年代、不同保存状态的档案图像。在知识图谱构建方面,需要具备强大的实体识别和关系抽取能力,能够从海量档案中自动构建知识网络。此外,还需要具备持续学习能力,能够随着新入库档案而更新知识,且不遗忘已有知识。还应考虑性能与资源的平衡,对算法模型进行轻量化改造,通过模型压缩、知识蒸馏等降低计算复杂度,确保在国产硬件上实现低延迟推理。

  硬件算力。为支持大模型高效训练与推理,需具备强大的并行计算能力。为应对未来数据量增长和模型升级的需求,需具有良好的扩展性。为便于运维人员实时掌握系统状态,及时发现和解决问题,需配备完善的监控和管理工具。由于档案数据的特殊性和敏感性,一般需采用国产自主可控的高性能计算设备,进行大模型本地私有化部署。特别是在处理档案数据时,一般需选择符合信创要求的CPU、GPU及存储设备。当前,国产硬件生态的成熟度相对较低,档案馆在项目实施中可能面临大量兼容性和稳定性的挑战,需要与硬件供应商紧密合作,获得持续的技术支持。

  数据资源。档案馆拥有丰富的档案基础数据和业务数据,是训练大模型的重要材料,但这些数据往往存储在不同的系统中,格式不统一,质量参差不齐,需要进行大规模的清洗、标注和整合。清洗可以去除噪声和错误信息,提高数据质量。标注可以为模型提供学习信号,帮助理解档案内容的语义和结构。整合可以将不同系统和格式的档案数据进行统一管理,便于访问和处理。还需建立数据安全管理和隐私保护机制,确保使用过程的合法性和安全性,防止泄露和滥用。

  人才支撑。考虑到档案馆大多缺乏专业的计算机技术人才,可考虑采用“核心团队+外包服务”的模式。核心团队负责业务需求分析、项目管理和质量控制,技术实施则外包给专业的应用服务商。在此模式下,需对档案工作人员进行相关知识培训,确保其能与技术团队高效沟通协作。同时,建立与高校、科研院所的合作机制,引入外部智力支持。长期来看,需要培养既懂档案业务又懂技术的复合型人才。

  场景分析

  辅助智能整理,实现智能著录。大模型在复杂语义理解、多模态数据处理方面具有强大性能优势,可利用其实现智能著录。部分大模型支持多模态数据处理,可据此开发档案内容自动提取功能,实现自动分类并生成题名、责任者、文件日期、文号等关键著录项。同时,可借助其对复杂语义和不同类型的数据的理解,进行档案内容摘要的自动生成。利用其在预训练过程中积累的先验知识,对档案内容进行补充说明,可丰富著录内容。部分大模型还支持表格自动填充和目录自动生成,具备生成格式规范的封面、目录、备考表等的潜力。可运用其辅助开展进馆档案质检,包括关键词的横向比对、数字化副本质量的检查等。

  优化交互式检索,实现多类型智能查询。利用大模型在复杂语义理解、上下文理解等方面的突出优势,结合知识库、知识图谱等技术,可以实现交互式检索,利用者通过简单问答即可快速查询到所需档案。支持多模态数据处理,帮助用户实现以文搜图或者以图搜图,满足多样化检索需求。利用大模型的生成能力和推理能力,可开发关于档案内容的智能问答应用,自动提取相关档案信息回答利用者的问题。同时,结合私有数据、知识库等,能够提供更准确详尽的答案,提高答复质量。

  探索智能编研新方法,形成专题知识图谱。交互式检索可以帮助研究人员较快地收集档案信息。根据给定的研究主题,可协助构思主体框架。还可通过不断的交互式对话来调整、完善研究内容。支持多模态数据处理的大模型可以实现文书、音视频等不同类型基础数据的自动分析,快速形成研究报告或专题汇编。部分大模型的多模态数据生成功能还能生成图表、时间线等可视化产品,丰富编研成果展现形式。

  辅助开放审核和密件筛选,提升效率质量。目前,多数档案馆在开放审核进度上存在较大压力,加之不同时期定密标准和规范要求不同,需投入大量人力和时间进行密件筛选。而大模型在预训练过程中已经学习了大量先验知识,经过微调训练后,可较好地分析出档案内容的历史背景、时间逻辑、事件因果等信息,给出相对准确的开放审核结果。密件筛选方面,人工智能大模型可以利用计算机视觉技术,结合文字识别、图章识别、语义分析等多维度的数据特征,经综合研判后给出建议性意见。

  辅助数据安全监控与分析,提高安全应急管理水平。大模型的推理和数据分析能力能够帮助档案馆实现数据、机房、网络等相关监控管理和分析系统的优化。如,自动生成事件报表和数据分析报告,辅助管理人员快速发现异常事件,提高响应速度。能够全面分析当前的数据安全形势,并给出趋势判断,挖掘潜在的安全风险,提供数据安全防护建议等。

  应注意的问题

  目前,人工智能大模型技术还处于发展和完善阶段,将其应用于档案领域需要充分考虑可能出现的问题和风险。

  (一)模型自身缺点

  ——幻觉现象频发。大模型训练对数据来源及回答结果的真实性、准确性并没有十分严格的限制,由此可能生成看似合理实则错误的内容,要求用户具备一定的结果分析与信息鉴别能力。

  ——逻辑推理不严密。大多数大模型的推理能力是从对海量资料的学习中归纳总结而来的,推理生成结果的过程并不完全可靠。如,大模型统计数据或协助填写表格时,有可能会产生误差,需要人工后期核验。

  ——可解释性差。虽然模型本身的开发、训练和调试基于严谨的数学计算,但其在执行计算时涉及的节点数以万计、涉及的参数数以亿计,模型的内部结构、计算节点、局部数据在具体应用时无法确定,内部决策过程和计算原理像“黑箱”一般,应用人员无法或者很难解读其计算过程的逻辑和含义,限制了大模型在具体应用时的可靠性。

  ——存在安全隐患和算法偏见。根据档案业务需求使用档案数据调试模型,会给安全保密带来一定的挑战,相较于其他行业,需要进行更多前期准备,以保证数据使用合规。另外,大模型在预训练过程中接触的数据来源多样,可能带来数据偏见,特别是在交互式检索的对话过程中,可能引发争议。

  ——更新迭代不及时和重复建设。为了保证档案数据安全,很多技术应用需要本地化部署,无法通过直接联网学习最新的外部数据,导致生成内容在时效上有所滞后。同时,大模型技术本身仍在不断发展,每一次技术迭代升级都带来新的应用潜力,如何避免重复建设和资源浪费,也需要认真考虑。

  (二)软硬件限制

  ——算力。考虑到档案数据的敏感性,算力仍是档案业务与大模型技术结合的一大瓶颈。档案数据大部分为未公开数据,还有相当一部分为涉密数据,租赁云计算资源、购买外部服务等会对数据安全产生一定的威胁,私有化部署较为稳妥,但是实施的硬件成本较高。

  ——适配性。使用国产化芯片、服务器和系统是保证数据安全的重要措施,但是目前国产化产品可供选择的范围较小、软硬件与主流大模型技术的适配性有待提升,特别是国产硬件生态的成熟度目前较低。若要同时兼顾国产化要求和先进技术应用,则项目实施费用较高。

  ——数据量。虽然模型经过了预训练,但在具体档案业务应用落地前,还需要大量的数据“喂养”和调试。由于安全保密性要求,许多档案馆自身并不能提供充足的档案数据用于大模型技术的部署与训练。理论上可以迁移其他档案馆预先调试过的大模型,但由于各馆数据存在差异性,迁移模型在本地数据上的表现就较难控制。同时,共享模型的机构也要承担一定的数据安全风险。

  ——使用习惯。一方面,要在与大模型的交互中积极利用档案业务经验,有效引导模型。另一方面,要减轻对技术的过度迷信,提高信息鉴别能力。

  虽然当前档案业务和大模型技术的深度融合还面临着一些挑战和问题,但随着技术的发展,这些限制和隔阂必会被逐步打破。要持续关注与思考技术的发展动态和趋势,积极尝试推动档案业务与先进技术融合,赋能智慧档案馆建设。

  (作者单位:广州市档案馆)

  原载于《中国档案报》2025年5月26日 总第4293期 第四版