回到顶部
近期,美国联邦政府资助的MITRE公司正在基于网络战场景开展开创性人工智能模型测试,旨在测试和确定大语言模型(LLM)在生成或识别恶意代码方面是否可以增强网络操作或引入新的安全风险,特别是生成或识别恶意代码。
MITRE公司是一个非营利性组织,其前身为麻省理工学院的林肯实验室,诞生于冷战时代。该公司主要通过美国联邦政府资助和与其他公私企业或部门合作获取研发资金。自成立以来,MITRE一直致力于技术创新与研发,多次被评为美国最适宜工作的公司,并在多个领域取得了显著成就,包括但不限于网络安全、公共卫生、国防建设等。MITRE公司此次测试是为了解LLM在防御性和进攻性网络安全行动中的潜在应用和局限性,以及可能对未来人工智能网络安全工具的开发和部署产生的重要影响。
据外媒介绍,此次MITRE利用已有和定制的工具,开发出一种全面的方法来评估LLM在网络安全环境中的能力。主要通过模拟网络作战场景、安全侦察工具模拟、进攻场景模拟多种测试场景,以全面评估LLM的能力。这些测试不仅考察了LLM的基础知识掌握情况,还深入探究了其在复杂安全侦察和进攻场景中的决策能力。
在MITRE的评估框架中,针对大语言模型(LLM)的能力测试被设计为三个递进阶段。首先是模拟网络作战场景。为了初步探查未经任何优化或特殊调整的LLM的基础表现,研究团队设计了一组围绕模拟网络作战场景的多项选择题。这些问题广泛覆盖了MITRE ATT&CK框架的精髓,通过随机化的题目设置与选项排列,有效避免了LLM仅凭记忆作答的可能性,确保测试能够真实反映其理解和分析复杂网络作战场景的能力。
紧接着,评估进入了第二阶段安全侦察工具模拟。即要求LLM模拟MITRE著名的安全侦察工具“猎犬”。通过模拟“猎犬”工具的工作流程与功能,MITRE能够直接观察到LLM在处理安全侦察任务时的表现,评估其是否具备揭示隐藏关系、识别攻击路径等高级安全分析能力,深入探究LLM在理解和复制复杂安全软件方面的潜力。
最后是进攻场景模拟。为了全面检验LLM在进攻性网络安全行动中的战略决策能力,MITRE利用先进的数据生成模型CyberLayer,构建了一个高度动态且复杂的网络环境。CyberLayer不仅创造了新的网络架构,还不断更改拓扑结构,并模拟了社交网络等复杂交互场景。在这样的环境中,LLM被赋予模拟网络攻击的任务,其战略规划、目标选择、攻击执行等关键决策能力都将受到严格考验。
测试结果显示,不同LLM模型在各项测试中的表现存在显著差异,但总体上均展现出了一定的潜力和局限性。模拟网络作战场景测试中较大的LLM模型在处理复杂问题时往往表现更好,这可能与它们更强的语义理解和推理能力有关。但LLM在应对未知情况存在局限性,未来的研究应关注如何提升LLM的泛化能力。
安全侦察工具测试显示,LLM在理解和复制复杂安全软件方面的能力与其内部结构和训练数据密切相关。未来的研究需要关注如何通过优化LLM的结构和训练数据来提升其表现。进攻场景测试显示,LLM在进攻场景中的战略决策能力与其模型规模和训练数据的质量密切相关。较大的LLM模型由于具有更强的语义理解和推理能力,因此在制定和执行攻击策略时更具优势,未来的研究应更加关注如何提升LLM的适应性和灵活性。
MITRE在网络战场景中测试人工智能模型的研究不仅为理解LLM在网络安全中的潜力提供了重要见解,还为未来人工智能网络安全工具的开发和部署指明了方向。目前,MITRE正在积极与更广泛的安全社区合作,以扩大和改进其研究方法。同时也在积极向安全专家寻求更多新颖测试想法的意见,以合作的方式应对人工智能在网络安全方面带来的挑战。未来的研究可能集中于开发人工智能防御工具,以及探索减轻网络攻击中恶意使用LLM的潜在风险的方法。