预训练权重是什么（预训练权重文件是什么）

本文提出了“网络空间威胁权集”术语并阐述了概念、要素及关键技术，其具有表达已知和未知威胁的权威性、衡量威胁强度的权衡性，为从本质上认知威胁提出了全新视角和方法，可为网络威胁检测及防御提供逼真、权威、可量化、可调节的数据基座。

网络空间威胁权集

（Authoritative and Measurable Dataset on Cyberspace Threats，AMDCT）

作者：陈兴蜀郭世泽王小娟

InfoBox：

中文名：网络空间威胁权集

外文名：Authoritative and Measurable Dataset on Cyberspace Threats，AMDCT

学科：计算机科学与技术、网络空间安全

实质：开展对复杂信息系统的行为测序，自动标识威胁致效行为，通过刻画已知、演化未知构建权威可计量的威胁数据集。

研究背景

随着信息技术的快速发展及数字时代的到来，网络空间正面临越来越复杂、隐匿、智能的网络威胁，对网络空间的威胁态势感知、防御体系构建带来了更大的挑战。网络威胁数据是认知威胁、开展威胁研究的重要基础，指任何可能对网络或节点产生破坏、延迟、越权、暴露等不良后果的网络威胁相关的硬件、系统、运行状态、日志等数据。目前已有数据大多在封闭环境下捕获或模拟形成，难以展现复杂网络应用场景的真实状态；威胁类型不充足且往往仅包含某些类别的网络威胁，难以为威胁检测或防御提供贴近真实场景的威胁数据支撑；缺乏有效的对威胁强度、威胁复杂度等的调节或表征方法，难以支撑对防御能力量化评估的要求。本质问题是现有威胁数据均是基于已知威胁所构建，缺乏对未知和未来可能出现的威胁的认知理论和方法。网络空间防御的研究和能力评估面临着威胁数据不全面、真实度不高、滞后于攻击等问题，急需从本质上、理论上建立全面掌握网络空间威胁的新理念。

定义

网络空间威胁权集是能客观、真实展现复杂网络应用场景遭受攻击的数据、方法、工具、标准的集合，它是构建威胁数据集的一套方法和技术，也是一种认知威胁本质的理论体系。网络空间威胁权集具有表达已知威胁、演化未知威胁的能力，能客观、全面地展现当前和未来威胁，即权威性；能根据评估需求输出目标场景（背景数据）及类型、强度等可量化输出的威胁数据，为网络安全防御能力的量化评估提供标准、尺度，即权衡性。

研究概况

当前面向网络威胁检测、防御的威胁数据从获取方式的角度，可划分为捕获数据、复现数据、生成数据三类。但是现有网络威胁数据主要来源于特定环境下的捕获或模拟，其复现、生成难以真实反映目标网络信息系统的复杂性和多变性，且只能基于已知样本数据开展相关研究。当前，网络威胁认知框架的研究主要集中在攻击与防御角度，其中Cyber Kill Chain、STRIDE模型及ATT&CK模型备受关注。Cyber Kill Chain模型由洛克希德·马丁公司提出，揭示网络攻击的七个阶段，提升攻击可见性，但缺乏深入洞察攻击工具的功能，主要用于威胁识别和分类。STRIDE模型受限于软件开发场景。ATT&CK模型则站在防御者角度，描述攻击技术，指导网络安全防御，但缺乏工具支持、互操作性，且难以应对未知威胁，其防御效果仍需验证。对于评估方法方面，防御能力评估旨在量化网络安全产品和系统的防御水平。当前研究主要集中在网络脆弱性、威胁及风险的综合评估。在现行的网络威胁防御评估标准的研究中，如我国推行的等级保护、云服务安全评估等办法提升了网络空间的防御能力，但这些评估标准或规范往往仅针对特定技术或应用场景的安全防御能力，且难以应对新技术发展和新型威胁所带来的挑战。根本原因，是因为欠缺一套从本质上认知网络威胁的理论方法，网络威胁认知体系是用于指导网络威胁防御工作的一套科学的方法和工具体系。

网络威胁往往由一系列行为构成，其中有正常操作，也有提升权限、伪装、窃取信息等的异常行为，为了从本质上揭示网络威胁，给出以下术语及其定义。

定义1 行为。指针对复杂信息系统中不同域、不同子系统乃至不同模块中对象的操作，行为包括若干属性，至少包括：时间、空间、主体、操作、客体等。其中时间指行为发生的时间；空间指行为的环境，以硬件、操作系统、应用等分层结构描述行为发生的环境；主体指行为发出者，如进程等；操作指行为的具体动作及描述等；客体指行为操作的对象。

定义2 威胁原子行为。指能够独立对某个客体（文件、目录、函数、账号等）的安全属性（机密性、完整性、可用性等）产生破坏效果的操作序列，由一个或若干个有时序逻辑的行为组成，且该行为再分解无法对该客体的安全属性实施破坏。

定义3 安全属性向量。用来量化一个威胁原子行为对某个客体安全属性的破坏程度，可以形式化表达为下式：

其中O代表本次行为的客体，其中c、i、a分别代表威胁原子行为该客体的机密性、完整性、可用性的影响程度（安全属性可根据需要进行扩展），值越接近1表示相应安全属性破坏程度越大，反之越小。

从网络威胁对信息系统中各类对象造成破坏——即致效的行为序列开展研究，研究威胁原子行为测量、破坏量化方法，形成从本质上认知网络威胁的方法论。威胁原子行为来源于各类已知威胁，但不依赖于特定威胁，是对客体产生实质性破坏的本质操作，故可对其进行组合、编排等演化，以形成新型的威胁原子行为。

基于此，我们提出了网络空间威胁权集的概念。面向评估目标，构建并输出可定制、可量化、适配目标网络与应用场景，融合目标场景数据与网络威胁数据，为防御能力评估提供网络信流、硬件接口、系统行为、业务交互等不同观测点的不同类型数据（如网络观测点的数据为网络数据包，主机行为观测点的数据为系统调用或内核函数调用序列等），构建网络威胁数据基座。网络空间威胁权集包含三个核心要素：背景库、威胁库与想定库，如图1所示。

图1 网络空间威胁权集构建

背景库指能充分、客观、全面地展示不同网络信息系统运行场景的数据、方法及标准的集合，不仅包括在不同观测点（如网络链路、网络设备、内存、操作系统、IO接口等）观测到的不同对象（如网络流、系统调用、文件、业务、账号等）在系统运行中的原始数据，还包括对原始数据进行表达、标注的行为序列数据，以及对原始数据进行表达和标注的方法、标准，能提供目标网络信息系统的逼真场景数据。

威胁库指能复现已知网络威胁、展示未知和新型网络威胁的数据、工具及标准的集合，不仅包括网络威胁在不同观测点（如网络链路、网络设备、内存、操作系统、IO接口等）观测到的对不同对象（如网络流、系统调用、文件、业务、账号等）造成安全属性破坏的原始数据，还包括威胁原子行为的表达、标注，以及对威胁原子行为进行表达、标注的方法和标准。威胁库根据威胁产生的破坏机理认知、刻画网络威胁，形成一种系统、普适的威胁原子行为的抽取、表征和刻画方法，且能通过对威胁原子行为的演化，形成表达未知/未来的新型网络威胁的能力。

想定库是指能根据需求设定网络威胁场景的规则、方法和策略的集合。想定是指对威胁种类、对抗强度和目标场景等设想的策略，想定库描述拟生成的目标网络信息系统的场景，至少包括：攻击者的目标、方法、技术、策略及攻击强度等，受到攻击的系统、网络或数据及其受破坏程度，以及背景数据、威胁数据的融合策略等，以输出逼真、可调节、可量化的网络威胁场景。

未来发展

针对网络空间威胁权集的研究，已形成由高校、科研院所、安全企业及应用单位等多方参与的研究团队，正深入探索网络威胁的致效源头、破坏效能、演化机制及表达方法，旨在构建基于威胁致效机理的网络威胁内在本质认知理论体系。同时，该研究也关注威胁在不同观测点的外在表象，如网络接口、IO设备接口等的网络信流和IO调用，以提出威胁致效行为的内在本质和观测表象的关联表征方法。团队希望通过与行业的共同努力，旨在构建和迭代演进全面且能充分反映未来高级威胁的权集，为网络空间威胁防御研究开辟全新方向。

展望未来，网络空间威胁权集的构建将依赖于大量的网络信息系统场景和威胁数据，从而使得数据基座不断被丰富和多样化。这包括更多类型的网络威胁数据以及更广泛的观测点数据，以更真实、全面地反映网络空间威胁的复杂性。鉴于该研究的广泛性和数据量之大，需要研究机构、企业与应用单位共同构建研究生态，从研究方法、工具、标准等方面推动网络空间威胁权集的迭代发展。这将有助于提升我国在网络空间方面的科研能力和防御水平，为构建安全、稳定的网络环境做出重要贡献。

参考文献

[1] 陈兴蜀，郭世泽，王启旭，王小娟，网络空间威胁权集：认知威胁本质，构建数据基座[J]，中国计算机学会通信，第20卷第3期，2024年3月.

[2]Sharafaldin I. Toward generating a new intrusion detection dataset and intrusion traffic characterization[J]. ICISSp, 2018.

[3] Hui S. Knowledge Enhanced GAN for IoT Traffic Generation[C]//Proceedings of the ACM Web Conference 2022.

[4] Shin H K,. Two ICS security datasets and anomaly detection contest on the HIL-based augmented ICS testbed[C]//Cyber Security Experimentation and Test Workshop, 2021.

[5] Vsvec P , Balogh V , Homola M ,et al.Knowledge-Based Dataset for Training PE Malware Detection Models[J]. TECHNICAL REPORT, 2022.

[6] Moustafa N, Slay J. UNSW-NB15: a comprehensive data set for network intrusion detection systems (UNSW-NB15 network data set)[C]//Military Communications and Information Systems conference (MilCIS). IEEE, 2015.

[7] Alsaedi A. TON_IoT telemetry dataset: A new generation dataset of IoT and IIoT for data-driven intrusion detection systems[J]. IEEE Access, 2020.

[8] DARPA . DARPA Intrusion Detection Evaluation Dataset[EB/OL]. https://www.ll.mit.edu/r-d/datasets/1999-darpa-intrusion-detection-evaluation-dataset.

[9] Tavallaee M. A detailed analysis of the KDD CUP 99 data set[C]//IEEE symposium on computational intelligence for security and defense applications, 2009.

[10] DARPA. Rapid Attack Detection, Isolation and Characterization Systems (RADICS) (Archived)[EB/OL]. https://www.darpa.mil/program/rapid-attack-detection-isolation-and-characterization-systems.

[11] DARPA. High-Assurance Cyber Military Systems (HACMS) (Archived) [EB/OL]. https://www. darpa.mil/program/high-assurance-cyber-military-systems.

[12] DEFENSE ADVANCED RESEARCH PROJECTS AGENCY. Cyber-Hunting at Scale (CHASE)[EB/OL]. https:// www.darpa.mil /program/cyber-hunting-at-scale.

[13] Nguyen-An H. Generating iot traffic: A case study on anomaly detection[C]//IEEE International Symposium on Local and Metropolitan Area Networks, 2020 .

[14] 明晨智航. XPRO NetworkSimulator [EB/OL]. http://www.mingczh.com/juyuwang/133.html.

[15]Spirent. Cyber Flood Application Performance Testing Solution[EB/OL]. https://www.spirent.com/assets/u/cyberflood _applications-and-security-test-solutions_datasheet.

[16] MITRE. ATT&CK[OL/EB]. https://attack.mitre.org/versions/v11/

[17] Lockheed Martin. the Cyber Kill Chain [OL/EB]. https://www.lockheedmartin.com/en-us/capabilities/cyber/cyber-kill-chain.html.

[18] "The STRIDE Threat model", Microsoft. https://learn.microsoft.com/en-us/previous-versions/commerce-server/ee(v=cs.20)

[19] Schneier B . Attack Trees[J]. Doctor Dobbs Journal, 1999, 24(12).

[20]Tao Yi, Xingshu Chen, Yi Zhu, et al. Review on the application of deep learning in network attack detection[J]. Journal of Network and Computer Applications, 2022, .

[21] Zhang Y , Zhao M , Li T ,et al.Achieving optimal rewards in cryptocurrency stubborn mining with state transition analysis[J].Information Sciences: An International Journal, 2023.

[22] Standards N . SP800-53 : Recommended Security Controls for Federal Information Systems and Organizations[J]. http://csrc.ncsl.nist.gov/publications/PubsSPs.html.

[23] Podrecca M , Culot G , Nassimbeni G ,et al.Information security and value creation: The performance implications of ISO/IEC 27001[J].Computers in Industry, 2022:142.

[24] 王彦.对"可信验证"保证国家网络安全的重要性分析[J].中国认证认可, 2022(12):3.

[25] Shao G , Chen X , Zeng X ,et al.Deep Learning Hierarchical Representation From Heterogeneous Flow-Level Communication Data[J]. IEEE transactions on information forensics and security, 2020, 15:1525-1540. DOI: 10.1109/TIFS.2019..

作者信息：

陈兴蜀

四川大学网络空间安全学院（研究院）教授，四川省计算机学会网络空间安全分委会主席。主要研究方向为系统安全和数据安全。

邮箱：。

郭世泽

中国科学院院士，主要研究方向为系统脆弱性分析和网络空间防御。

邮箱：。

王小娟

北京邮电大学计算机学院副教授，主要研究方向为威胁检测和系统安全。

邮箱：。

计算机术语审定委员会及术语平台介绍：

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词，并在CCF平台上宣传推广。这对厘清学科体系，开展科学研究，并将科学和知识在全社会广泛传播，都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化，可以有效推进中国计算机术语的收集、审定、规范和传播工作，同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合，摒弃老版中跨平台操作的繁琐步骤，在界面可观性上进行了升级，让用户能够简单方便地查阅术语信息。同时，新版平台中引入知识图谱的方式对所有术语数据进行组织，通过图谱多层关联的形式升级了术语浏览的应用形态。

计算机术语审定工作委员会：

主任：

李国良（清华大学）

副主任：

王昊奋（同济大学）

林俊宇（复旦大学）

主任助理：

李一斌（上海海乂知信息科技有限公司）

执行委员：

丁军（上海海乂知信息科技有限公司）

兰艳艳（清华大学）

张伟男（哈尔滨工业大学）

彭鑫（复旦大学）

李博涵（南京航空航天大学）

委员：

柴成亮（北京理工大学）

李晨亮（武汉大学）

张鹏（天津大学）

王昌栋（中山大学）

张宁豫（浙江大学）

孔祥杰（浙江工业大学）

魏巍（华中科技大学）

术语投稿热线：

“阅读原文”，加入CCF。

今天的文章预训练权重是什么（预训练权重文件是什么）分享到此就结束了，感谢您的阅读。

预训练权重是什么（预训练权重文件是什么）

相关推荐