经过2023~2024年的建设过程,预计企业侧部署和应用于生产的各类 AIGC 系统项目将在2025年普遍投入运行。
随之而来的 AI 安全问题,是网络安全的又一个新坑。
AI 安全的关键源头,在于 AI 使用到的数据:结构化的业务数据,以及更常被数据勒索组织所觊觎的各种非结构化数据。
因此,AI 数据安全治理若是稍有不慎,企业组织会满盘皆落索:客户关系、企业声誉以及市场份额,一起灰飞烟灭。
笔者:国际注册信息系统审计师、软考系统分析师、软件工程硕士
本篇属于个人专业思考,预估读者寥寥。
就如其它企业内信息系统项目一样,AI 系统也是企业内多方参与的产物,因此企业的 IT 治理体系和能力再次要被实践检验,而且是从新的角度进行检验。
在数据安全合规要求下,AI 数据的整体治理,企业内纵向每个层级和横向每个职能领域,都要同时加入相应的责权内容。即使是最边缘的领域或角色都不应该置身事外,需要通过兜底条款纳入到 AI 数据治理范围。
在数据的组织方式上,可以把 AI 数据区分为结构化数据和非结构化数据两大类。
结构化数据通常指数据库中的数据,这些数据都有固定且原子化的结构格式,比如关系数据库中的矩阵结构、文档型数据库中的树状结构、图数据库中的图模型等。
非结构化数据则广泛得多。笔者认为,教科书对非结构化数据的定义中,“结构不规则或不完整、不能用二维逻辑表来表现”其实是相当狭义的。不能把结构化单纯等同于二维逻辑表结构。
笔者将之泛化和抽象后认为,非结构化数据的概念应高度抽象为:
信息的混沌集合,没有可同时满足固定且原子化的解析规则从中提取数据。
由于非结构化数据的治理难度相当大,导致其往往是数据安全治理的短板,这也是数据勒索事件层出不穷的主因。
因此,随着非结构化数据的治理和控制将成为重头戏,企业需要对身份校验、零信任、弹性IT等和数据安全相关的技术和产品在非结构化数据方面给予投入。
延伸阅读:
GB/T 44862-2024 《网络安全技术 网络弹性评价准则》[1]
本号:《电影〈沙丘〉中的零信任和风险管理(剧透)》
用户侧部署的 AI 系统基本上离不开 RAG, 而 RAG 所使用的数据内容的质量直接决定了 AI 系统的输出质量。因此,这些用于 RAG 的数据,必然就是用户侧质量最高的数据。
潜台词就是:这些数据也会是面临威胁风险最高的数据,不仅是被盗取的风险,也包括被故意投毒等其它风险。
如果 AI 系统 RAG 涉及的数据集均为后端,通过实施固化工作全流程,包括指定专职专责人员负责数据的收集、提取和整理过程以及工作环境安全固化等风险缓解措施,威胁程度是可以降低和控制的。
但如果需要深度利用 AI 系统在工作环境内的适应能力,尤其是知识密集型的大型企业,有需要允许企业员工自主向 AI 提供企业自有数据,即 RAG 所涉及的数据集转为前端,由此产生的威胁风险程度就相当高。
这种情况下,如何平衡 AI 系统所带来的生产力提升和风险提升,设计适度的控制措施,就需要通过科学的评估机制去衡量和实施。
延伸阅读:
全国网安标委会:一图读懂国家标准 GB/T 20984-2022《信息安全技术 信息安全风险评估方法》
GB/T 20984-2022 《信息安全技术 信息安全风险评估方法》[2]
本号:《CIS RAM:如何合理地承受风险?》
本号:《CIS RAM 风险评估方法核心内容5篇目录归集及常见问题》
数据传输的风险评估和控制实践,本来就是网络安全中基础且关键的要求。
AI 系统和用户之间、AI系统和业务系统之间的数据流动关系,叠加各类 RAG 数据从收集到向 AI 系统投放的过程,决定了 AI 系统数据输入输出过程的复杂性高于常规信息系统。
尤其 AI 系统和业务系统之间的数据流动,也就是如果允许 AI 系统动态获取企业运营数据,这个数据传输通道的价值就远比一般的通道要高。
所以,即使是在内网也必须实施恰当的数据传输加密手段,而且是企业可以自主控制的。
强调“自主控制”,也就是要尽可能收敛风险,而传输加密最大的风险在于非对称加密的私钥泄露。由此,究竟是采取何种控制方式确保私钥不泄露,是交由外部商业证书机构管理、采用云服务商的云端证书管理服务还是自建证书中心,均应经过适当的风险评估后根据自身能力实施。
延伸阅读:
公钥密码开放社区:《详解新规|逐条分析《电子认证服务管理办法(征求意见稿)》修订重点》
本号:《打造甲方私有的多级CA证书中心(上)》
本号:《打造甲方私有的多级CA证书中心(中)》
本号:《打造甲方私有的多级CA证书中心(下)》
AI 数据安全是网络安全这个无底兔子洞的其中一个分岔,数据的存储安全则是这个分岔之下的再一个分岔。
笔者认为,企业组织有必要从现在开始,逐步明确数据存储安全的工作职责,并逐渐建立起存储安全管理员这个角色。
总所周知,科学且明确的责权利关系,是网络安全角色执行人有效履职的前提。
各种网络及数据安全的合规要求中,存储安全管理员这个角色实际已经有了雏形,比如读者应该已经相当熟悉的 GB/T 20269-2006 《信息安全技术 信息系统安全管理要求》[3],就有着大篇幅关于备份与恢复的内容(5.6.1、6.1.7、6.2.7、6.3.7、6.4.7、6.5.7),这实际就是存储安全的管理要求。
尤其是现在数据安全已被单独提出,叠加用于 AI 进行 RAG 的数据,尤其是非结构化的数据,需要实施有着明确针对性的存储安全管理和技术实践,也就完全有必要明确建立存储安全管理员这个角色。
企业组织的条件具备时(有钱),更应从有效履职出发,指定专职专责人员独立承担该岗位,以加强其职责考核和接受审计。
延伸阅读:
全国网安标委会:关于征集《网络安全技术 存储安全指南》标准参编单位的通知
全国网安标委会:关于征集《网络安全技术 网络存储安全技术要求》标准参编单位的通知
本号:《等级保护的审计管理员究竟如何定位》
其实本文内容适用于网络与数据安全所有细分领域,笔者只是选择 AI 系统数据安全这个比较新而薄的切片。
计算机科学是实践科学,网络与数据安全空谈治理是没有意义的,始终是需要有具体技术措施以实践承接管理和控制的要求,而要做好实践过程,人始终是最活跃的因素。
随着安全治理和实践的不断深入,在甲方角度,对计算机技术的理解和适当运用的能力,是相当一部分不懂计算机技术但又承担了信息化管理职责的管理者需要面对的严峻挑战,即使是具备 IT 专业背景的管理者,也依然是一场硬仗。
在乙方角度,在2024年安全行业整体营收下行的困境中,如何能实现做精做尖、保持盈亏平衡,还能为甲方业务发展带来价值,更属难能可贵。
LAST BUT NOT LEAST:
网络与数据安全不是安全生产,任何视同都是方向性的错误和实质性的弱化,是迟早要付出代价的。
注:题头图为笔者自行拍摄。
参考引用:
[1] GB/T 27921-2023 风险管理风险评估技术 idt IEC 31010:2019
国家标准全文公开系统对等同采用国际标准的国家标准不提供预览,但网上能找到。
[2] GB/T 20984-2022 信息安全风险评估方法
https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=FDA38AB7D08A715C6B6D69DFDEABB2C0
[3] GB/T 20269-2006 信息安全技术 信息系统安全管理要求
https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=797127310413D5E64517E951AA2CFCDF
本站微信订阅号:
本页网址二维码: