康谋分享 | 突破传统匿名化:先进技术解锁数据价值新维度

发布者:轻松自在最新更新时间:2025-02-28 来源: elecfans关键字:机器学习  先进技术  数据价值 手机看文章 扫描二维码
随时随地手机看文章

海量数据的收集使得新旧企业能够利用机器学习技术开发新产品并革新旧产品。近年来,数据质量因直接影响了人工智能系统的性能和鲁棒性而备受关注。然而,这对通常通过破坏像素信息(如模糊化、马赛克等)来实现匿名化的方法提出了挑战,这些方法导致合规性与数据质量之间难以兼得。


我们探索了一种不是简单移除像素信息,而是对其进行自然替换的深度自然匿名化(Deep Natural Anonymization,DNAT)方法,致力于提高匿名化数据价值,助力企业开发创新。


一、匿名化数据的传统矛盾

DNAT能够检测人脸、车牌等可识别信息,并为每个对象生成人工替换。每个替换都尽可能匹配源对象的属性,但这种匹配是有选择性的,我们可以灵活控制保留哪些属性。

例如,对于人脸,保留性别和年龄等属性可能对后续分析至关重要。对于可识别信息以外的内容,不包含敏感个人数据的信息则保留不做修改。通过这种方式,DNAT成功打破了数据消除与匿名化之间的传统矛盾。

wKgZO2e1MhKAMci7AAQVaZi4spI058.png?imageView2/2/w/1000

图1: 匿名化工具的比较,从左至右依次为:Facepixelizer,YouTube,Fast Redaction,DNAT,原图

为了衡量匿名化方法对数据质量的影响,我们从Labeled Face in the Wild(LFW)数据集中采样了图像。所有图像均取自测试集。我们比较了代表匿名化技术的四种不同的匿名化工具,图1显示了这些示例的一部分。


二、匿名化的结构一致性

首先,我们分析了图像在匿名化处理后的整体结构变化。为此,我们仔细研究了图像分割结果。图像分割是将图像的像素划分为多个片段的过程,每个片段代表一个对象类别。在我们的示例中,最重要的对象是个人资料图片中的人物和背景。

图2和图3展示了LFW数据集中两位名人的分割图。这些分割图是由语义分割模型DeepLabv3+生成的,采用了官方TensorFlow存储库中的实现和模型权重。

wKgZO2e1MiSAVSZSAALCvOWb5YA092.png?imageView2/2/w/1000

图2: AI Pacino DeepLabv3+ 分割结果对比


wKgZPGe1Mi-AcwIGAAJiAzAgOCc073.png?imageView2/2/w/1000

图3: Reese witherspoon DeepLabv3+ 分割结果对比


从图2和图3中可以看出,传统匿名化方法的分割图明显退化,其中一些甚至完全错误。然而,深度自然匿名化(DNAT)保留了语义分割。分割图与原始图像几乎完全相同。从图3中可以看出,经过传统匿名化方法处理的人脸图像不仅产生了较差的分割边界,还使分割模型推断出原始图像中从未出现的新对象类别,如猫、狗或瓶子。

为了量化每种匿名化技术的影响,我们计算了整个测试集的平均交并比(mIOU)。计算是在不同方法生成的图像分割图与原始图像分割图之间进行的。结果如表1所示。

wKgZPGe1Mj-AXW_9AABLWey_FFs574.png?imageView2/2/w/1000

表1:用mIOU测量的语义分割一致性(越高越好)


三、匿名化的内容一致性

为了评估匿名化图像与原始图像之间的整体内容一致性,我们使用了Clarifai的独立图像标注模型。“通用图像标注模型能够识别超过11,000种不同的概念,包括对象、主题、情绪等。”这些标签描述了模型从输入图像中推断出的内容。

此外,模型还为每个标签提供了置信度。图4展示了Clarifai公共图像标注模型对原始图像及其DNAT版本预测的前5个概念。

wKgZPGe1MlCAFwi8AAJSxT1uHIg291.png?imageView2/2/w/1000

图4:来自clarifai的Reese Witherspoon前5个概念。(左原始图像,右DNAT)

理想情况下,通用图像标注模型应该为原始图像和匿名化图像预测完全相同的概念。为了衡量一致性,我们使用Clarifai为每种匿名化技术的所有测试样本预测概念。然后,我们计算了匿名化图像与原始图像之间前N个预测概念的平均精度(mAP)(其中N代表不同概念的数量)。

通过mAP,我们评估了两点:预测概念的一致性及其相关分数。例如,考虑一个匿名化图像及其原始图像对,经过图像标注模型处理后,如果某个概念在匿名化图像中的置信度值低于其在原始图像中的置信度值,则对最终mAP分数的影响较小;而如果某个概念仅出现在匿名化图像中,而未出现在其原始图像中,则影响较大。

前5和前50个概念的结果如表2所示。

wKgZPGe1Ml-AE1fuAAB6YSyVKHE911.png?imageView2/2/w/1000

表2:用mAP测量图像概念一致性(越高越好)


四、总结

本文探讨了如何通过深度自然匿名化(DNAT)技术提升匿名化数据的价值,打破了传统匿名化方法在合规性与数据质量之间的固有权衡。DNAT通过生成自然替换而非破坏像素信息,不仅有效保护了个人隐私,还最大限度地保留了数据的分析价值。

实验表明,DNAT在图像分割和内容一致性方面显著优于传统匿名化方法,能够更好地支持后续的AI分析和应用。


关键字:机器学习  先进技术  数据价值 引用地址:康谋分享 | 突破传统匿名化:先进技术解锁数据价值新维度

上一篇:1月汽车行业平稳开局,产量微增销量微降
下一篇:珠城科技:比亚迪全系智驾战略助力公司业务增长

推荐阅读最新更新时间:2026-03-22 14:25

康谋分享 | 突破传统匿名化:先进技术解锁数据价值新维度
海量数据的收集使得新旧企业能够利用机器学习技术开发新产品并革新旧产品。近年来,数据质量因直接影响了人工智能系统的性能和鲁棒性而备受关注。然而,这对通常通过破坏像素信息(如模糊化、马赛克等)来实现匿名化的方法提出了挑战,这些方法导致合规性与数据质量之间难以兼得。 我们探索了一种不是简单移除像素信息,而是对其进行自然替换的深度自然匿名化(Deep Natural Anonymization,DNAT)方法,致力于提高匿名化数据价值,助力企业开发创新。 一、匿名化数据的传统矛盾 DNAT能够检测人脸、车牌等可识别信息,并为每个对象生成人工替换。每个替换都尽可能匹配源对象的属性,但这种匹配是有选择性的,我们可以灵活控制保留哪些属性
[嵌入式]
康谋分享 | 突破传统匿名化:<font color='red'>先进技术</font>解锁<font color='red'>数据</font><font color='red'>价值</font>新维度
芯对话 | 数据采集别再踩坑!CBM76AD06高集成同步采样DAS的价值解析
在工业4.0深化、新能源电力系统规模化建设及高端装备制造升级背景下,数据采集(DAS)作为工业控制“神经末梢”,其采样同步性、精度稳定性、环境适应性及设计便捷性成为效率瓶颈。 当前工业场景中,多通道采样不同步导致数据分析偏差、外部器件依赖增加设计复杂度、恶劣环境下可靠性不足、接口兼容性差推高适配成本、高功耗难满足嵌入式需求等痛点突出。 为此,芯佰微电子推出CBM76AD06 16位8通道同步采样模数数据采集系统(DAS),定位工业级高集成核心器件,以“高精度+高集成+高可靠+灵活适配”破解数据采集核心痛点。 落地解决工业场景关键需求 全通道同步采样+超高精度: 作为16位分辨率的8通道同步采样DAS,CBM76
[工业控制]
芯对话 | <font color='red'>数据</font>采集别再踩坑!CBM76AD06高集成同步采样DAS的<font color='red'>价值</font>解析
深挖电力数据价值 构建综合能源服务体系
中国储能网讯: 累计注册用户突破6万户,入驻用能企业2.3万家,严选服务商838家……2021年11月30日,“绿色国网”与国家电网有限公司27家省级电力公司的智慧能源服务平台贯通。截至目前,“绿色国网”累计推送综合能效诊断报告117.76万份,为32.56万户用户提供了清洁用能、绿色用能和智慧用能服务。 作为公司综合能源服务业务的互联网统一入口,自2020年9月份上线运营以来,“绿色国网”依托公司品牌优势和海量用户资源,深入挖掘电力数据价值,建设互联网共享平台,破除信息壁垒,赋能综合能源服务领域相关主体,促进综合能源服务体系线上线下融通发展。 聚焦“供电+能效服务”,帮助企业直观掌握用能情况 1月5日,
[新能源]
联想凌拓分布式云存储ThinkSystem DF,最大化释放云端数据价值
致力于帮助中国企业释放数据潜能、并加速数字化转型的领先智能数据管理解决方案和服务提供商,联想凌拓科技有限公司(以下简称“联想凌拓”)于今日推出其首款国产化分布式云存储ThinkSystem DF 系列,该存储系统是一款基于海光平台打造的,在原有NAS基础上,同时支持SAN和对象等广泛协议的全国产化分布式存储系统。其分布式架构、高扩展能力、高性能、统一管理的特性可满足企业海量数据的管理需求,助力“新基建”时代的企业在安全可靠的前提下,充分释放云端数据价值。 联想凌拓首席执行官陆大昕表示:“‘新基建’时代,海量数据汹涌而来,企业级用户更加需要从本地到多云环境的一站式解决方案来对数据进行端到端的管理。此次推出的ThinkSyst
[嵌入式]
联想凌拓分布式云存储ThinkSystem DF,最大化释放云端<font color='red'>数据</font><font color='red'>价值</font>
谷歌计划用太阳能和电池为拉斯维加斯价值6亿美元的数据中心供电
俄勒冈州的谷歌数据中心。图片:Flickr / Tony Webster   内华达电力公司NV Energy和谷歌正在计划在拉斯维加斯城外建造一个大型太阳能+储能设施,该交易被称为是目前全球最大的有电池支持的太阳能发电项目的企业合同。   去年12月,NV Energy旗下的内华达州电力公司(Nevada Power Co)向内华达州公共事业委员会(Public Utilities Commission,简称PUC)提交了这一提案。   虽然拟议的购电协议(PPA)的期限和项目的负荷能力已从公开文件中删除,但市场情报公司标准普尔(S&P Platts)周三报道了一座350MW的太阳能发电厂,并由2
[新能源]
PC Magazine:未来十年内车联网数据价值或超过车辆售价
据外媒报道,在未来十年内,将有数百万辆互联汽车将上路行驶,从而生成海量的驾驶及用户数据。     据《PCMagazine》杂志报道,未来某一天,该类数据的价值或将车辆本身的价格,许多公司将靠出售车辆数据来牟利,而非仅仅靠汽车销售。一方面,该趋势或许会带来不利的影响,用户未来或将收到定位精准的广告及产品推销。另一方面,这听起来似乎是很严重的态势,因为这类公司严重侵犯了用户的隐私。     车企尚未明确将如何通过这类数据变现并赚大钱,但通用与安吉星(OnStar)已开始进行前期准备,而AtYourService、Marketplace等新兴的互联平台已开始向驾驶员提供服务,并大量积累相关数据。     为防止过多地泄露驾驶员的个人
[嵌入式]
数据是制造业实现物联网价值的关键
2020年将是制造业期待的一年。Deloitte预测15个最有竞争力的制造业国家将有10个在亚洲。不过,为实现此一目标,亚太制造业将需拥抱物联网(IoT)。 2020年将是制造业期待的一年。Deloitte预测15个最有竞争力的制造业国家和地区将有10个在亚洲,包括中国、日本、印度、韩国、台湾地区、新加坡、越南、马来西亚、泰国和印度尼西亚。不过,为实现此一目标,亚太制造业将需拥抱物联网(IoT)。 亚洲制造业正快速从传统制造转移到先进或智能化制造,以解决人力短缺问题和技术发展造成的断层。物联网(IoT)的运用——透过连网传感器将传统上孤立的机器、系统和产品链接起来。物联网让制造商能够改善营运效率和掌握竞争优势。 以
[物联网]
全新Arm Mbed物联网设备平台功能让企业从数据中发掘更多价值
Arm近日宣布推出全新Mbed Cloud平台功能。无论是受限设备还是功能丰富的物联网设备,均能通过这一全新平台获得整合的物联网设备管理解决方案,从而满足自身对简化、安全、可控制性的需求,加速部署。 许多有远见的企业开始应用物联网作为探索搜集与分析数据的新方式,并以此提升运营效率、优化产品、提升用户体验。然而,从探索阶段过渡到实际运作,需要比目前的云计算和数据中心更高层级的物联网设备安全能力、连网能力、以及配置方式。 加速实施物联网功能以充分发挥数据的潜能是一项重要课题, Arm物联网服务事业群推出的全新Mbed Cloud平台成为业界讨论的焦点:  Mbed Cloud对内部部署设备的支持 现今的云端服务已让许多
[网络通信]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

厂商技术中心

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

 
机器人开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2026 EEWORLD.com.cn, Inc. All rights reserved