AI企业下一个使命：让生物特征数据使用走向阳光透明

2018-07-09 10:48

著名神经科学家、清华大学教授鲁白认为，数据隐私、数据权属是人工智能进一步发展需要解决的重要课题。数据调查显示，有接近8成的受访者担心某些领域的人工智能会威胁自己的隐私。

鲁白教授提到的人工智能时代的数据隐私，狭义理解指向生物特征数据，生物特征数据包括人脸信息、指纹信息、指静脉信息、掌纹信息、声纹信息乃至虹膜信息、以及在医疗场景的器官信号数据。这些生物特征数据正在被各种的传感器收集，将每天提高我们生活的便捷性。

当我们对智能家庭音箱发出指令时，它能辨识到这是我发出的指令，而不是其他人的指令，这里使用了声纹数据；当我们出门可以不带钥匙，通过人脸就能够打开门锁，这里使用了人脸数据；当我们出入关口，刷脸比对，秒级通关，这背后也使用了人脸数据，生物特征数据正便捷我们的生活，这是不争的事实，但是关注其泄露、丢失所造成的危害的企业寥寥无几。

去年315国际消费者权益日，央视315晚会现场实测，人脸识别被瞬间破解，引起了大众的关注，一场关于人脸识别的攻防战就出现了，活体检测技术变成了各家AI公司竞相追逐的技术方向。时隔一年，生物特征识别技术不断被完善，公众的生物特征数据仍然每天被传感器收集汇总，但是对于生物特征数据的收集、储存、使用和流通仍然是半遮半掩的灰色区域，各方好像都等着导火索的出现。

生物特征数据的安全空白环环相扣

在最近的中新人工智能高峰论坛上，新加坡南洋理工大学、计算机科学与工程学院教授、智慧国家研究中心主任林国恩曾表示，新加坡在数据收集层面比中国要谨慎，数据量比中国要少，尽管新加坡有不错的数据训练算法框架，但是没有优质的训练数据，算法的可用性就会跟中国产生更大的差距，因此应该好好抓住中国的数据优势。可见，生物数据的使用范围在不断扩大，另外，生物数据的流通和交易是否阳光透明？在这个环节中，仍然灰色地带。

国内不少创业企业并没有算法优势，凭借谷歌和微软的开源算法，拿来主义快速优化算法模型，或者跟国外高校建立合作，授权使用最新的算法，但是数据的合规调用，包括训练和推理场景，都处于法律空白。在数据服务链条继续延伸，数据可泄露的环节就更多了：比如，在数据标注层面，需求方企业将数据以文件夹形式推送给标注企业，尽管签订了保密协议，但是大部分的标注所使用的电脑运行环境都是连网并且没有规范的运行环境，黑客破网而入，盗取原始数据的情况是否存在就像没有被揭露的冰山。

生物数据的重要属性不可更改

前不久，两则具备震撼力的新闻被不痛不痒地被收录，包括：

新闻一：3100名谷歌员工联名上书CEO，抵制与美国防部进行涉军用AI技术合作；

新闻二：韩国科学技术研究院KAIST在成立了一个研究中心，希望在今年年底前研发出基于「人工智能」的导弹、潜艇和四轴飞行器。以MichaelI．Jordan、李飞飞、周志华为代表，来自全球20多个国家、50多名高校顶尖AI学者集体签名抵制。

这两条新闻都不足以成为当天的头条，大概原因有二：和平时代已经过了很多年了，大众对战争无感知；人工智能应用在武器上的危害有多致命，大众对此缺乏明确的认识，这里面也透出AI武器的研发不可逆，一旦走上了这条路，生物信息因为不可更改，AI武器能非常精准攻击到个体，其毁灭性正是让人恐惧的。

生物密钥的缘起是便利性

这一波人工智能浪潮，为了实现场景的便利性，我们“被”收集了不少信息，包括人脸信息、指纹信息、指静脉信息、掌纹信息、声纹信息乃至虹膜信息，这些都是生物信息。

相比密码简史的前三个发展阶段：古代加密方法、古典密码和近代密码，可以发现，密码的形态从数字数学逻辑推理导向到图像图案识别导向。

另外一个不可忽视的情况是，以前的密钥可以是单次随机性的（U盾配合），也可以在泄露后重置密钥。但是新型的生物特征密钥没有修改的可能，这导致了密钥的泄露。使用者有两种选择：1、放弃更高便利性的生物密钥、重置数字密钥；2、等待应用安全防护系统升级。很显然，生物密钥的泄密后的主动防护是很被动的。

生物密钥的缘起是便利性。新零售推出无人商店，无人的基础是成熟的个人征信系统构建，在自由市场中，芝麻信用等第三方应用仅积累了以消费数据、常联系人图谱数据为基础的个人消费信贷信用评分。数据维度越多，个人征信体系越完善。无人商店正以通过自有应用在收集消费者的人脸数据、指静脉数据、掌纹数据等生物特征数据，以便配合完成更流畅、更便捷的消费体验。但是大部分从事无人商店都是初创企业，生物数据的收集后储存在私有云或者公有云上，初创企业基于成本考虑，在数据安全保密体系和数据备灾方面没有充足的保障资金投入，更有甚者，创业失败后，消费者生物数据信息弃置、倒卖等情况。

生物数据收集缺乏监管，法律空白

那么引出几个问题：1、生物特征数据本身有保密安全层次，生物特征数据是否需要建立安全等级体系？2、如何定义生物特征数据的类型，医疗场景下的器官产生信号信息（心跳、脉搏、血压、睡眠质量等）是否可以纳入？3、想要收集相关生物特征数据的企业是否需要申请许可证明？4、生物特征数据的储存是否应该受政府监管？5、生物特征数据的调用、使用范围是否需要得到使用者充分知晓？

提出这5个问题是希望推动政府、学术界、社会机构乃至企业自身去主动思考生物信息的使用安全体系应该尽快建立，而推动这个体系建立并不能等待单方努力，而应该形成合力。目前数据在征集量级仍处于初始阶段，随之更多的物联网传感器进入生活和工作场景，更多的公民生物特征数据被收集，被收集的数据越多，法律保护处于空白，其产生的社会潜在危害越大。因此加强重视，防患于未然，应该是更积极的做法。