“引擎,发动。”在电影《2012》里,众人为无法启动汽车着急,一位俄罗斯人只说了一句话就潇洒地开走了汽车。这样的场景不再科幻,在日常生活已触手可及。
“只要解决好语音识别和声纹识别就能实现。”近日,在成都召开的世界未来科技论坛上,清华大学语音和语言技术中心主任郑方表示,语音信号形简意丰,语音技术构筑起的声音密码能保障移动互联“最后一厘米”的安全。该论坛由中国科学院、中国工程院和成都市人民政府联合主办。
信息技术的发展给安全识别带来了巨大挑战。以往的识别技术出现诸多漏洞。例如,美国斯坦福大学最新研发的一款人脸跟踪软件将人脸识别推到了风口浪尖。它能够最终靠摄像头捕捉用户的动作和面部表情,然后使用该软件驱动视频中的目标人物做出一模一样的动作和表情,效果极其逼真。
指纹与虹膜同样也难逃被攻击的厄运。2016年世界移动通信大会上,《华尔街日报》记者做了一个实验:他将手指在软胶模上按压,待模具成型后,使用一种黏土橡皮泥形成指纹模,iPhone手机瞬间被解锁。而早在2015年,著名的混沌计算机俱乐部安全研究员Jan Starbug在接受媒体采访时声称,高清晰度图像就能模拟出人的虹膜。这给生物识别科学家带来了很大冲击。
在此次论坛上,郑方援引了《2015中国电子银行调查报告》数据:有14.1%的用户在使用直销银行的过程中发生过个人隐私信息泄露甚至是资金遗失的情况。“未来,移动互联网的安全威胁还将向平板电脑、智能电视、iOS设备等延伸。”
“解决问题的重点是人的远程身份认证。”郑方将以上问题定义为信息安全的“最后一厘米”,要做的就是解决好人(用户)机(智能)之间的一致性。他坦言,目前包括对安全性要求极高的手机银行等在内的很多应用,其安全手段都还没有完全解决人机之间的一致性问题。
如何才能解决好人机一致性的问题?郑方给出的答案是:生物特征识别。他表示,要证明“我是我”通常有三种手段:一种是根据“我了解什么”,比如接头暗号、取款密码等;一种是根据“我有什么”,比如身份证件、IC卡、银行U盾等;还有一种是根据“我是谁”,即不凭借任何外界材料,“自己验证自己”。
用自己验证自己,是所谓的生物特征识别。生物特征实际上包含两大类,大众熟知的通常是第一类生理特征,比如指纹、人脸、掌纹、虹膜、视网膜,包括DNA。郑方指出,还有一类是近来才逐步进入大众视野的行为特征,比如声纹、签名、步态、手势、键盘敲击等。“这些行为特征具有一直在变化的特点。”两类生物特征都具有唯一性。
不过随着人工智能的快速的提升,那些被认为具有天然优势的生理特征,由于其外在表现缺少变化反倒越来越成为一种劣势。“原因主要在于这些特征容易被模仿。一旦不慎遗失或被非法窃取,就会一丢百丢。”郑方在接受《中国科学报》记者正常采访时表示,作为行为特征的声音信号具有形简意丰的特质,只要把丰富的语音信息加以综合利用,比如将语音识别与声纹识别相结合防止录音假冒,或是将情感识别与声纹识别相结合防止被胁迫,就能有效保障移动互联“最后一厘米”的安全。
郑方表示,声音的优势还在于可借此实现统一语音平台,用一句话解决所有问题。他以银行转账为例:用户只需要对着手机说:给张三转1000元钱,就能实现自动转款。此时,系统实际上同时完成了业务识别、意图理解及身份认证三个步骤。“从一句话里就能提取出身份、内容、性别、语种、口音、情感等信息,这就是声音具有的独一无二的优势。”郑方说。
几年前,郑方在各种场合作报告介绍语音识别和声纹识别技术时,鲜有人接受。转眼间,与语音技术相关的应用已雨后春笋般涌现,并形成了从核心技术研发到知识库提供再到应用、服务的完善产业链。
目前郑方团队的研发成果“声密保”已在国家信息中心投入到正常的使用中,并预装上中国建设银行手机银行客户端,内测的最新版本具备了防录音、适应时变等能力。此前一年,其团队研发的声纹识别产品在建行试用,至今零投诉,用户也呈几何级增长。据悉,建行将对声纹取款、声纹支付、声纹转账等多领域做全面覆盖。
“21世纪是语音的世纪。”郑方坚信,伴随智能语音技术的不断成熟及其与别的信息技术的不断融合,智能语音将在更多垂直行业得到应用,并推动这些垂直行业加快向智能化方向发展。智能家居、智能汽车、可穿戴设备都将是智能语音重要的应用场景。