文/函楚
本月初上市的努比亚豆包AI手机,在不到一周时间内以一石激起千层浪般的热度迅速引发了数码科技圈的广泛关注。首先是三万台工程预览版手机的迅速售罄与用户好评;然后是逐步爆出的对其隐私和安全的质疑声;之后便因触发了微信的前端风控机制而导致微信在豆包AI手机上的主动退出、无法登录;再之后更发展为更多头部应用,尤其是金融类应用,对豆包AI手机的主动“拉黑”。
回顾2025年初以来,荣耀、OPPO等各大头部手机厂家都已开始高举高打AI手机这一新概念而且头部厂家所采用的主要功能形式也和豆包AI手机有不少相似。但为什么豆包AI手机会在不到一个星期的时间里,就经历了从售罄、叫好到质疑、拉黑这种过山车般的迅速转变?喧嚣之后,我们不禁想问:豆包AI手机究竟使用了什么技术,会引起如此多的关注、质疑甚至引发了移动互联网自兴起以来并不多见的多个应用主动拉黑手机系统这一现象?
本文中,作者结合在智能手机行业超过二十年的长期系统技术实践与深度思考,尝试对AI手机的功能与技术方案的现状做简要分析,并指出当前存在的一些突出或潜在问题。可供业界、媒体及用户参考。
首先,根据目前已上市的AI手机来看,其实都有相似指出。比如:
第一、AI手机都具备对用户语音指令进行接收和理解的能力。
第二、AI手机都具备对手机屏幕内容的获取与识别能力。
第三、AI手机可以根据用户的指令,找到并打开对应的App;然后基于屏幕内容读取和识别的能力,对App窗口内的界面布局、控件类型、图文内容等进行精细识别。
第四、AI手机再根据用户指令,使用(原生或者经过深度定制扩展的)操作系统事件注入能力,对App中的控件,比如按钮、菜单、输入框等,进行自动化的触控事件注入和输入内容注入。
基于上述这些系统能力及步骤,AI手机就基本上可以独立于用户自动化地完成手机上的绝大部分操作。当然不同厂家的功能范围以及具体技术方案会有差异,但总体上就是以上四点。
接着,根据上面对AI手机功能与方案的分解,我们来看AI手机会对现有的移动应用生态带来哪些潜在的影响。一共九点。
影响一、AI手机在进行语音指令理解和手机屏幕内容精细识别时,如果需要联网并使用云端计算能力,这就会导致用户语音内容、手机屏幕内容这类用户个人数据(相较于用户自行手工操作时)的传输范围扩大。如果涉及到金融、健康等敏感应用类型和登录、支付等敏感界面类型,那么就还会涉及到用户敏感信息和机密信息的传输范围扩大。
影响二、AI手机自动操作时,一旦(由于指令或内容识别错误或其它软件缺陷)出现偏差,比如:配送地址或支付方式选择错误、数量或金额输入错误等,还极有可能给用户带来损失。尤其,如果用户既没有同步关注AI手机对App的操作过程也没有检查操作结果,还可能导致用户对损失的发生甚至损失的累积毫无察觉。
影响三、如果AI手机中的触控事件注入机制和输入内容注入机制(由于软件漏洞等原因)可被攻击者利用,那么就存在手机被远程控制的可能。比如:攻击者可能在用户毫无察觉的情况下,利用AI手机漏洞,将手机上的重要文件发送出去并清空发送记录。尤其,触控事件注入和输入内容注入,在技术方案的合理合规层面本来也可能存在越界或灰色地带。
影响四、移动互联网发展到今天,所有的手机App(几乎没有例外)都是为用户手动操作和人机交互模式而设计。但在AI手机这一全新场景中,交互模式已经从人机交互转变为“机机交互”甚至“网机交互”。这就为手机App的设计、应用前端风控甚至安全防御带来新的、未知的影响。比如:通过触控事件注入,AI手机可以远高于用户手动输入的频率去点击应用界面并连续发送请求,这就可能导致应用后台服务计算量、请求数量激增甚至超出后台服务所能承受的设计上限。
影响五、“机机交互”或“网机交互”模式已经超出了当前几乎所有移动应用App用户协议和隐私政策的现有范畴。比如,多数App的用户协议都是授权用户手动操作,但并未直接授权用户采用AI手机对App进行自动操作。又比如,多数甚至所有App的隐私政策及隐私保护措施都是为用户直接操作而设计,而并未考虑AI助手等“机机交互”或“网机交互”过程对用户个人信息的额外处理和使用。
影响六、根据现有的移动终端操作系统和移动应用App之间的边界划分,也就是俗称的“应用沙箱”,应用内部的数据不应被操作系统直接获取,但在AI手机场景中这种现有边界的划分就极易被突破。比如:根据现有移动操作系统的保护机制设定,操作系统只是提供基本的应用内容展示、图像渲染、事件分发、计算调度等基础能力。用户在App中输入的内容、App为用户推送或展示的内容则都在应用沙箱边界的保护范围内,所以不应被操作系统直接获取并使用。但在AI手机这一场景中,屏幕内容识别就像是用户之外的另一双眼睛;触控事件注入就像是用户之外的另一双手;通过它们,AI系统可以独立于用户对手机进行各种操作。这就在实际上,“侵入”了应用原有的沙箱边界。
影响七、在AI手机场景中,操作系统能力对应用沙箱边界的技术“侵入”,也很难避免对应用开发者的权益带来潜在影响甚至“截胡”。这些潜在的影响,无论何种形式以及当前是否已经发生,都会随着AI手机系统与应用间“沙箱”边界的模糊而成为可能。
影响八、AI手机与移动操作系统现有应用安全机制的兼容。部分敏感应用及敏感页面,最典型的是密码输入界面和收费内容播放界面,往往声明了视图保护属性从而可避免页面视图被系统或其它三方应用获取。当遇到这种界面时,要么AI手机无法获取应用页面内容导致功能无法闭环;要么AI手机会通过系统权限“强行”获取页面内容并进行识别。而这两种方式,都不是最佳的解决方案。所以屏幕内容获取与现有应用自我保护等安全机制的兼容也会是AI手机需要平衡与解决的问题。
影响九、AI手机自动操作或可导致手机(在无用户关注的情况下)锁屏延迟。当用户在通过语音指令等方式对手机进行非接触式操控时,由于手机仍可接收到由AI系统自动注入的输入事件所以不会触发自动锁屏;但由于用户并未接触或关注手机,比如:手机放在桌面上,若他/她人此时趁机取走手机便可继续访问手机内容或者使用AI合成声纹冒充用户对手机进行各类语音操作。
做一个简单的总结,基于屏幕内容识别、触控事件注入和输入内容注入等能力的AI手机对现有的用户个人信息保护边界、系统安全边界、应用安全边界、应用交互设计、用户权益、应用开发者权益等既有技术边界、权益边界甚至法规要求现状都会带来冲击。
事实上,触控事件注入和输入内容注入这类技术并非新生事物,部分手机上现有的滚动截屏和短信验证码自动读取与自动填充功能就曾基于过这类技术。但随着人工智能尤其是视觉大模型技术对手机屏幕内容精细识别能力的大幅提升,使得这类技术的应用与可落地范围也随之大幅增加。AI手机就是典型的代表。而落地范围的增加也必然带来对各方影响的扩大。我们目前很难去预测,将来这类技术会在什么时间、以什么方式落地,但上面提到的这九点影响却是实际存在并需要系统厂商、AI能力提供厂商去实实在在地解决的。
(本文作者介绍:资深系统安全专家)