新浪科技 基金

人工智能基础:第六话 计算机视觉、语音识别、推荐系统概念简介

念空科技

关注

上一集我们讲到“图灵测试(Turing Test)”,图灵测试是由英国数学家和计算机科学先驱,被视为人工智能之父的艾伦·图灵在1950年提出的,它旨在回答一个问题:“机器会思考吗?” 图灵测试对人工智能领域有着深远的影响,不仅在技术上推动了人工智能的发展,也在哲学和伦理层面上引发了深入的思考和讨论。

人类的心智太过复杂,实现通用人工智能(AGI)或许还是一条漫长的征途。当前我们在现实生活中更常见的AI应用场景,还是面向具体特定任务的人工智能,即“应用人工智能(Applied AI)”,今天我们将围绕这个概念,对计算机视觉(Computer Vision)、语音识别(Speech Recognition)、推荐系统(Recommendation System)等日常更为多见的应用人工智能进行一些简单的介绍。

计算机视觉是一门研究让计算机“看见”世界的科学。

人类能够认出照片中的事物,推理它们之间的关系。但对于计算机来说,图片只是一连串RGB数值,没有任何意义。

*RGB数值:是一种用于表示颜色的标准,它来自于 RGB 色彩模型。RGB是红色(Red)、绿色(Green)、蓝色(Blue)的首字母缩写,这种模型通过调整红、绿、蓝三原色的亮度和比例来生成各种颜色。

让机器看见世界有四个阶段,也是计算机视觉的四个核心问题:

1)图像分类,即为不同的图片打上对应标签。

2)物体检测,即找到物体的位置,并认出他们是什么。

3)语义分割,即找到物体之间的关系和联系。

4)视频分析,即看懂视频中的内容。

让计算机看见世界有什么用?小到手机拍照中的人脸定位,酒店、银行里的人证校对;大到自动驾驶,医学影像诊断,都是计算机视觉的用武之地

语音识别研究的是如何让计算机“听见”世界。

与计算机视觉的多重核心任务不同,语音识别有且只有一个核心任务:将人类的语音转换为文字。

机器如何识别语音?语言由单词组成,单词由音素组成。我们将一段语音的声波按帧切开。用帧组成状态,用状态组成音素。再将音素合成单词,语音就变成了文字。

与语音相关,仍属人工智能研究范围内的任务还有不少:

1)声纹识别,即识别说话的人是谁。

2)语音合成,即将文字信息转换为人类听的懂的语音。

Siri、智能音箱、车载设备,都是语音识别看得见摸得着的应用。

推荐系统是一种信息过滤系统,根据用户的历史行为、社交关系、兴趣点,算法可以判断出用户当前感兴趣的物品或内容。

你也可以将它理解为一家只为你而开的商店,店铺里摆放的都是你需要的,或者适合你的商品。

机器是如何找到这些适合你的商品的?最早人们使用的是基于内容的推荐方法(Content-based Filtering),即根据物品的属性为它们打上标签,再通过这些标签,计算他们之间的相似度。当你在搜索栏中输入关键词, 机器就能为你推荐你想要的,以及和它相似的物品、内容。

*在推荐系统中,打标签(标注数据)的工作既可以是人工操作的,也可以是系统自动完成的,这取决于具体的应用场景和需求。在需要高精度和对数据有特殊理解需求的场景中,人工标注是首选。在数据量大、对标注精度要求不是非常高的场景中,自动标注是更经济高效的选择。

如果我们已经购买了某种物品,我们或许并不需要更多类似的东西,但还有很多东西我们其实需要,却一下没有想到或者表达出来。这时候就需要协同过滤(Collaborative Filtering)来帮忙。日常生活中,我们会找到兴趣相投的朋友推荐电影或者音乐,协同过滤就是通过找到与你相似的用户,通过他们的行为和他们喜欢的内容,为你推荐你可能感兴趣的物品或内容。

互联网中沉淀了大量有用的,适合你的信息,只是通过搜索引擎很难表现出来,推荐系统则将他们展现在你的面前,并通过你的反馈,不断去寻找更多。

计算机视觉、语音识别、推荐系统等应用人工智能,虽然不是具备像人类一样的认知能力的,能够进行推理并自行解决问题的通用人工智能(AGI),但它们却离我们当前的生活最近,最能够切实地帮助人类完成日常生活中的特定任务。将各种应用人工智能组合到一起后,效果还可能出乎意料,比如融合了语音识别和自然语言处理的Siri。也许你要说Siri的效果也实在不咋地,但想想与靠键盘输入信息相比,我们已经向前迈进了一大步。

不积跬步无以至千里。

加载中...