人工智能基础：第六话计算机视觉、语音识别、推荐系统概念简介

念空科技

2023.12.2818:31

关注

上一集我们讲到“图灵测试(Turing Test)”，图灵测试是由英国数学家和计算机科学先驱，被视为人工智能之父的艾伦·图灵在1950年提出的，它旨在回答一个问题：“机器会思考吗？” 图灵测试对人工智能领域有着深远的影响，不仅在技术上推动了人工智能的发展，也在哲学和伦理层面上引发了深入的思考和讨论。

人类的心智太过复杂，实现通用人工智能(AGI)或许还是一条漫长的征途。当前我们在现实生活中更常见的AI应用场景，还是面向具体特定任务的人工智能，即“应用人工智能(Applied AI)”，今天我们将围绕这个概念，对计算机视觉(Computer Vision)、语音识别(Speech Recognition)、推荐系统(Recommendation System)等日常更为多见的应用人工智能进行一些简单的介绍。

计算机视觉是一门研究让计算机“看见”世界的科学。

人类能够认出照片中的事物，推理它们之间的关系。但对于计算机来说，图片只是一连串RGB数值，没有任何意义。

*RGB数值:是一种用于表示颜色的标准，它来自于 RGB 色彩模型。RGB是红色(Red)、绿色(Green)、蓝色(Blue)的首字母缩写，这种模型通过调整红、绿、蓝三原色的亮度和比例来生成各种颜色。

让机器看见世界有四个阶段，也是计算机视觉的四个核心问题：

1）图像分类，即为不同的图片打上对应标签。

2）物体检测，即找到物体的位置，并认出他们是什么。

3）语义分割，即找到物体之间的关系和联系。

4）视频分析，即看懂视频中的内容。

让计算机看见世界有什么用？小到手机拍照中的人脸定位，酒店、银行里的人证校对；大到自动驾驶，医学影像诊断，都是计算机视觉的用武之地。

语音识别研究的是如何让计算机“听见”世界。

与计算机视觉的多重核心任务不同，语音识别有且只有一个核心任务：将人类的语音转换为文字。

机器如何识别语音？语言由单词组成，单词由音素组成。我们将一段语音的声波按帧切开。用帧组成状态，用状态组成音素。再将音素合成单词，语音就变成了文字。

与语音相关，仍属人工智能研究范围内的任务还有不少：

1）声纹识别，即识别说话的人是谁。

2）语音合成，即将文字信息转换为人类听的懂的语音。

Siri、智能音箱、车载设备，都是语音识别看得见摸得着的应用。

推荐系统是一种信息过滤系统，根据用户的历史行为、社交关系、兴趣点，算法可以判断出用户当前感兴趣的物品或内容。

你也可以将它理解为一家只为你而开的商店，店铺里摆放的都是你需要的，或者适合你的商品。

机器是如何找到这些适合你的商品的？最早人们使用的是基于内容的推荐方法(Content-based Filtering)，即根据物品的属性为它们打上标签，再通过这些标签，计算他们之间的相似度。当你在搜索栏中输入关键词，机器就能为你推荐你想要的，以及和它相似的物品、内容。

*在推荐系统中，打标签(标注数据)的工作既可以是人工操作的，也可以是系统自动完成的，这取决于具体的应用场景和需求。在需要高精度和对数据有特殊理解需求的场景中，人工标注是首选。在数据量大、对标注精度要求不是非常高的场景中，自动标注是更经济高效的选择。

如果我们已经购买了某种物品，我们或许并不需要更多类似的东西，但还有很多东西我们其实需要，却一下没有想到或者表达出来。这时候就需要协同过滤(Collaborative Filtering)来帮忙。日常生活中，我们会找到兴趣相投的朋友推荐电影或者音乐，协同过滤就是通过找到与你相似的用户，通过他们的行为和他们喜欢的内容，为你推荐你可能感兴趣的物品或内容。

互联网中沉淀了大量有用的，适合你的信息，只是通过搜索引擎很难表现出来，推荐系统则将他们展现在你的面前，并通过你的反馈，不断去寻找更多。

计算机视觉、语音识别、推荐系统等应用人工智能，虽然不是具备像人类一样的认知能力的，能够进行推理并自行解决问题的通用人工智能(AGI)，但它们却离我们当前的生活最近，最能够切实地帮助人类完成日常生活中的特定任务。将各种应用人工智能组合到一起后，效果还可能出乎意料，比如融合了语音识别和自然语言处理的Siri。也许你要说Siri的效果也实在不咋地，但想想与靠键盘输入信息相比，我们已经向前迈进了一大步。

不积跬步无以至千里。

人工智能基础：第六话 计算机视觉、语音识别、推荐系统概念简介

念空科技

人工智能基础：第六话计算机视觉、语音识别、推荐系统概念简介