- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
除却一些无关紧要的情况,人们很难直接从原始数据本身获得所需信息。例如,对于垃圾邮件的检测,侦测一个单词是否存在并没有太大的作用,然而当某几个特定单词同时出现时,再辅以考察邮件长度及其他因素,人们就可以更准确地判定该邮件是否为垃圾邮件。简单地说,机器学习就是把无序的数据转换成有用的信息。
机器学习横跨计算机科学、工程技术和统计学等多个学科,需要多学科的专业知识。稍后你就能了解到,它也可以作为实际工具应用于从政治到地质学的多个领域,解决其中的很多问题。甚至可以这么说,机器学习对于任何需要解释并操作数据的领域都有所裨益。
开发出能够识别鸟类的计算机软件,鸟类学者就可以退休了。因为鸟类学者是研究鸟类的专家,因此我们说创建的是一个专家系统。
表1-1是我们用于区分不同鸟类需要使用的四个不同的属性值,我们选用体重、翼展、有无脚蹼以及后背颜色作为评测基准。现实中,你可能会想测量更多的值。通常的做法是测量所有可测属性,而后再挑选出重要部分。下面测量的这四种值称之为特征,也可以称作属性。表1-1中的每一行都是一个具有相关特征的实例。
表1-1 基于四种特征的鸟物种分类表
表1-1的前两种特征是数值型,可以使用十进制数字;第三种特征(是否有脚蹼)是二值型,只可以取0或1;第四种特征(后背颜色)是基于自定义调色板的枚举类型,这里仅选择一些常用色彩。如果仅仅利用常见的七色作为评测特征,后背颜色也可以是一个整数。当然在七色之中选择一个作为后背颜色有些太简单了,但作为专家系统的演示用例,这已经足够了。
如果你看到了一只象牙喙啄木鸟,请马上通知我!而且千万不要告诉任何人。在我到达之前,一定要看住它,别让它飞跑了。(任何发现活的象牙喙啄木鸟的人都可以得到5万美元的奖励。)
机器学习的主要任务就是分类。本节我们讲述如何使用表1-1进行分类,标识出象牙喙啄木鸟从而获取5万美元的奖励。大家都想从众多其他鸟类中分辨出象牙喙啄木鸟,并从中获利。最简单的做法是安装一个喂食器,然后雇用一位鸟类学者,观察在附近进食的鸟类。如果发现象牙喙啄木鸟,则通知我们。这种方法太昂贵了,而且专家在同一时间只能出现在一个地方。我们可以自动化处理上述过程,安装多个带有照相机的喂食器,同时接入计算机用于标识前来进食的鸟。同样我们可以在喂食器中放置称重仪器以获取鸟的体重,利用计算机视觉技术来提取鸟的翅长、脚的类型和后背色彩。假定我们可以得到所需的全部特征信息,那该如何判断飞入进食器的鸟是不是象牙喙啄木鸟呢?这个任务就是分类,有很多机器学习算法非常善于分类。本例中的类别就是鸟的物种,更具体地说,就是区分是否为象牙喙啄木鸟。