侵权投诉
技术:
GPU/CPU 传感器 基础元器件 网络通信 显示 交互技术 电源管理 材料 操作系统 APP 云技术 大数据 人工智能 制造 其它
应用:
可穿戴设备 智能家居 VR/AR 机器人 无人机 手机数码 汽车 平衡车/自行车 医疗健康 运动设备 美颜塑身 早教/玩具 安防监控 智能照明 其它
当前位置:

OFweek智能硬件网

人工智能

正文

利用AI“看面相”预测犯罪倾向?谷歌研究员两万字批驳

导读: 任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者

不久前, 上海交通大学的两位研究者发布了一项题为“利用脸部照片自动推断犯罪性”的研究,利用基于有监督的机器学习的方法,根据人的脸部特征预测一个人是否有犯罪倾向,“准确率接近90%”。该研究在国内外引起了广泛的争议。近日,谷歌的几名研究员撰文对这一研究进行了批驳,回顾了机器学习技术的底层运作方式和技术细节,并探讨机器学习等先进技术在融入现实中所遇到的难题和挑战。

任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者

1844 年,意大利南部一个小城镇举办了一场审判会,一个名叫 Giuseppe Villella 的劳工因涉嫌窃取了“5 个里考塔(注释:意大利奶制品,类似凝乳),一块硬奶酪,两块面包……和两只小山羊”,最终被判定为“brigante”(暴匪)。当时,意大利南部正因盗匪和国家暴动陷入恐慌。Villella 于 1864 年在意大利北部帕维亚的监狱中死亡。

Villella 的死亡促使了现代犯罪学的诞生。当时镇里居住的一位名叫 Cesare Lombroso 的科学家和外科医生,他认为“brigante”是一种原始的人,天生容易犯罪。检查 Villella 的遗体后,Lombroso 发现了所谓的“证据”,证实了他的猜想:Villella 头骨枕头上的凹陷让人联想到“野人和猿猴”的头骨特征。

使用精确的测量仪器,Lombroso 记录下了他在 Villella 遗体上发现的更多显示其有精神错乱(derangement)的物理特征,包括“不对称的脸”。Lombroso 写道,犯罪分子“生下来就是罪犯”。他认为犯罪行为是会遗传的,并且在遗传时会带有伴随的物理特征,可以用卡钳和颅骨等仪器来测量[1]。这个想法很自然地证明了他之前的假设,即意大利南部人种相比北意大利人要落后原始许多。

使用人的外观推断其内在特征的做法被称为相面(physiognomy)。虽然在今天相面被认为是伪科学,但在民间一直流传着,可以从某个人的面部和身体特征识别出较差的“类型”的人,这一观点也在不同时期被编入国家法律,为很多行为提供了基础,比如购买土地、禁止移民、证明奴隶制合理,以及将种族灭绝正当化。在实践中,相面的伪科学成为科学种族主义(scientific racism)的伪科学。

人工智能和机器学习的快速发展使科学种族主义进入了一个新的时代。其中,人类行为中存在的偏见也被带入了机器学习模型的开发过程中。无论是有意还是无意,这种通过计算机算法对人类偏见的“洗白”可能会使这些偏见看来是客观的。

最近的一个例子便是,上海交通大学 Xiaolin Wu 和 Xi Zhang 在 2016 年 11 月传到 arXiv 上的论文《使用脸部图像自动推断罪犯》(Automated Inference on Criminality Using Face Images)。吴和张认为,机器学习技术可以预测一个人是否是犯罪分子(不是犯罪嫌疑人),号称准确度几乎 90%,而他们使用的数据仅仅是类似美国驾驶执照上人脸的证件照。虽然该论文没有经过同行评议,但其调查结果激发了一系列新闻报道。[2]

研究界的许多人都认为吴和张的分析在道德和科学上都是有问题的。在某种意义上,这不是什么新鲜事。然而,使用现代机器学习方法(性能强大,但对很多人来说也是神秘的),可以使这些过去的说法看上去有了新的可信度。

在摄像机和大数据无所不在的时代,机器学习相面也可以前所未有的规模得到应用。鉴于社会越来越多地依赖机器学习实现常规认知任务的自动化,开发人员、评论家和用户都迫切需要了解人工智能技术的局限和相面这一伪科学的历史,更何况后者如今还披上了一层和现代技术的外衣。

因此,我们在这里面向广泛的受众撰写了这篇深度文章:不仅对研究人员、工程师、记者和政策制定者,任何关心如何确保 AI 技术朝着有利于人类发展的人都是本文的读者。

接下来,我们将首先回顾机器学习技术的底层运作方式,然后讨论机器学习将如何延续人类的偏见。

如何用机器学习了解图像

计算机可以根据某个人的图片进行计算来分析这个人的身体特征。这是很普通的一个图像问题:计算机程序分析照片、根据照片做出一些决定,然后得出某些有意义的判断(比如说,“这张照片中的人很可能在 18 岁和 23 岁之间”)。

照片和计算机反馈之间的关系由一组参数确定,这些参数会在机器学习的阶段进行调整,这就是“机器学习”的由来。机器学习最常见的方法是监督学习,会使用大量带标记的样本工作,也就是样本图像与每个理想输出都进行配对。当参数设置为随机值时,机器只能纯粹凭运气作出回答;但即使给出了一个随机的起点,人可以慢慢地调整一个或多个参数,并问“这种变化是更好还是更差?”这样,计算机就能自我优化,学习任务。通常的训练项目会涉及数百万、数十亿或数万亿的参数选择,计算机在这个过程中稳步提高完成任务的性能。最终,计算机提高的水平放缓并趋于平稳,根据给定任务的固有困难程度以及机器和数据的局限性,预测准确性可能已经达到了最佳状态。

训练时,要避免的一个情况是过拟合(overfitting)。过拟合就是机器能够记住个别训练样本的正确答案,但不能进行泛化,泛化则是适用于不同的数据。避免过拟合最简单的方法是在验证系统时,使用没有在训练中出现过标记数据集。如果系统在验证时性能和训练时大致相同,那么就可以确信系统真的学会了如何发现数据中的一般模式,而不仅仅是记住了训练样本。这实际上和让学生考试的理由相同,测验时考的都是以前没有见过的问题,而不仅仅是重复在课堂上学到的例子。

每个机器学习系统都有参数——否则就没什么可学习的了。简单的系统可能只有比较少的参数。增加参数数量可以让系统学会更复杂的关系,成为更强大的学习者,输入输出间的关系越复杂,系统错误率就越低。另一方面,更多的参数也让系统能够记住更多的训练数据,因而也更容易产生过拟合。这意味着在参数数量和所需的训练数据的数量之间有一个关系。

现代的复杂的机器学习技术,如卷积神经网络(CNN)有数百万个参数,因此需要大量的训练数据避免发生过拟合。获得足够多带标签的数据来训练和测试系统,通常是机器学习研究者面临的最大的实际挑战。

示例:确定照片拍摄时间

卷积神经网络应用十分广泛,性能也非常强大。例如,Ilya Kostrikov 和 Tobias Weyand 提出的 ChronoNet,这个 CNN 可以猜测拍摄照片的年份。他们使用的数据是在过去 100 年间拍摄已知的日期的照片,这些照片都带了某种程度的标签(在这种情况下为日期照片),因此获取标记数据用于训练这个网络相对来说比较简单。

一旦网络被训练好,就可以输入照片,可以看出系统猜测拍摄的那一年。 例如,以下两张照片都是 ChronoNet 猜测1951(左)和1971(右):

blob.png

图2 深度学习猜测拍摄年份的照片

这些都是很好的猜测。左边的照片在 1950 年在斯德哥尔摩海滨拍摄的,右边的照片则是 1972 年尼克松在亚特兰大州发表竞选演说,旁边是尼克森夫人。

神经网络究竟是如何计算出来的?从机械学的角度来看,数百万个学习参数只是一系列加权平均计算中使用的权重。从原始像素值开始,加权平均值被组合,然后用作相似的计算集合的输入,然后又被用作另一个类似的计算集合的输入,等等——在多层网络中创建一个级联的加权平均计算。[3] 在 ChronoNet 中,最后一层的输出对应的是照片拍摄可能年份的概率值。虽然在技术上是正确的,但这个“概率”是无法解释的;让一位人类专家判断这两张照片的年代,他同样可以说:“我这样回答,是因为我的神经元就是这么连在一起的。”

1  2  3  4  5  6  下一页>  
声明: 本文由入驻OFweek公众平台的作者撰写,除OFweek官方账号外,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

我来说两句

(共0条评论,0人参与)

请输入评论

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码: