在上周进行的测试中,参赛公司让各自的人工智能系统解答斯坦福问答数据集(Stanford Question Answering Dataset)的提问,该数据集评估阅读理解能力。计算机的答案被与普通人的答复进行比较,然后据此排名。
该项测试提出的问题包括:“尼古拉特斯拉(Nikola Tesla)是什么种族的人”,以及“亚马逊雨林有多大?”
斯坦福大学的测试题基于500多篇维基百科文章编制而成,旨在通过这套试题梳理出线索,看机器学习模型是否能够在经过大量信息处理后给出问题的确切答案。
这些题目所构成的试卷被认为是当前世界检测机器阅读水平的最权威标准之一。
微软和阿里巴巴开发的AI模型以微小优势胜出,在回答的精确匹配度上比人类的82.3%高出几个基点。
阿里数据科学研究院的自然语言处理首席科学家Luo Si称,这个胜利是一个里程碑,该技术有很多用途,包括客户服务、博物馆讲解、医疗查询,其中一些在全球范围内已经由聊天机器人(chatbot)处理。
类似的技术已被用于买家提出的常见问题(比如“我的包裹在哪里?”)。在阿里的光棍购物节期间,这类问题会大量涌入。