期待人工智能为汉语国际化助力

2018-03-06 10:59:46 来源:中国技术市场报 热度:
新年结束后第一个工作周,第五届中文句法错误自动检测技术评测(ChineseGrammarti-calErrorDiagnosis,CGED)悄悄拉开了战幕,人工智能学术界和工业界的不少单位即将在“帮老外批汉语作文”这一任务上一较高下。据介绍今年评测活动的竞争将十分激烈。这多少也和去年年底的AI批改留学生作文的热点事件有关。 
 
  
2017年12月央视新闻一则《浙外引进阿里AI批改作文,不到200字作文看出8处错误》的新闻,引发各媒体关注和网友热议。据报道,一些较为隐蔽的错误点,甚至有经验的教师也无法立刻发现。 
 
就像所有其他人工智能应用一样,一经众多媒体的宣传,自动作文批改就已经开始有点儿“威胁”汉语教师了。但查阅CGED技术评测的综述论文可知,经过超过五千个错误点测试后,即使是2016年和2017年技术评测第一名(哈工大与阿里巴巴)识别错误类型和错误位置的综合精度也都在40%以下。再加上留学生手写作文扫描识别为数字化文本环节的差错,错误识别的综合精度只会更低。另一方面,为了降低运算难度,评测还将真实语言教学中的几十种错误标记,归并为了冗余、缺失、错用、乱序四种大错误类型。由于评测中错误划分很粗,教师无法只通过错误统计就准确把握学生语言能力。总之,自动批改距离投入教学前线还有很大的差距。 
 
人工智能领域有句很有道理的笑话:人工智能,没有人工就没有智能。相比高考作文,汉语作为第二语言的写作数据还较为稀缺。受教学模式、学习阶段和母语的影响,留学生容易出现的语法错误类型极富多样性。今天在大多数人工智能应用中取得辉煌战绩的深度神经网络模型,对数据规模和质量的要求则更加苛刻。 
 
目前,市场上较为成功的人工智能应用大多都因为构建了“服务—用户—数据”的正反馈闭环,即通过智能服务扩大用户群体,大量用户产生数据,数据驱动模型进一步改进服务效果。这就要求人工智能服务在先期必须达到用户基本可以忍受的效果。而对于汉语作为第二语言的句法错误检测任务,虽然已经取得了不小的进步,但还无法开启如导航、广告推荐这样的正反馈闭环。正如黎明之前的黑暗最难熬,推动智能起飞之前的这段人工之路也最艰苦。但好在语言处理被视作人工智能皇冠上的明珠,越来越多的资本和人力都在不断涌入,相信句法错误检测这样的细分领域,在可预见的未来也能进入飞速发展期。届时,教师省心、学生省力的批改机器人就不再只停留于展示中了。 
 
另一方面,技术评测将助力技术发展。毕竟光说不练假把式,在同一数据平台上一较高下,方可刺激学界和业界苦练真功。期待今天还停留在展示和概念阶段的AI能高速成长,为汉语国际传播贡献力量。

责任编辑:吴一波