NLP和计算机视觉在AI教育的那些年,数据桎梏一直是难点

来源:智汇工业

点击:1015

A+ A-

所属频道:新闻中心

关键词:NLP 计算机视觉 AI教育

    教育技术的迭代发生了很多次,如果把学校教育作为知识传播的核心来讲,第一次迭代是邮寄函授,第二次迭代是广播电视大学的出现,第三次迭代就是互联网。



    而在第三次迭代中,大数据、人工智能的应用将个性化教育推上了风口。国家层面也有体现,例如包括《新一代人工智能发展规划》与《教育信息化2.0行动计划》等政策的出台,给于了人工智能技术应用在教育领域的方向认可。


    那么,AI技术如何应用在教育领域,教育领域的哪些方面能够使用人工智能技术?


    从“学习”的角度来看,三种学习类别,分别是人际交往类的学习、知识传承学习、文明发展类的学习。


    其中,人际交往类的学习的例子是如语言学习、礼仪习惯、品德养成、管理有效等;知识传承类的学习例子,如如文字、数学、物理、化学、逻辑、运筹等;文明发展类学习的例子,如科学探索知识、工程技术、生命科学、行为科学等。



    显然,第一类更是靠模仿和习惯养成,学习环境很重要;第二类是靠师传面授,需要前人对知识规律性的总结、推导、系统分析、约定认知等;第三类文明发展类的学习需要系统的基础知识,需要灵感和想象力、需要有批判精神,也需要模型场地和实验验证等。


    针对这三类学习模式的特点,AI技术可以推动在线教育取代知识传承类的教育,也可以为人际交往类的教育提供有效的学习场景。


    如教学应用场景下,用大数据的学情分析,优质教学资源的推荐,教案的按需生成,虚拟化课堂场景试则是推动了知识传承类的在线教育发展;提供虚拟学习环境,对“礼仪行为”进行打分测评则是AI对人际交往类的教育的推动。


    具体到案例层面,当前的一些“学习场景辅助术”已经有了落地应用。


    例如,之前有一篇有关课堂监控技术的论文刊登在《IEEE Transactions on Visualization and Computer Graphics》上,在论文中,来自香港科技大学、哈尔滨工程大学等机构的研究者提出了一种名为 EmotionCues 的系统。该系统主要关注如何记录学生面部表情,并据此来分析学生在课堂上的情绪变化、注意力集中程度。



    虽然,愿景很好,作者希望能够通过AI系统掌握学生在课堂上的情绪反馈,判断学生的学习状态,以此来提醒老师该如何改善课堂内容、提高授课质量。


    但是测试的时候发现,这套AI分析系统是有缺陷的,比如在检测学习兴趣较为强烈时的愉悦感效果较好,对于愤怒或者悲伤等表情的解读能力还是有所欠缺,有时候单单因为皱一下眉头,却被“理解”为愤怒。


    为什么会出现这种问题呢?如果细究此AI系统的工作流程,在数据处理那一步,其采用的 FER 2013 数据集,虽然一直广泛用于面部表情识别。但也因为分辨率较低,错误标签而广为诟病。另外,人类人眼在这个数据集的判别准确率也就在65%左右,所以更别说处于“黑盒”状态的AI技术了。


    所以,数据集才是限制人工智能在教育领域应用的最大限制!


    1、自然语言处理下的AI教育



    上述是在教学课堂中的应用,其涉及的是计算机视觉技术,而作为人工智能皇冠上的明珠,自然语言处理也能发挥很多的应用潜力。


    常用的一些自然语言处理方法包括,机器学习(深度学习)、规则和逻辑、语言学。对应的常见的自然语言处理应用包括:搜索引擎、机器翻译、语音识别、问答系统。


    更为细致一些,词性标注、句法分析以及多轮对话用在了自动评分,辅导口语写作等外语和母语教育领域。而文本阅读分析,文本简化,生成题目也与教育文本处理息息相关。


    虽然,这些年随着算法和算力的提升,NLP有了一定的提升,但是在技术层面仍然遇到了难点。例如,下面这个例子,一句话就有6种理解方法(重读红色词):“我从来没说他偷过钱”——


    1.我从来没说他偷过钱=>别人说过,我没说过


    2.我从来没说他偷过钱=>就是从没说过3.我从来没说他偷过钱=我没说,但是我用其他方式表达过


    4.我从来没说他偷过钱=>我说过有人偷过,但不是他


    5.我从来没说他偷过钱=>不是偷,可能借过


    6.我从来没说他偷过钱=>偷的不是钱,是别的东西


    7.我从来没说他偷过我的钱=>他偷过钱,但不是我的钱


    其实,不光是逻辑层面,知识库、数据库层面的缺乏也是当前的难点,例如下面的they指的是什么?


    We gave monkeys the bananas because they were hungry.(they指猴子)


    We gave monkeys the bananas because they were over-ripe.(they指香蕉)


    再者,一些比喻用法和开放性的用法如果不在数据库里,现有的自然语言处理技术很难get到点,比如网络中常用的“灌水”,“潜水”就无法按照字面意思理解。


    以上三个难点,关乎着在线教育领域利用语音和文本理解技术批改学生的口述练习题的场景;关乎着利用语义理解的分析,批改作文的场景;关乎分析学生知识薄弱点的应用场景......


    而解决这些难点的方案,深谙AI+教育的新东方在线COO潘欣曾说过:人工智能最核心的不仅是算法,还需要数据,而对整个教育培训行业来说,最缺的就是数据。有了数据再谈人工智能是更切合实际的,如果没有数据就是空中楼阁。



    也就是说,当前部署人工智能教育的企业在核心算法技术上的差距并不明显。


    从NLP中的语音分支来看,以智能发音评测为例,基础测评功能的实现技术门槛不高。然而,如果要评测系统能够精准的、全方位的,评价各个发音人的发音情况,则就需要海量精准化、多维度的标记数据。


    更为具体一些,当前在一些NLP模型中,常用的语音评测技术,比如用于英语口语教学中的语音评测,一般都是采用智能打分技术对学习者的口语进行评测,而目前智能打分技术主要还是基于GOP(Goodness Of Pronunciation)方法。


    GOP方法依赖于两个过程,一个是强制对齐(Forced Alignment,简称FA),一个是自由音素(Free Phoneme,简称FP)解码,其中FA就是基于声学模型和参考文本(即需要学习者跟读的文本)把每个单词的时间边界找到,同时得到每个单词的似然度(Likelihood);


    而FP解码是用同样的音频,但是其解码的单位是音素级别,每个音素可以跟任何其他音素,在最理想的情况下,即声学模型足够好,音素识别率100%准确的情况下,对于那些读的特别好的音频,FP解码出来的音素序列和参考文本扩展出来的音素序列几乎一致,而对于那些读的特别差的音频,FP解码出来的音素序列和参考文本扩展出来的音素序列几乎完全不同。


    数据的短缺是绝大多数教育公司或者研究员面临的最大问题,多维度的高质量数据才是模型表现优秀的竞争突破口。专业规范的数据不仅能够提高训练AI模型的效率,对“成本”节省的重要性也是不言而喻。




    数据获取的方式有很多,开源使用一些知名的开源数据平台的免费数据,如openSLR等,也可以利用产品累积的线上数据,标注之后训练模型。但是线上数据质量参差不齐,数据挑选和标注的资金、人力和时间成本较高。


    另一个解决方式是寻求专业数据服务公司的帮助,利用他们细分场景、规范且高质量的数据输出获得标准化的数据集。显然,这种方式也是需要付出资金和成本。


    另外,关于开源的数据集,这里给大家推荐一个北京爱数智慧科技有限公司发布了智能教育行业具有代表性的英语发音语音评测数据集。


    包含14+小时中国人说英语的数据,说话人性别比例接近1:1。数据集在近场环境录制,不存在明显混响、噪音情况。该数据集邀请了外教从流利度、停顿、发音正确率、语调、重音等六个维度进行综合性打分。


    该数据集有五个优势,分别是:匹配在线教育应用场景、年龄段选择、多维度、客观性、科学性。

    (审核编辑: 智汇婷婷)