(公众号:)按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳开会,峰会由中国计算机学会(CCF)主办,、香港中文大学(深圳)主办,获得了宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,目的打造出国内人工智能领域最不具实力的跨界交流合作平台。CCF-GAIR 2018 沿袭前两届的顶尖阵容,获取 1 个主会场和 11 个专场(仿生机器人,机器人行业应用于,计算机视觉,智能安全性,金融科技,智能驾驶,NLP,AI+,AI芯片,IoT,投资人)的非常丰富平台,意欲给三界参会者从产学研多个维度,呈现更加丰前瞻性与落地性结合的会议内容与现场体验。在自然语言处置专场上,竹间智能CTO翁嘉颀应邀作为“自然语言处置的落地难题及应用于未来”圆桌辩论嘉宾,共享了自己的观点。
会后,对翁嘉颀展开了一对一的采访。竹间智能正式成立于2016年,主要是做到文本分析、大自然语义解读、情感计算出来。竹间智能主要有两条产品线,一条是类脑对话机器人,包括了客服机器人、导购机器人、金融机器人、营销机器人、个人助理、品牌IP机器人等;一条是多模态情感识别系统,还包括情绪辨识分析系统、人脸表情识别系统、印象分析系统、广告效果分析系统、呼叫中心质检系统、课堂情绪分析系统等。目前大多做到对话式人工智能的公司专心于文本,而竹间智能的多模态情感辨识则还包括了文本、语音、人脸表情等多个模块。
此次专访翁嘉颀也主要环绕着情感计算技术和商业化落地两个方面。在翁嘉颀显然,嵌入式分成三个层次,最底层是自然语言处置,第二层是意图解读,第三层是解读背后的涵义,目前业界还逗留在前两个阶段,要做第三个阶段,情感计算出来不可避免。
情感计算出来的难题在于不仅要精确解读单个模态的情绪,当多个模态的情绪发生冲突时,还要精确判断哪个情绪才是现实的,比如当一个人的语音情绪是高兴的,但是面部表情毕竟气愤的,那他是高兴还是气愤呢?更加无以的地方在于,当AI得知人的情绪之后,如何展开反应,如何去恳求心情低下的人?竹间智能以电影《Her》里的智能机器人赛曼莎为原型,指出机器人应当能看懂人脸表情、听不懂人类对话,从一开始就致力于多模态情感计算出来。且创始人简仁贤从一开始就不只是注目在手机、音箱里的智能语音助手,也注目卖场、零售等场景,在这些场景中,只有文字和语音的交互似乎过于,视觉必不可少。
然而,目前除了零售场景外,情感计算出来的落地场景还必须探寻,却是很多私人的场合,比如家庭里,就很难拒绝接受有机器人加装了摄像头。翁嘉颀指出现在语文和文本技术需要在特定领域老大人解决问题,特定领域是所指我要订酒店、订立餐馆参观,能与人展开大自然对话,而需要让人去按照机器人的逻辑说出。
未来,每个人都会有自己的智能助理,需要解读你的情感、你的意图、老大你照顾日常生活。而每个企业也不会有客服机器人,以后很有可能就是用户的智能助理和企业的客服机器人做事。在这些场景里,大公司和创业公司都有机会,没公司能解决问题所有的技术和场景。
以下为专访原文,展开了不转变本意的编辑和整理。:您目前在竹间智能负责管理哪些工作?重新加入竹间之前您的工作经历是怎么样的?翁嘉颀:我从1982年开始专门从事计算机,27年前认识人工智能,当然那个年代做到人工智能只不过做到不来,因为那时候的人工智能早已整个走下坡了。
当时绝大部分做到AI的人都转到做到搜索引擎,因为搜索引擎跟文本分析有一定的关系。我在搜索引擎领域做到了大约11年,现在我又返回人工智,这一次AI应当不至于再行泡沫化,它是知道需要步入人类的生活。我大约在两年半之前重新加入竹间智能,目前兼任公司CTO,负责管理技术部分,还包括设计竹间目前整个对话的架构、模块怎么体现、模块如何交互等,以及整个对外项目的落地:能明确说道一下有哪些模块吗?翁嘉颀:聊天机器人大约分三类,第一种是功能型的机器人,像SIRI、微信语音助手,可以坎天气、可以坎股票、可以去设置一些警告;第二种是知识型的,你可以回答他陆奇去哪儿工作了?(这个是昨天仅次于的新闻,他重新加入拼成多多了),可以回答陆奇离开了百度之后,股票究竟跌到了多少(三天大约跌到了18个点);第三种是闲谈,可以与人类展开情感对话,展开情景式聊天。
如果你跟机器人说道你爱情了,那我们要想要机器人该如何恢复,如何去掌控整个对话的上下文的话题。我负责管理的是整个对话的流程掌控,比如用户说道了一句话,机器人必须辨别应当是继续执行任务、获取科学知识、还是打开闲谈,因为每个模块都可以触达。
这个跟搜索引擎一样,百度的搜索引擎背后大约有300多个模块,谷歌背后大约500多个模块,今天问一句话,它只不过300多个模块都出来答案,出来答案之后,那我该如何把答案统合,做到个排序。第一页应当看见哪些,第二页看见哪些?那聊天机器人也是,聊天机器人更加苛刻,因为我没有办法问100句话,我不能问一句话。
这时候我应当中选哪句话来问,让它不会较为生动一点,又没那么呆板,但是问又会过于离谱。这是整个对话掌控在做到的事情。
:现在有像微软公司小冰一样同时发展智商情商的对话机器人,也有一些创业公司做到得更加横向,主攻任务型,或者是科学知识图谱领域。竹间智能在往哪个方向发展?翁嘉颀:微软公司小冰将智商与情商融合的概念是对的,竹间智能的创始人简仁贤也是微软公司小冰的创始人之一,他在2015年从微软公司出来创立竹间智能(Emotibot),公司名字的命名就是“情感机器人”的意思。竹间智能只不过比微软公司小冰还早于一年半做到情感机器人。
情商跟情感并不是一个意思,情商它的意思是我知道去解读你,我会侮辱你,我会冷冰冰的去问一个东西,那这个当然还包括情感计算出来在那边。在文字情绪方面,有些企业做到了于是以、胜、中3种分类,微软公司小冰有可能做到了6种,而竹间智能在文字情绪上面做到了22种分类,不会更加精准地观测无趣、妒忌这些情绪。光是文字情绪是过于的,我们还做到语音、表情情绪。
例如,一个人说道我中考录了500分,这时候你并不知道应当回应恭贺还是恳求,这时你就必须告诉语气。一般来说,语音的情绪不会比文字的情绪的最重要度更加强劲,信号更加反感。人脸表情的情绪要简单一些,因为我讲话谈到一半的时候,我的脸有可能是变形的,我的嘴巴恰好张开,这个时候抓拍下来,不代表我现在是吃惊的。那么,文字、语音、表情混搭在一起,就更为简单了。
像我常荐的一个例子,我面带着微笑,回来我的同事说道你死定了,面部表情的情绪和文字的情绪是冲突的,这时候应当怎么办?这是一个多模态情感的概念,就是你目前的情绪是文字、语音,再行再加人脸表情,整个混搭在一起,然后各有各的权重,一般来说文字的比重不会略为较低一点,语音不会是最低的,人脸表情却是分列在中间。刚的那个例子,我面带微笑说道你死定了,只不过这个还要看上下文,如果前面两个我们都在打趣,我忽然面带微笑说道你死定了,那还是打趣,如果前面两个我们显然在争吵,我忽然面带微笑说道你死定了,那认同是在威胁你,所以这个情绪情感只不过不是只看文字。:情感计算出来这个概念最近大家说道得较为多,能说道说道您对这个概念的解读吗?翁嘉颀:情感计算出来是由MIT教授Rosalind Picard明确提出来的,他是情感计算出来的始祖。
然后以目前来说,我一般把嵌入式分为三个层次,最底下的层次叫作自然语言处置,比如“我肚子饿”、“等会儿想要不吃东西”,这两句话,它的句法分析是不一样的,这是最底下的一层。第二层叫作意图的解读,这两句话虽然不一样,但是它意图是完全一致的。它的意图有可能代表说道,我想点店内,或者我要去找附近的什么餐馆。
然后,第三层是背后的意思,目前还没有人能做,像我在今天这个场合,我们第一次见面,我如果忽然跟你说道我肚子饿,我坚信你的心里感觉会过于好。你总会实在说道,我是不是来要饭的?那如果我跟一个女同事说道我肚子饿,她搞不好实在说道我是不是契约她过来睡觉,是不是有不当的企图?在有所不同的场景、跟有所不同的人、在什么样的状况我谈某种程度的一句话,它只不过背后代表的意思是不一样的。目前大家都还在做到第一层和第二层,我如何把句子分对,我如何让句法结构是对的。
在这方面,国内哈工大有很多专家。第二层意图解读这个也很多人在做到。目前可以做大约能用的地步,我对电视、音箱谈说道“来首谁谁的歌”,它告诉我是要听音乐。
那我跟音箱说道,“谁谁的歌好好听”,也不代表我要听得他的歌,我只是说道以后不要再放他的歌给我听得,现在能做正确理解这些句子的意图。第三层,背后的意思。我谈肚子饿,这句话究竟背后确实的意思是什么?那要跑到这一步,情感计算出来不可避免,整个场景、情境你不可避免。
:现在竹间智能有将文字、语音、人脸都融合到一起来做到情感计算出来的落地场景吗?翁嘉颀:谈一个我们老大夏普电视做到新零售的例子,夏普有个新开业的商场分店,那个商场里边总共有五家买电视的。开业的前三天,夏普的营业额90万,另外四家特一起营业额只四十几万,夏普一家就多达其他四家的总和,这是怎么做的?我们在卖场的入口敲了一个大的电视屏,可以抓拍每个路经的人的脸,能辨识出有男/女、长头发/较短头发、岁数、表情、颜值等,很多人会停下来来看。
然后我们根据用户画像,展开有所不同的商品和优惠活动的引荐。这样使得进店的客流就是别人的五倍以上。入到店里后,我们有无人的智能货架,上面加装了平板、摄像头,当摄像头看见一个长头发的女生回头过来,智能货架就不会主动交谈,说道,“这位女士,你的头发十分漂亮,我这里有洗发、护法、润发的产品,你是不是兴趣?”如果说摄像头辨识到女生脸上有黑斑,还不会自动引荐遮瑕膏等产品。
如果对方对此了,则不会之后话题;如果摄像头找到消费者的脸色显得更加漂亮,它就不会暂停话题。所以我们看见,这个案例里的交互还包括了有人脸、语音和文字。:现在的对话式人工智能主攻语音,竹间智能为什么一开始就推崇视觉?翁嘉颀:我们的对话式人工智能的点子主要来自于电影《Her》,里面的智能助手赛曼莎可以仅有方面地感官用户的状态,能看见用户的表情听见用户说道的话。
任何人的交流,语音固然最重要,但是很多时候只不过一句话都不用说,一个表情就早已充足了。比如你碰到一家门店,看见某个产品遮住反感的表情,那只不过就早已表达出来了你显然不讨厌这个产品。所以那时候在做到的时候,一开始跟上,我们就有图像处理、语音处置,有文字的处置,当时老板(简仁贤)早已想好他未来要的场景。不只是有手机上的嵌入式、音箱上的嵌入式,还要还包括入到卖场里边。
那么视觉就是必不可少的部分。所以一开始老板的野心就较为大。:文字、语音、人脸的多模态情感计算出来的难题在哪儿?翁嘉颀:较为大的难题当然是几种情绪相冲突的时候应当怎么办?你如果说文字里是高兴,语音也是高兴,人脸表情也是高兴,那没问题,小学生也告诉这是高兴。它语音是气愤,文字是高兴,比如我很气愤的去说道,“我今天很高兴”,你听得了以后你实在是什么意思呢?要解决问题这个问题,首先是文字、人脸和语音的情绪辨识要精确,再行一个就是几个情绪相冲突的时候,我究竟该以谁居多?一般来说,语音情绪占到的比重更大,但是如果说语音情绪是气愤,但是信心程度只有三四分,文字说道你是高兴,信心程度99分。
这个时候应当怎么办?还有一个最重要的点是整个情境,虽然有三个多模态的辨别,但是如果只有部分段,也是过于精确,我还要看倒数的情境,因为人情绪变化不至于太快,你当然有时候瞬间不会惊艳,瞬间不会爆怒,但是不代表说道,你一生气下一秒忽然就逆高兴,所以整个倒数的情绪要去考虑到,这个是较为大的一个难题。最后,一个最好的地方是,智能助手找到你气愤或者哀伤,该如何去安抚你、恳求你,情绪辨别完了之后,该怎么对此?:多模态情绪计算出来的方案在你们现在的业务里能占太大的比例?翁嘉颀:目前来说,智能客服绝大部分没视觉,然后智能电视、冰箱、音箱也都没摄像头,却是你在家里面装有一堆摄象头,让人深感十分忧虑,这个认同侵害你的隐私。
在公共场合,比如外面的卖场、银行,有摄像头也有监控,这个大家是拒绝接受的。比如说我去试镜的时候,有一个摄像头对着我,然后我在这里讲话的时候,老大我做到着人脸分析,这个感觉有些怪怪的,但是有可能可以拒绝接受。人对摄像头的接受程度要看场景,而且或许要看年代吧,每个年代拒绝接受的东西都不一样,像现在七十几岁那一辈,知道不会用手机吗?不会用电脑,这个有可能接受度不低,大家会用APP吗?还是习惯拿电话一起谈,拿电话去沟通交流,而不是用app,用网络。
有可能五六十岁这一代,他有可能不过于习惯用搜索引擎,因为他长大的那个年代没搜索引擎。然后四十几岁这一代,用APP的比例意味著没二十几岁这一代远比多。
所以这个还是要看,未来的一些变化,有些场景拒绝接受的,有些场景不拒绝接受。:像现在有一些音箱早已有屏幕了,有可能加到视觉吗?翁嘉颀:目前来说,特了有可能还买很差。一般来说如果特了一个摄像头的话,我还要再行特一个盖子,我可以把这个盖子盖起来,把摄像头遮盖。
必需告诉他用户这儿有摄像头,而且还可以给他一个盖子,让他适当的时候可以把摄像头遮盖,这个用户可以拒绝接受。要不你忽然特个摄像头,你的成本增加,反而买很差,让大家不会实在这个音箱在干嘛?而且音箱最少说道OK,我把它开动,摄像头就就让,而不是你在家里天花板上四处装进了摄像头,那个知道一点隐私都没。:如果它是一个机器人呢?具有跟人眼相近的眼睛。翁嘉颀:我们看科幻电影的时候,大家是拒绝接受的,机器人可以在你家里走来走去?但是你知道挂一个这样的机器人,有摄像头在你家里边,你心里现在应当会过于难受。
:竹间智能有机器人工厂(Bot Factory),协助企业自定义机器人,那么你们不会会让每个自定义的机器人具备它自己的个性?翁嘉颀:目前我们再行只做最简单的,机器人有机器人的属性。机器人叫什么名字,是男生还是女生,今年几岁?晚上睡觉不睡?宽什么样子?爸爸是谁?妈妈是谁?来自于哪里?我们不会根据大家最常问的这些问题展开原作。
此外,有些机器人的风格较为坦率,有些则较为可爱。这个我们目前有做到一些电源,像有些机器人可以谈笑话,有些机器人不能坎天气。我们有尝试下一步,能无法有一个你自己的机器人,我拿你平时跟你朋友聊天的一些数据来展开训练,自学你讲话的方式,那你就有一个你的机器人,用你的风格在聊天。
这一步在技术上是不切实际的,目前只是数据量的问题。我必须获得充足的数据,让那个机器人可以渐渐的相似你的不道德。但这又牵涉到你愿不愿意把你的隐私公开出来,你跟你朋友聊天的那些对话,都是你的隐私。
:这个你们有在实验了吗?翁嘉颀:我们两年前实验过,但是找到用户没这个耐性,因为你有可能要花上很多时间,你教教一个小朋友要教多少年?十几年,二十年,对不该?你有那么多耐性去教一个机器人吗?你大约教教个两天就没有耐性了,所以这是耐性的问题。:现在像微软公司小冰,还在往人工智能创作方面发展,她不会写诗,不会唱歌、不会写出新闻。在这个方面,你们怎么想要?翁嘉颀:只不过写诗、对对联,这个可玩性相对来说不低。
因为它只不过是在一个十分受限的方向解决问题。从冷笑话的观点来说,这些是很好的,大家不会实在很新鲜。
但是从简单的观点来说,做到这个东西如何协助解决问题、需要替我赚,目前还较为无以派上用场,当然小冰的定位是陪伴,就是让你会那么无趣。这填花哨的东西反而是好事,是有协助的。:竹间智能一开始就侧重商业化?翁嘉颀:对,因为我们必需往商业化这个地方回头,我做到一个很有意思的机器人,只不过是收不到钱的。
因为微软公司无所谓的,微软公司它有Windows、Offices这些盈利业务,就可以把小冰制成冷笑话有意思的。:现阶段来看,您希望对话式人工智能超过什么样的水平?翁嘉颀:我实在现在技术水平需要在特定领域老大人解决问题,特定领域是所指我要订酒店、订立餐馆,它能解读我的对话。订立餐馆的机器人,必须解读特定的话,比如,“七八个人有两个小孩”和“七八个人加上两个小孩”,这两句话,意思不一样。人说出,一般来说会必要阐释,不会有各式各样的众说纷纭。
比如,“我跟我爸妈要老大女朋友陪”,这代表必须几个座位呢?他不是告诉他你四个,他是告诉他你一段怪异的文字。那么,在这个领域,必须让机器人听不懂人类的这些话,而不是让人类去适应环境机器人,用机器人能听懂的方式问。
我实在未来,每个人有一个自己的机器人,那个机器人告诉你的爱好,你跟他说道老大我订立个店内吧,他告诉你讨厌不吃什么,不讨厌不吃什么,还告诉你昨天、前天不吃了什么,今天不要订立一模一样的。我跟他说道老大我打个电话给妈妈吧,他告诉妈妈所指的是谁。然后告诉你妈妈的电话,告诉几点打电话适合,他可能会警告你说道,现在太晚,妈妈早已睡了。以后,每个企业有可能也不会有一个自己的机器人,比如麦当劳,有可能有个订餐的机器人,老大你负责管理订餐,那如果你有一个自己的机器人,麦当劳有一个机器人,未来有可能是机器人跟机器人交流。
我只要跟我的手环说道,老大我点个巨无霸吧。然后它告诉巨无霸是麦当劳,它就跑完去找麦当劳机器人,两个机器人,不一定是用人类的语言交流,它们不会用它们的方式互相交换信息,然后麦当劳就处置这个东西,就把这个定单完结丢弃了。
:在这种未来图景里,大公司占有了终端优势,创业公司的机会在哪里呢?翁嘉颀:微信是一个很天然的入口,因为大家现在习惯关上微信,比如,我在微信上面说道,“我这个月刷卡翻了多少钱?”微信的机器人告诉你三张卡:招行、交行、浦发的卡,它就去找这三家机器人,老大你做到身份认证,你不必进三个银行的APP,微信的机器人能必要告诉他你三家银行的信息。当然,入口很难是小公司需要去守住的,但是语义解读,微信一家搞不定,腾讯一家是搞不定的。我的语义解读包括说道每一家招行、工行、浦发,它后面也要有这个机器人去拒绝接受这些指令。或者拒绝接受一句自然语言。
这个东西只不过是每一家还必须协助的。涉及文章:竹间智能简仁贤:超越千篇一律的聊天机器人 | Chatbot的潮流探究自然语言处置的商业落地:从基础平台到数据算法 | CCF-GAIR 2018微软公司发大讨:要做到智商和情商兼备的语音助手少女歌手小冰教导记:不会作词作曲合唱的人工智能的问世 原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文关键词:对话,翁嘉,颀,畅聊,竹间,智能,情感,计算,技术,开元官方网站
本文来源:开元官方网站-www.taartenvanjansen.com