本文目录一览:
- 1、Chatbot基本概念
- 2、聊天机器人概述
- 3、简单介绍一下谷歌和微软
- 4、如何做一款聊天机器人
- 5、谷歌有多强大?和微软相比呢?
Chatbot基本概念
Chatbot 基于NLP技术谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍,是一种人机交互方案。与传统APP交互不同,Chatbot以对话为主要形式。Chatbot的重要性,在 交互未来 中有介绍。本文主要讲Chatbot的基本概念。
1.澄清
Chatbot这个名字有点水分。翻译是聊天机器人,但它不是机器人。当谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍你听到一个东西是机器人,就会拿出逗猫那套,各种玩它,逗她,下意识认为它是不同于谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍你的东西。有种「你她」对立的感觉。Chatbot不是「她」,而是一种交互方式。帮助用户,将用户意图,转化为机器可以理解的内容,从而实现某个事情。叫chat-interaction更恰当些。
2.对话管理(Dialog Management)
对话是chatbot的核心。每一次对话,都是一次交互。当用户说出一句话,chatbot需要将这句话包含的信息,组成机器可以理解的内容。然后,根据一定的策略,给出一个反馈——回复一句话。这个过程就叫对话管理。
平常对话,不止一轮。多轮对话中,每句话信息不同,需要添加新信息,更新已有信息,这个叫对话状态管理(Dialog State Tracking,DST)。语言中信息,复杂且多变,DST通常需要复杂又灵活的数据结构。DST是对话管理的第一核心。
对话策略(Policy)要解决的是,如何根据用户的话中信息,得到恰当的回复。当前大量chatbot的策略,是基于写死的规则,是一大堆「if-else」的组合。也有一些团队,在用强化学习,实现智能化规则。
3.意图
意图这个词,人可以看懂,和机器的联系就很远,有点反机器。为什么?因为这个词,是产品经理想出来的。
用户说完一句话,chatbot需要理解这句话。这个理解的首要点在于,搞清楚这句话背后,用户想要什么功能。功能也就是意图。在传统APP里面,功能都在界面上,用户可以看可以摸。现在情况变化,没有功能界面,用户只能用语言表达想做什么,chatbot要去「猜测」这句话是哪个页面,什么功能。「猜测」准确极其重要,否则就驴头不对马嘴,画风诡异。
最简单的意图理解,是分类问题。对话轮数变多,还要考虑上下文,经典NLU文本分类算法可能不够,需要引入更多算法(如RNN)。
4.实体(或槽)
刚才说,理解一句话,意图是首要。然后呢,就是识别与意图有关的实体。实体(Entity)这个词,脸书,谷歌和微软的chatbot服务在用。亚马逊,百度,则用的是槽(slot)这个概念。能对应就好。
意图对应功能,实体则对应完成功能所需的参数。比如,用户说,「我要打个电话」。「打电话」就是意图(功能)。打电话应该怎么做?用户还要选择「什么时间」打电话,打给「谁」,打「视频电话」还是「语音」。时间、谁、方式三个就是「打电话」这个意图关联的实体。画过APP交互的知道,这个页面要怎么来,不同的是,现在要用一句句对话来实现。
又比如,「我想去河边钓鱼」。「钓鱼」就是意图。这次实体就比较复杂了。「钓具」,「天气」,河边在「哪」,怎么去的「路线」,「出发时间」都和意图相关。不过,如果用传统APP,要同时用到很多APP,而且容易乱,此时,chatbot式交互就非常有价值。
实体识别,是词的提取和匹配问题,最近几年已发展成熟。chatbot需要应对的是,随时切换的意图,以及可能错综复杂的实体关系,这需要经验和洞见。
5.场景(chatbot的应用)
上边钓鱼的例子,实体里面有「钓具」、「路线」等,实际它们本身也可成为意图。这时,钓鱼就成为一个场景(Story),它是一堆互相关联意图的结合体。
在场景这一层,基于Chatbot的应用,与传统APP已经没什么区别。理论上,Chatbot应用可以做的,APP也可以,它们是竞争关系。谁体验更好、成本更低很重要。对于chatbot,在场景生产的效率上,比APP交互远高,简直就是工业与农业的区别。想想,对chatbot真是充满期待。
推荐电影:
Her
钢铁侠
黑客帝国
聊天机器人概述
聊天机器人,是一种通过自然语言模拟人类,进而与人进行对话的程序。
1950年,图灵(Alan M. Turing)在 Mind 期刊上发表的文章 Computer Machinery and Intelligence ,这篇文章开篇就提出了“机器能思考吗?(Can machines think?)”的设问,提出了经典的 图灵测试(Turing Test) 。通过图灵测试被认为是人工智能研究的终极目标,图灵本人也因而被称为 “人工智能之父” 。
1966年,最早的聊天机器人程序 ELIZA 诞生,由麻省理工(MIT)的约瑟夫·魏泽鲍姆(Joseph Weizenbaum)开发,开发用于临床模拟罗杰斯心理治疗的 BASIC脚本程序 。实现技术仅为对用户输入计算机的话语做关键词匹配,并且回复规则是由人工编写的。
1972年,美国精神病学家肯尼思·科尔比(Kenneth Colby)在斯坦福大学(Standford University)使用 LISP 编写了模拟偏执型精神分裂症表现的计算机程序 PARRY 。
1988年,英国程序员罗洛·卡彭特(Rollo Carpenter)创建了聊天机器人 Jabberwacky ,项目目标是“以有趣、娱乐和幽默的方式模拟自然的人机聊天”,这个项目也是通过与人类互动创造人工智能聊天机器人的早期尝试,但 Jabberwacky 并未被用于执行任何其他功能。技术是使用 上下文模式匹配技术 找到最合适的回复内容。
1988年,加州大学伯克利分校(UC Berkeley)的罗伯特·威林斯基(Robert Wilensky)等人开发了名为UC(UNIX Consultant)的聊天机器人系统。UC聊天机器人目的是帮助用户学习UNIX操作系统。
1990年,美国科学家兼慈善家休·勒布纳(Hugh G. Loebner)设立了人工智能年度比赛------勒布纳奖(Loebner Prize)。勒布纳奖旨在借助交谈测试机器的思考能力,它被看做对图灵测试的一种时间,其比赛的奖项分为金、银、铜三等。目前为止,尚无参赛程序达到金奖或银奖标准。
在勒布纳奖的推动下,聊天机器人迎来了研究的高潮,其中较有代表性的聊天机器人系统是1995年12月23日诞生的 ALICE(Artificial Linguistic Internet Computer Entity) 。随着 ALICE 一同发布的 AIML(Artifical Intelligence Markup Language) 目前在移动端虚拟助手的开发中得到了广泛的应用。
2001年,SmarterChild在短信和即时通信工具中广泛流行,使得聊天机器人第一次被应用在了即时通信领域。2006年,IBM开始研发能够用自然语言回答问题的最强大脑 Watson ,作为一台基于IBM“深度问答”技术的超级计算机, Watson 能够采用上百种算法在3秒内找出特定问题的答案。
2010年,苹果公司推出了人工智能助手 Siri , Siri 的技术来源于美国国防部高级研究规划局公布的CALO计划:一个简化军方繁复事务,且具备学习、组织及认知能力的虚拟助理。CALO计划衍生出来的民用版软件就是 Siri虚拟个人助理 。
此后,微软小冰、微软Cortana(小娜)、阿里小蜜、京东JIMI、网易七鱼等各类聊天机器人层出不穷,并且这些聊天机器人逐渐渗透进人们生活的各个领域。
2016年,全国各大公司开始推出可用于聊天机器人系统搭建的开放平台或开源架构。
2010年至今,标志性的聊天机器人产品如下图所示。
总结:随着人工智能相关技术“东风”渐起,自然语言处理研究硕果颇丰,聊天机器人相关技术迅速发展。同时,聊天机器人作为一种新颖的人机交互方式,正在成为移动搜索和服务的入口之一,毕竟搜索引擎的最终形态很可能就是 聊天机器人 。众多人工智能领域的探索者和开发者都想紧紧抓住并抢占聊天机器人这一新的交互入口。
下面从几个维度对齐进行分类介绍。
在线客服聊天机器人系统 的主要功能是自动回复用户提出的与产品或服务相关的问题,以降低企业客服运营成本、提升用户体验。代表性的商用在线客服聊天机器人系统有小i机器人、京东JIMI客服机器人、阿里小蜜等。以京东JIMI客服机器人为例,用户可以通过与JIMI聊天了解商品的具体信息、了解平台的活动信息、反馈购物中存在的问题等。另外,JIMI具有一定的 拒识能力 ,因此可以知道用户的哪些问题时自己无法回答的,且可以及时将用户转向人工客服。阿里巴巴集团在2015年7月24日发布了一款人工智能购物助理虚拟机器人,取名为“阿里小蜜”,阿里小蜜基于客户需求所在的垂直领域(服务、导购、助手等),通过“智能+人工”的方式提供良好的客户体验。
娱乐场景下聊天机器人系统 的主要功能是同用户进行不限定主题的对话(闲聊),从而起到陪伴、慰藉等作用。其应用场景集中在社交媒体、儿童陪伴及娱乐、游戏陪练等领域。有代表作的系统如微软的“小冰”、微信的“小微”、北京龙泉寺的“贤二机器僧”的等。
教育场景下的聊天机器人系统 可以根据教育内容的不同进一步划分。这类聊天机器人的应用场景为具备人机交互功能的学习、培训类产品,以及儿童智能玩具等。
个人助理类 应用可以通过语音或文字与用户进行交互,实现用户个人事务的查询及代办,如天气查询、短信手法、定位及路线推荐、闹钟及日程提醒、订餐等,从而让用户可以更便捷地处理日常事务。
智能问答类 聊天机器人系统可以回答用户以自然语言形式提出的事实型问题及其他需要计算和逻辑推理的复杂问题,以满足用户的信息需求并起到辅助用户决策的目的。不仅要考虑如 What、Who、Which、Where、When 等事实型问答,也要考虑如 How、Why 等非事实型问答,因此智能回答的聊天机器人通常作为聊天机器人的一个服务模块。
从实现的角度来看,聊天机器人可以分为 检索式 和 生成式 。检索式聊天机器人的回答是提前定义的,在聊天时机器人使用规则引擎、模式匹配或者机器学习训练好的分类器从知识库中挑选一个最佳的回复展示给用户。生成式聊天机器人不依赖于提前定义的回答,但是在训练机器人的过程中,需要大量的语料,语料包含上下文聊天信息和回复。
尽管目前在具体生产环境中,提供聊天服务的一般都是基于检索的聊天机器人系统,但是基于深度学习Seq2Seq模型的出现可能使基于生成的聊天机器人系统成为主流。
基于功能的聊天机器人可以分为问答系统、面向任务的对话系统、闲聊系统和主动推荐系统4种。
目前,对问答系统和主动推荐系统的评价指标较为客观,评价方式也相对成熟。而面向任务的对话系统和馅料系统,在给定相同输入的情况下,系统回复形式可以多种多样,对于用户的同一输入,通常有多种合理且数目不固定的回复,这使得很难通过一种客观的机制对其进行评价,所以在评价时需要加入人的主观判断作为评价的依据之一。
通常,一个完整的聊天机器人系统框架如图,其主要包含自动语音识别、自然语言理解、对话管理、自然语言生成、语音合成5个主要的功能模块。需要指出的是,并不是所有的聊天机器人系统都需要语音技术。
例如,以文字方式实现人机交互的聊天机器人系统,就不需要自动语音识别模块和语音合成模块。
Amazon Lex是一种可以在任何程序中使用语音和文本构建对话界面的服务。Amazon Lex提供可扩展、安全且易于使用的端到端(end2end)解决方案,以构建、发布和监控开发人员发布的机器人。下图展示了聊天机器人如何通过对话的方式协助用户完成订花的需求。
另一个典型的聊天机器人框架是Facebook的Wit.ai。Wit.ai积累了大量高质量的对话数据,有效促进了聊天机器人系统的发展,并通过将人工智能和人类智能结合,进一步提升了聊天机器人的智能水平。
聊天机器人的4种分类,包括 问答系统、面向任务的对话系统、闲聊系统和主动推荐系统。
Siri被定位为面向任务的对话系统,为用户提供打电话、订餐、订票、放音乐等服务。Siri对接了很多服务,且设置了 “兜底” 操作,当Siri无法理解用户的输入时就命令搜索引擎返回相关的服务。Siri的出现引领了移动终端个人事务助理的商业化发展潮流。
下图是Siri的技术框架:
2011年2月,IBM耗资3000万美元研发的IBM Watson登上了美国著名智力问答竞赛节目《危险边缘》(Jeopardy),面对节目中充满双管意思的英文问题,IBM Watson能做出分析并在庞大的自然语言知识库中寻找线索,将这些线索组合成答案。最终,IBM Watson压倒性地优势击败了节目中最聪明的人脑,同时创下了这个知识竞赛系列节目27年历史上的最高分。IBM Watson作为IBM公司研发的问答系统,集成了自然语言处理、信息检索、知识表示、自动推理、机器学习等多项技术的应用,形成了假设认知和大规模的证据搜集、分析、评价的深度问答技术。IBM Watson可以分析自然语言形式的数据,通过大规模学习和推理,为用户提供个性化服务。
2012年7月9日,谷歌发布了智能个人助理Google Now。Google Now通过自然语言交互方式为用户提供页面搜索、自动指令等功能。Allo是谷歌在前述工作的基础上发布的语音助手。Allo具备随时间推移学习用户行为的能力。
2014年4月2号
主动推荐系统采用的是一种实现个性化信息推送的技术方式。主动推荐系统并不需要用户提供明确的需求,而是通过分析用户的历史行为数据建立用户画像,从而基于用户画像主动向用户推荐系统认为能够满足用户兴趣和需求的信息。在电商购物(如阿里巴巴、亚马逊)、社交网络(如Facebook、微博)、新闻资讯(如今日头条)、音乐电影(如网易云音乐、豆瓣)等领域均有广泛而成功的应用。主动推荐系统本质上是一项帮助人们解决信息过载(information overload)问题的工具。所谓信息过载,是指用户真正需求、真正感兴趣的东西被淹没在其同类物品的海洋里。 主动的交互方式能够显著提升用户体验,且机器人主动交互的方式更接近真实的人与人之间的对话方式,使得对话更自然。
一种主动推荐的方式,是基于 知识图谱(Knowledge Graph) 的主动推荐系统。例如,在建立音乐领域的主动推荐系统时,可以先建立音乐领域知识图谱和用户知识图谱,然后在进行用户信息搜索的过程中建立起用户的音乐喜好画像,从而更精准地对用户进行音乐推送。
从图中可看出,在用户点播歌曲的过程中,主动推荐系统可以结合音乐知识图谱、用户个人知识图谱,以及用户的历史对话数据,综合给出最优的音乐推荐。
主动推荐系统与问答系统、面向任务的对话系统和闲聊系统被认为是聊天机器人产品的4种主要分类。
简单介绍一下谷歌和微软
谷歌是以网络产品起家的公司,以google搜索起家,类似于网络第一公司,基于网络搜索,通过对企业网页的搜索结果,以及网页广告进行收费,增加收益,之后google推进开放系统平台安卓内核,加快了安卓的生态圈的迅速崛起,最为人所知的是三星的手机和平板所使用的系统,基于安卓平台,开发出自己的个性化,从智能手机移动终端到平板电脑,以及google正在打造的google笔记本,并且google在游戏,浏览器上都有非常好的表现;微软是以桌面端操作起家的公司,比如众所周知的windows XP,windows vista, windows 7 ,windows 8,因为微软诞生之初,苹果已经在个人电脑方面非常成功,但是因为苹果是一家保守的公司,从硬件到软件都不对外开放技术指标,这个给微软了非常好的契机,微软通过与IBM以及最初的几家个人电脑厂商的配合,从而最快的速度铺开了微软桌面操作系统的销售,造就了微软在整个围绕PC行业所形成的桌面垄断,以此起家后,微软在服务器端的操作系统,以及近年来的游戏行业,和云等方面也有突飞猛进的发展
如何做一款聊天机器人
首先难点在聊天上。
能让机器理解人类谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍的语言谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍,或者模仿人类的语言是大家对人工智能最初的幻想,所以在早先,图灵测试一度成为评判人工智能的标准。
对话和翻译应用的是人工智能众多学科分支里自然语言处理(Nature Language Processing,简称NLP)的部分,目的是要解决人和机器之间的沟通问题,是人工智能处理的发端,至今仍面临很多问题。
就拿对话系统来说,市面上各个巨头都推出自家智能语音助理,但鲜有一款能完全摆脱"智障"的嫌疑。
可以说在这条赛道上,大家跑的都不快。但尽管如此还是坚持在跑,就连长期困顿在手机里的Siri,也要推出自己的智能音箱。
"尽管目前形势不太乐观,但是一直跑下去,总会见到成效。"再坚持5-10年自然语言处理就会看到长足发展。
第一层是基础技术:分词、词性标注、语义分析。
第二层是核心技术:词汇、短语、句子、篇章的表示。包括机器翻译、提问和回答、信息检索、信息抽取、聊天和对话、知识工程、语言生成、推荐系统。
第三层是"NLP+":仿照"人工智能+"或"互联网+"的概念,实际上就是把自然语言处理技术深入到各个应用系统和垂直领域中。比较有名的是搜索引擎、智能客服、商业智能和语音助手,还有更多在垂直领域--法律、医疗、教育等各个方面的应用。
关于第三层的"NLP+",市面上大大小小的语音助手有不少,从微软毕业的有两个:小娜(Cortana)和小冰。虽然都是语音助手,但是两者还是有些区别。
其实无论小冰这种闲聊,还是小娜这种注重任务执行的技术,背后单元处理引擎无外乎就三层技术。
第一层:通用聊天,需要掌握沟通技巧、通用聊天数据、主题聊天数据,还要知道用户画像,投其所好。
第二层:信息服务和问答,需要搜索的能力,问答的能力,还需要对常见问题表进行收集、整理和搜索,从知识图表、文档和图表中找出相应信息,并且回答问题,这些统称为Info Bot。
第三层:面向特定任务的对话能力,例如订咖啡、订花、买火车票,任务是固定的,状态也是固定的,状态转移也是清晰的,就可以用Bot一个一个实现。通过一个调度系统,通过用户的意图调用相应的Bot 执行相应的任务。它用到的技术就是对用户意图的理解,对话的管理,领域知识,对话图谱等。
除谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍了创造出小娜小冰,微软还要技术释放,让开发者能开发自己的Bot。如果开发者的机器不懂自然语言,这时就可以通过一个叫Bot Framework的工具来实现。
任何一个开发者只用几行代码,就可以通过Bot Framework完成自己所需要的Bot。比如,有人想做一个送披萨外卖的Bot,可以用Bot的框架填入相应的知识、相应的数据,就可以实现一个简单的Bot。很多没有开发能力的小业主,通过简单操作,就可以做一个小Bot吸引来很多客户。
在这个开源平台里有很多小冰的关键技术。微软有一个叫做LUIS(Language Understanding Intelligent Service)的平台,提供了用户的意图理解能力、实体识别能力、对话的管理能力等等。
比如说这句话"readme the headlines",识别的结果就是朗读,内容就是今天的头条新闻。再比如说"Pausefor 5 minutes",识别的结果是暂停,暂停多长时间?有一个参数:5分钟。通过LUIS,我以把意图和重要的信息抽取出来,让Bot来读取。
这些对于人类来说甚至不需要动脑思考的对话,对于机器来说是难到了另一个层次上。
周明博士认为人工智能有四个层次,从下往上依次是:运算智能、感知智能、认知智能和创造智能。
运算智能已经达到很高的水平了,感受一下来自世界顶级围棋选手对AlphaGo的评价。
其次是感知智能,主要体现在听觉、视觉和触觉方面,也就是我们通常说的语音技术、图像技术。语音技术用的就多了,比如让Siri听懂谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍你说的话,图像识别主要应用在人脸识别上,喜欢跟随科技潮流的公司一般会把门禁换成人脸识别。
认知智能是我们今天说的重点,主要包括语言、知识和推理。语言的重要性体现在什么地方呢?Siri不能只是识别出来谷歌和微软的聊天机器人运行成本可能是正常搜索的10倍你在说啥,它需要根据你说的话做出回应,这时候就需要理解你在说什么。
创造智能就是一种最高级的形态了,也就是当AI拥有想象力的时候。
在运算和语音、图像识别上,机器已经能达到很高的准度,目前的主要缺口在认知智能上。过去认知智能主要集中在自然语言处理,它简单理解了句子、篇章,实现了帮助搜索引擎、仿照系统提供一些基本的功能、提供一些简单的对话翻译。
对于未来语音智能的发展,周明博士认为有几个方向:
第一,随着大数据、深度学习、云计算这三大要素推动,口语机器翻译会完全普及。
第二,自然语言的会话、聊天、问答、对话达到实用程度。
第三,智能客服加上人工客服完美的结合,一定会大大提高客服的效率。
第四,自动写对联、写诗、写新闻稿和歌曲等等,
第五,在会话方面,语音助手、物联网、智能硬件、智能家居等等,凡是用到人机交互的,基本上都可以得到应用。
最后,在很多场景下,比如说法律、医疗诊断、医疗咨询、法律顾问、投融资等等,这些方面自然语言会得到广泛的应用。
当然,现在的自然语言现在也面临许多困境。最关键的一点是如何通过无监督学习充分利用未标注数据。现在都依赖于带标注的数据,没有带标注的数据没有办法利用。但是很多场景下,标注数据不够,找人工标注代价又极大。转自机器人家,希望对你有帮助。
那么如何用这些没有标注的数据?这就要通过一个所谓无监督的学习过程,或者半监督的学习过程增强整体的学习过程。
再给NLP一些时间,语音助手也许就能说服你它其实是人工智能了。
谷歌有多强大?和微软相比呢?
谷歌很强大和微软相比大家各有优势。
微软和谷歌在专攻领域上还是大不相同的只是有些业务交叉了而已。微软专攻的是pc操作系统和各种开发工具,而谷歌专供的是互联网搜索引擎和浏览器还有移动终端操作系统。但是微软的IE和谷歌的chrome,微软的windowsphone和谷歌的android,微软的bing和谷歌的google还是处于竞争关系但是除了IE和chrome是能相提并论外其他的竞争都是一边倒。
谷歌未来必须在搜索服务上提升创新能力,而人工智能则是促使其创新的最大砝码,这样才能控制自己在搜索领域的强大地位。并且在智能手机领域,人工智能对于谷歌来说也是至关重要的。
谷歌在PC端的优势自不用说,但是用户在智能手机上更偏好用App而非Web,但在智能手机端谷歌并没有占主导地位。因此,将人工智能方面的业务拓展到智能手机上,便成为谷歌未来的重心工作之一。否则,这一市场将会很快被其他公司占领。
而微软在人工智能方面也做出了许多突破。伴随着新的 Windows 10 周年版的更新,无论是在 PC 还是在 Xbox One,无论是 Outlook 还是 Skype。只要是微软的平台、软件,就会有 Cortana 随时待命,提供帮助。
全新的 Cortana 更为强大和宜用,演示中仅凭语音便可让 Cortana 完成搜索文件并发送邮件等一系列操作。即便如此,微软还不罢休,将会允许开发人员通过 Deep Link 方式调用 Cortana,在自己的应用程序中为用户提供语音和自动化操作。
并且,微软推出了开源的 Microsoft Bot Framework(微软机器人框架)。利用 Microsoft Bot Framework 开发人员将可以定制属于自己应用的机器人。不仅能实现查询快递这种简单工作,还能识别图像和语义。这并不是概念噱头,微软现场展示了它们的可能。它们能与人聊天,能订购披萨,甚至还能帮助视力障碍者更好的理解周外环境。
谷歌的CEO是桑达儿·皮查伊,他是chrome浏览器和chrome os操作系统的开发者,而微软的CEO是萨蒂亚·纳德拉,他之前是微软执行副总裁,主管云计算与企业事业部,已为微软工作20多年。从资历上来对比:谷歌的CEO从技术岗位上来的有着开阔的科技视野,懂得前沿的技术和发展的方向。
微软的CEO则是从管理层上来的有着丰富的管理经验。从目前发展的情况来对比:纳德拉提出过微软的发展是:“移动为先,云为先”,而从最近的情况来看“移动为先”已经失败了,但是“云为先”的策略却很有效果,成为微软势头磅礴的一项业务。
发表评论