欢迎您!
主页 > kv555平特一肖大公开 > 正文
能让机器人“飞向月球”的人工大脑长啥样?(再续)
日期:2019-10-09

  以前我们做app的时候,我发现我们产品经理总想给我们产品增加一堆功能。他们内心里可能认为功能多了就代表产品十分强大。我一直认为产品不是功能的堆砌,产品是有机的组织,是各项功能合理有序地结合,产品通过各项功能为用户解决特定问题。

  吉利汽车创始人李书福曾经认为汽车就是沙发+轮子。后来这个观点几乎成了行业里一个笑话,连李书福本人也认识到当初的观点非常肤浅。现在我们看到,许多机器人就是平板电脑+人形外壳,他们产品经理就是这么定义机器人的。对于什么是机器人,行业内一直没有大家一致认可的定义。有人说能对话的是机器人,有人说机器人一定要是人形的,有人说机器人一定要能自主移动,有人说机器人一定要有手臂,有人认为会独立思考才叫机器人。机器人作为一个有科技感的标签,被贴在了故事机、扫地机、传菜机、刀削面机等等产品上,瞬间让它们变得高大上了起来。

  作为一直做自然语言交互的企业,我们认为只有理解用户语义的产品才是机器人。

  如果把人形外壳+平板电脑当成机器人的定义,你们能获得的市场可能只比故事里略微大些。因为你不过做了个故事机升级版产品。

  如果把自然语言交互作为机器人的核心,我们将可能打开一个跟电脑和智能手机市场规模相当大的市场。从键盘屏幕交互到触屏交互是一次巨大变革,从触屏交互到自然语言交互将是又一次巨大变革。(语音交互是自然语言交互的主要方式。通过语音识别把用户说的话变成文字,通过语音合成把要输入的文字变成语音输出。通过输入文字和机器人交互也是一种自然语言交互。)

  我们买的第一款机器人,用了几次就没人再去用了。办公室现在有个小米音箱,也只是偶尔被拿来做测试用。其实这些语音交互产品内容都非常丰富,功能都非常强大,但实际上大多数可能都被当成故事机用。为什么呢?

  1.应用场景问题。机器人是对场景十分依赖的产品。用户在某个场景产生某种需求,于是来找机器人。离开场景,需求没有了,机器人也就不需要了。所以机器人的各项功能一定要和应用场景结合。

  2.由于没有屏幕,用户并不知道机器人都有啥功能,也不知道每个功能怎么进入。比如,播放音乐功能的进入命令是“播放音乐”,但用户想不起来这个命令,这个功能就废了。有些厂商给用户一个说明书和命令菜单,这不合理,用户咋可能记住那么多命令?我们的做法是根据对用户语义的场景化分析进入应用,“播放音乐”“唱小苹果”“播放杨超越的歌”“唱杨超越的燃烧我的卡路里”都能进入音乐播放应用。

  3.由于系统结构不合理,用户从一个应用跳到另一个应用可能存在障碍。有些产品是层级结构,需要用户先理解层级结构,进入一个应用才能使用应用里的功能。这样就有很高的学习成本。同时也会造成应用之间跳转的障碍,或者在不该跳转时胡乱跳转。比如,在播放音乐时,用户说“明天的天气怎么样?”,机器人本该预报天气,却播放了“天气预报”这首歌。在播放音乐时说“天气预报”,本应该播放“天气预报”这首歌,却去预报天气了。我们从整体理解用户输入,先根据上下文分析对话场景,根据对话场景,采取思辨的方式理解用户意图。用户说“停下来”,如果机器人正在往前走,它就停下来不再走了。如果用户说“停下来”时机器人正在放音乐,它就停止放音乐。

  4.由于语义理解能力有限,交流经常被打断。用户只能使用一些能顺畅交流的功能。比如“讲故事”“预报天气”等等。实际上机器人的竞争对手是手机和电脑。键盘屏幕输入和触摸屏输入鲁棒性都非常好,结果可控。而自然语言交互的短板就是鲁棒性差,结果难以掌控。结果不可控,交流就会被打断,用户体验就会变差。“讲故事”“预报天气”这样的应用交互简单,鲁棒性好,就会经常被使用。我们能处理上下文,能处理省略句,能处理语义的细微差别,能处理一个语义的多种表达,能处理语音识别出错的情况,我们强大的语义理解能力能保证人机自然语言交互的流畅性不被打断。

  在设计机器人产品这件事情上,首先得做好思维的转变,得理解机器人和电脑手机的差别,得理解自然语言交互和键盘屏幕交互以及触摸屏交互的差别。

  从键盘屏幕到触摸屏交互的改变变的只是介质,而从触摸屏交互变成自然语言交互则是一次彻头彻尾的改变。除了人类能理解人类自然语言,没有任何其他东西能理解人类自然语言。我们想让机器理解人类自然语言,就得让机器人像人一样拥有智能。而理解人类自然语言的人工智能和理解用户键盘和触屏输入的程序有很大差别。前者需要思辨,后者只要进行条件反射就好了。思辨要从整体上去处理,要能处理自然语言语义的不稳定、不完整、不明确。

  如果用设计电脑和手机程序的思维模式设计机器人,设计出来的必然还是电脑或者手机。

  其次,我们在设计app时经常犯的错误——堆砌功能,在设计机器人时也会常犯。

  上文提到机器人功能是场景化的,这是机器人和电脑手机的区别。用户根据场景来应用机器人的功能。如果不考虑应用场景,石狮别墅装修设计公司。随意堆砌功能,就会造成一堆功能没人用,或者用于A场景的功能在B场景非常别扭。同样一个点餐功能,餐厅里的点餐和点外卖的点餐就有区别。同样一个放音乐功能,要区分是在办公室放还是在家里放。同样一个打电话功能,儿童用的和成年人用的就不一样。

  把一堆功能堆砌在一起还有功能之间相互影响的问题。功能之间可能产生冲突。许多应用里都有“停”这个命令,对应的动作都不一样。同样是“刘德华”这三个字,在不同应用里语义可能是“播放刘德华的歌”“我想看刘德华的电影”“刘德华是谁”。

  还有,最重要的一点是机器人应该像人一样能理解自然语言。能理解口语、省略句、对话的场景、倒装句、病句、语音识别错误等等语法和语义的现象。在这方面,机器人需要看起来像个人。几年前我一个朋友找我开发一个教小学生学音乐的机器人。我报完价,他认为是个天价。后来他找别人开发,后来就不了了之了。庄家爆料:阿斯顿维拉 VS 西汉姆机器人这个东西是个高科技产品,技术难度相当大。最大的难度是语义理解,就是让机器人听懂人说的话是啥意思。很多人可能并没有意识到问答和搜索是完全不同的两个学科。搜索处理文字符号就好了。问答处理的是语义。语义是抽象的,对语义的处理需要用思辨的方法,是人类智慧才能解决的。比如,“白马非马”,就不能简单理解为白马不是马。“我思故我在”,也不能简单理解为我思考的时候才是存在的。思辨是从整体理解,从宏观处理;也即是处理整体,处理宏观。如果抛开宏观只处理微观就会出现理解不到位或者理解错误。思辨是即要理解语义的相似性也要理解语义的差异性。比如“扔哪个桶”这样讲大家会理解为把哪个桶扔掉。但如果上一句是“啤酒瓶是什么垃圾”,本句讲“扔哪个桶”,孙其峰先生称东军画”写技生辣有力,管家婆精准金牌6尾中特。很多人想都不想就会认为这句话和“扔哪个桶里”是一个意思。如果不能同时分辨语义的差异性和相似性不是语义处理。思辨要通过用户的输入去理解用户的意图。即便用户输入错误,也要能正确理解。比如,在运动控制模式下,用户说“前进”,语音识别错误地识别成了“天津”,这时应当当作“前进”处理。

  最后,机器人不应当是永远处在被动状态的,它应当在该主动时主动。比如,我们设计一个导盲机器人,它就应该时时主动提醒使用者什么该做什么不该做。如果一直是被动的回答,被动的做事,机器人给人的感觉就和手机电脑就没啥差别了。如果机器人能主动做事,主动和用户互动,就有了智能感。实际上机器人就是用来替代人的,用户希望机器人是身边另一个人,它不能主动做事就无法替代人。