人工智能大潮来袭,以语音识别、语义理解为代表的语言分析技术正成为谷歌、苹果们的必争之地,一批中国实践者亦杀入其中。

新角斗场!

来源:环球企业家  |  作者:王丹  |  阅读:

“星际迷航开始探险!”随着一声指令,飞船迅速作出响应,相位炮开火,储能,靠近⋯⋯在最新一部《星际迷航》上映之际,智能移动语音搜索Mobvoi创始人、CEO李志飞将这个同名语音操控游戏加载到新产品“出门问问”中,以此向科技致敬——《星际迷航》作为经久不衰的科幻系列作品曾吸引无数狂热的科技爱好者投身其中。视人工智能为终极目标的谷歌曾以电视剧版《星际迷航》的配音演员玛吉·巴瑞特·罗登贝利( Majel Barrett Roddenberry)的名字命名Google Now的前身产品;而从美国谷歌研究院辞职创业的李志飞则立志将其产品做成中文版的Google Now。

人工智能大潮正在来袭。 Google Now之于谷歌正如Siri之于苹果、ViaVoice 之于IBM。以语音识别、语义理解为代表的语言分析技术领域正成为巨头们的新角斗场。

人工智能(Artificial Intelligence)概念由来已久。早在上世纪五十年代,美国科学家企图凭借计算机技术生产出一种与人类智能相似的智能机器。这些技术以人的器官感知为基础,而衍生出“看得到”的计算机视觉、“听得到”的语音识别、以“理解”为基础的自然语言等。

科学家曾乐观估计在计算机诞生后数年,人工智能即可实现,但现实却残酷得多。时至今日即使计算机拥有相当于人脑上亿倍的运算和存储能力,人工智能仍遥遥无期。其难点在于如何训练一台机器使其拥有人类的思考方式、思维逻辑甚至情感。

 眼下自然语言以及语音研究的发展令人工智能曙光初现。具体而言,首先在不需要理解句子的前提下,机器要能将语音自动准确地转化为文字;第二步需辅以逻辑、自我学习能力,使其正确理解语义并作出反馈。在PC时代,实现上述两点非常困难。原因在于语言样本收集非常复杂,这一过程不仅需要麦克风等外部传感器,还需耗费专门的人力物力。

而移动端的兴起则能改变这一切。首先是硬件支撑,以往数据的采集多基于实验室内安静环境,而移动环境下数据则来自四面八方,随时随地均可收集;其次,移动场景下输入输出相对麻烦,用户由此对语音的需求大大增强;再次,人工智能算法需强大的计算能力,手机计算能力正得到大幅提升;第四则是人工智能系统依赖数据而生,移动端所提供的海量数据可令机器模拟学习。  

在搜狗副总裁茹立云看来,语音技术的发展使得机器更加友好,人机对话也将大大改善交互体验,而基于互联网大数据形成的巨型知识库则支持机器具备更完整的人类知识体系和逻辑推理能力。 “如果从用户的角度来看,人工智能好像真的实现了一点儿。” 李志飞对《环球企业家》说,“虽然这离严格意义上的人工智能还差十万八千里。”

爆发

2010年,尚在美国工作的李志飞曾有这样的经历:下班后太太让买东西回家,沿途虽有超市却并非时时开门,他希望通过手机上网查询其营业情况,却因开车驾驶导致操作极不便。李志飞由此萌生了开发说话就能让手机直接告知答案的工具。

这正是李的本行。毕业于约翰霍普金斯大学语言语音处理实验室(CLSP)的李志飞,其博士研究方向正是人工智能分支之一的机器翻译领域。他曾是当今世界两大主流机器翻译开源软件之一的约书亚(Joshua)的发明者。在李看来,如果机器翻译系统可完全替代人工翻译,最终就有可能实现人工智能。博士毕业后,李志飞进入谷歌研究院开发谷歌翻译(Google Translate)产品,其中一个具体项目正好与移动相关,即在不联网的情况下将整个翻译系统移植至手机,最终避免网络漫游等困扰。这一项目对其启发颇多——以往数千台机器同时运算的系统如今可通过技术手段平移至手机,从算法到存储空间均可优化,这使得人工智能在移动时代能被充分挖掘。

早在2000年,李曾在南京一家从事手机上网的初创公司移软工作,参与见证了移软从只有几个人的创业公司发展成数百人,并被美国Palm公司收购的过程。这一经历使其对创业兴致颇浓。 2012年10月,在谷歌研究院工作两年半后,李离开硅谷回到中国,创建聚焦智能移动语音搜索公司Mobvoi,并在半年后发布首款基于微信平台的语音语义交互应用“出门问问”。 现在,如果你打开微信对其提出各种问题,例如“下周二从魔都到帝都南航最后一趟航班是哪班”,它都能给你全面准确的回答。这一应用在复杂语句处理方面有时甚至超过Siri、百度语音助手等产品。

虽然“出门问问”面临科大讯飞、百度、腾讯、搜狗等劲敌,但同行间的竞争优势并不相同。科大讯飞优势在语音识别,即将带有方言、噪音的语言转化为文本,其准确率可达85%甚至更高。百度、搜狗的优势则在于基于搜索所积累的大量数据,以此帮助机器完成语义理解,进而对用户作出反馈,这正是自然语言理解的第二步。而将上述机器理解的关键词放到具体的应用里去搜索查询用户想要的内容,将表格再转化为内容是第三步,在此过程中需要更多数据源支持,比如包含知识库的维基百科、社交为内容的facebook、海量购物信息的淘宝、O2O领域的大众点评网、去哪儿网等数据。以上述数据为依托,可产生满足用户需求的内容和应 用。

李志飞想做的正是以语义理解为核心优势、以O2O方向为主的垂直应用。在拥有强大算法的前提下,出门问问的训练数据可能比百度少很多,但五六百个数据库就能将整个系统做得很好。出门问问以开发和使用工具见长,并支持新应用的语义分析,进而提升准确率。例如在应用中接入新的查询内容“电影院”、“景点门票”或时令性的“星际迷航游戏”只需要耗费一个工程师1-2天时间。 此外在数据分析和积累方面,出门问问亦可能颠覆以往的巨头。以谷歌为例,其语音识别系统在短短两年时间内就超越最早提出算法的IBM,原因就在于谷歌的互联网基因,在云计算方面优势显著。出门问问在一开始则锁定移动互联网,并以此为基因则使其更具有针对性和专项性。

为了在语音识别、语义理解的精准度上比肩谷歌等超级巨头,李志飞向《环球企业家》透露秘诀在于做窄,即不像Siri那样大而全,不搞娱乐化,专门针对O2O领域;第二则是做深,即针对一个问题力争所有维度都能覆盖,比如回答“附近人均50元以内有wifi有停车场的川菜馆”此类细致的问题。

为了实现人工智能,以语义见长的李志飞注意走捷径。在基础语音识别部分,出门问问的技术就来自于谷歌以及一家只有数十人的本土创业公司云知声。后者在短短一年时间内, 就已在技术水平上能与科大迅飞并驾齐驱,并受到诸多互联网公司和个人开发者的关注。

云知声最早出现在公众面前是在2012年11月,其独家支持的搜狗语音助手发布备受瞩目。今年3月,在锤子ROM手机发布会上,云知声再次名列其中。此前锤子ROM在语音方面选择的合作对象是科大讯飞,但在距发布会仅一周时,双方的合作仍未能推进。情急之下,云知声则为罗永浩提供了解决方案。虽然该方案在英文识别上略逊于科大讯飞,对于锤子ROM而言却堪称雪中送炭之举。此后5月,在LeTV乐视超级电视发布会上,云知声悄然现身,为其量身定制了一套面向智能电视的语音助手。藉此,乐视TV完全实现语音遥控。 云知声的出现已改变了以往在语音领域,用户只能唯科大讯飞马首是瞻的局面,并再度激发同业间的竞争。

与讯飞类似,梁家恩亦是“科大系”。 2001年梁毕业于中国科技大学,进入中科院自动化所硕博连读,专攻语音识别。而科大讯飞成立于1999年,当时正读本科的梁家恩见证了科大讯飞的迅猛发展。2008年前,科大迅飞和捷通华声主要聚焦在语音合成领域,即“把文本用机器念出来”。而 2008年后,科大讯飞借助移动互联网开始在语音识别领域一支独秀。这给了梁很大启发。基于在语音领域的多年积累,他决定带领团队创业。

2012年初,梁家恩带着一批拥有十年以上从业经验的同仁向语音识别领域挺进。虽然前有科大讯飞、百度,后有腾讯、搜狗等竞争者,但云知声却拥有最核心最稀缺的人才优势。仅数月后,云知声语音云平台就已完成。更令梁家恩得意的是目前最火热的深度神经网络(DNN)技术,微软需要数百台机器集群才能完成,其团队却能在不到三个月内就全部完成,而其所用的全部部件竟是团队淘宝DIY而成,总投入不到十万元。在DNN系统上线后仅四个月,云知声就对系统进行重大升级,效率提升幅度达30%以上。

云知声的优势还在于在识别能力业内领先的情况下,其反应速度可比竞争者快二至三倍。例如一般机器处理一秒钟语音需要0.6-0.8秒,云知声可达0.2秒。如此可大大提升用户体验,并降低服务成本。梁家恩认为如此并无捷径,主要靠经验。“算法和系统原理其实没有差异,学术论文也可以找到,但是即便你知道这个原理,能做好是另外一回事。就像大家都知道手机怎么做,但有人做出的是苹果、三星,有的是山寨机。” 梁家恩解释说。

随着移动互联网的迅速发展,梁家恩认为在智能语音领域,云知声还将拥抱诸多可能。第一是为开发者提供基础的语音云服务,即完全开放和永久免费的语音平台;二是为手机、电视、可穿戴产品、玩具等智能设备提供解决方案;三是为口语学习、智能客服、医疗等传统行业提供智能化解决方案,在国外客服系统智能化已超过30%,而国内才刚刚起步。在英语学习领域,通过人工智能可提供机器对话、机器打分等新服务。

试图在语音识别领域淘金的创业者不仅包括梁家恩,还包括灵声信息科技有限公司创始人、CEO吴义坚。虽然今年只有32岁,但吴已是中国智能语音领域的“前辈”。吴15岁考入中国科技大学少年班,25岁获得博士学位。博士期间,他在创立科大讯飞的电子工程与信息科学系教授、博士生导师王仁华带领下,进行讯飞语音技术的研发工作,成为科大迅飞的早期骨干员工之一。之后,吴义坚还进入微软亚洲研究院、日本名古屋工业大学等国内外顶尖语音机构就职和学习。在从事语音技术研发的近12年间,他获得了多项语音产品的专利。

2012年7月,吴义坚加入盛大创新院任语音创新院院长,几个月后,其项目从盛大独立出来,他亦从大公司的领导者变成创业者。为了继续在语音领域精耕细作,他一方面稳住团队,另一方面则开始思考如何将人工智能真正落实到产品层面。

在谷歌公布的一组数据中显示,2012年北美移动端搜索量超过40%来自语音,这令吴看到语音技术应用的商业价值。他决定做两件事,一是依靠过去十余年积累的语音基数积累,打造语音平台,二是完成一系列B2B、B2C的应用。

在吴义坚看来,从事语音领域的应用开发,没有独立的语音系统将受制于语音提供商,后者提供的通用语音平台的准确率一般在90%左右。若通过定制细分领域的语音平台,其准确率可达95%甚至更高,因此拥有自己的语音技术平台十分重要。此外,研发必须深入B2C业务,细分方向在于服务于老人的电话助手、针对幼儿教育的娱乐助手、游戏助手、医疗助手等。 而在B2B业务上,智能家电、呼叫中心、车载等领域的语音应用将是大势所趋,吴认为这正是灵声科技的营收重点。

如今,百度、搜狗、腾讯、阿里巴巴、 联想、华为等公司均在智能语音领域攻城略地,灵声科技亦与上述公司合作。“困难在于这些公司不太可能真的深度合作,他们不希望语音卡在第三方手上。”吴义坚对《环球企业家》说。对于联想、华为等新进入者来说,困难在于若想从零开始,通常需要在技术和数据的积累上至少两年,技术研发的投入亦很昂贵。此外,最大的阻力还在于人才稀缺。创业公司经常被迫面对大公司的挖角,还有经常被侵害的知识产权。因此,想活下去必须“跑得 快”。

进化

人工智能在近几年出现革命性变化,除了移动互联网的崛起外,最重要的推动力在于大数据的兴起。以云知声为例,它需要大量的语音语料来支持语音识别算法,这在以往很难做到。图像、文本领域亦是如此,只有建立一个全面而深入的数据库,才能让机器更加聪明成为可能。

数据堂科技有限公司共同创始人、总经理齐红威曾在NEC工作八年,他发现公司每年都要耗费重金进行数据分析处理。如果外包给散户,往往不够专业,而招大批实习生则成本高,管理复杂。如此,专业数据外包的需求应运而生。

齐红威毕业于中科院自动化所,博士论文正是人工智能机器学习。2011年8月底,在市场需求驱动下,他决心和几个伙伴创办数据堂,在人工智能的范畴下提供不同数据层面的服务。这被其称为“数据外包2.0”。其核心是在大数据背景下进行不同领域的数据处理和数据挖掘。

以图像数据采集加工为例,佳能希望通过相机对焦框让人脸曝光更充分,为了满足这个功能,数据堂就要为其处理数十万张图片,包括采集不同场景、肤色、年龄段、以及不同表情的人脸图片,继而进行全方位的图像标注。

声音亦是如此,比如出门问问通过用户获取大量原始声音素材(即生语料),但这些数据本身不能使用。数据堂就要为其进行人工处理和标注,例如有无噪音、口音、性别等,形成可自动理解和训练的基础数据,并以这些语料去组建训练模型。

数据分析挖掘则是另一个领域。这项业务主要面向移动、汽车、电子商务等厂商,这也是数据堂的核心业务。比如,汽车厂商想要调研用户对不同车型的口碑,包括刹车、油耗、外观、内饰等方面,以往只能通过问卷进行,并且需要大量取样。而数据堂则可以通过网络“爬虫”潜入到各大汽车论坛、贴吧,抓取相关帖子,用程序分析用户的语言。比如“XX车漆有点软,一次倒车碰到树就出了划痕。”机器即可据此识别出用户所提的汽车品牌、车型、配置、用户情绪等。

针对数据处理,数据堂在南京、镇江、苏州建立三个数据基地,员工近500人。百度、NEC、英特尔、佳能、联想、三星、IBM、腾讯等均是其合作伙伴。通过处理越多数据,数据堂就能形成更大的数据库。基于此,在获得用户授权后,数据堂就能通过数据出售的方式,缩短客户数据累积的时间。

完成这一过程并非一蹴而就,齐红威就已耗费了十年时间。“数据是一种资源,与石油、煤炭一样,在开采之前产生不了价值。只有人把他开采或凝练出来,才能发挥价值。我做的就是这么个事情。”齐红威告诉《环球企业家》。

齐红威在读书期间曾经历人工智能的研究高潮,但这一领域曾在2004至2009年间陷入低迷——很多科研工作室做了不少产品,但都不能解决实际问题。但如今世界正在发生变化,数以万计的语音积累令语音识别的精度产生了很大飞跃 。“我个人判断未来五年,人工智能会有一个质的变化。大数据将造就了新一代人工智能。”齐红威对《环球企业家》说。

事实上,在个人创业之外,以语音语义为代表的人工智能已成为中国互联网公司的标准配置。搜狗副总裁茹立云对《环球企业家》称在语音方面,利用深度学习技术改进的声学模型和语言模型已使搜狗语音识别精度得到明显改善。百度亦是深度学习技术的获益者,百度语音识别的错误率曾藉此降低了20%-30%。在语义方面,互联网大数据的深入挖掘可使得知识库不断更新,而人工智能未来的发展方向在于在特定应用领域对语音语义识别进行整合优化。

语音功能的提升亦带动搜索市场的发展。2002年初,百度语音搜索占移动搜索的流量仅为1%,但到2012年底,这一数字已升至8%,预计今年会达到20%。此外,百度基于互联网搜索上的优势也将得到发挥。“我们的语音团队在很短时间里能够迅速地达到业界一流水平。互联网公司的最大优势在于大数据,特别是以技术主导、技术驱动的搜索公司有‘基因优势’。”百度多媒体总监余凯对《环球企业家》说。

不过,若想挑战半个世纪前就涉足人工智能领域研究的美国,中国仍有很长的路要走。吴义坚向《环球企业家》透露国内真正了解语音技术、并能实际进行技术研发的人才不足百人。此外,中文智能语音研究领域仍有诸多困难尚待克服。“应用领域上最大的技术壁垒是如何更好的整合语音识别与语义分析。此外,如何对不常见的‘长尾表达’的语音和语义分析效果进行提升,亦是尚存的难点。”茹立云对《环球企业家》说。