语音识别+语义分析+数据匹配=Siri思考的过程

2010/02/06

Siri是什么?我也今天刚听说,它是一个软件,专攻个人助理领域,在iPhone能下载到,打开它,你对它说话,比如“这周六晚我想在家门口餐厅订个两人桌。”话毕几秒钟之后,屏幕上显示出符合你要求的几家餐厅的名称以及相关评价和介绍,选好后,点击按钮自动订桌,或直接切换至电话预定。这就是Siri现在能够做到的事情,它在数月后会支持Android和RIM平台。

如果伟大的墙挡不住你,那么可以观看高清演示,挺神奇的。

当然,即便我们现在能够使用到这个软件,也绝不会给我们神奇的感觉,为什么呢,1) 它听不懂中文;2) 即便手工输入它也读不懂;3) 它没有国内相关数据库支持。

幸运的是,从技术上讲这一切都能够解决,不过不会是一下搞定,而是循序渐进。这是大势所趋,Google、Apple和微软都不会放过它。

语音识别是最难解决的,更准确的说,也是最先被完美解决的。语音识别普通话要比识别英语难得多,更不要说四川话、河南话了,这里存在技术壁垒,势必只有大公司才有能力去碰。英语识别已经处于不断优化趋于完美的过程了。

语义分析即拆解出语句中的关键字词,并根据词语间的关系判断出语句的条件和目的。和搜索引擎做的事有点像,不过关键的区别是,善于使用搜索引擎的人,都会在搜索之前用自己的大脑预先分析出关键字,而语音识别需要处理的大多是完整的语句和对话,整句搜索需要语义分析,“百度知道”就很巧妙地利用这一点,它用人肉来“分析”。因此整句搜索,尤其是疑问句搜索(主要是指中文搜索),即便是在Google上,你最终也会被引导至百度知道这类的问答平台。百度应该可以利用这许多年积累的人肉问答来攻克中文的语义分析。

数据匹配是最容易解决的,只要数据库足够大足够全就行了,订桌时数据库里得有你周边所有的饭店资料,订票时数据库里得有各个城市大部分的火车站、飞机场、电影院的实时数据。这些都可以交给计算机来做,前提是要有接口和协议,这一点不仅需要技术,更依靠商业利益的合作与博弈。

就像iPad给我们的启示一样,未来的移动计算将专注于你要做的事,至于开始做事之前的准备、优化与思考过程,交给Google、Apple和无数开发者好了。

更新:本文写作两个月后,即 2010/04/28,Siri 被 Apple 收购。

小贴士:你可以用 Google ReaderGoogle Buzz 订阅这个博客。

No comments yet.

Write a comment:

Powered by WP Hashcash