当前位置:首页 > 科技数码

孙云丰 百度首席设计师孙云丰:搜索技术的四大难题

本站讯 8月19日消息 在8月18日举行的2009百度技术创新大会搜索引擎技术趋势论坛上,百度首席产品设计师孙云丰指出,在搜索引擎市场飞速发展过程中,搜索技术面临搜索需求日益膨胀,用户搜索行为傻瓜化,用户搜索需求满足方式复杂化,互联网上有价值资源获取难度越来越大等四大难题。

孙云丰认为未来的搜索引擎要提高需求识别的精准性,摸准用户搜索问题提交背后的真实需求。而用户搜索行为傻瓜化则要求搜索引擎要在自然语言识别上有更高的水平,由于新呈现介质的出现,未来的搜索结果呈现方式将会丰富多彩。

至于互联网资源获取日益困难的问题,孙云丰建议是否可以通过和资源方有更多的合作,以及发布数据规范,把格式化的数据“推”到搜索引擎上,实现数据的实时化,以及格式化的处理,以实现更强好的搜索效果。(卢旭成)

以下是孙云丰演讲实录

孙云丰:大家下午好,我是孙云丰。我今天下午演讲的内容主要是从用户需求的角度,来介绍一下搜索引擎目前面临的一些主要问题,以及我们对于解决这些问题目前的一些新视点,现在秀几个数据。

这张图是过去十年,中文互联网,中文用户的增长情况。

大家可以看到,从2000年1月份到2009年7月份,中文互联网用户大概增长了38倍。这个数据是中国互联网过去十年的网站数量的增长情况。大家可以看到,这个数量大概是增长了20倍。

再看一下第三张图,这个图是SE做的统计,2004年第四季度到2009年第一季度,中文网页搜索次数增长的需求情况。根据百度的统计,从2004年到2009年,中文网页搜索请求的次数增长了20倍,是过去五年增长的20倍。

搜索引擎市场飞速发展的过程中,我们面临着什么样的问题呢?主要有四个问题:

一:搜索需求的数量膨胀;

二:用户搜索需求满足方式的复杂化;

三:用户搜索行为越来越趋于“傻瓜化”;

四:互联网上的有价值资源获取难度越来越高。

现在来看一下搜索需求的越来越趋于多样化。

根据百度的统计,从2004年到2009年,网民中文搜索的数量大概增长了10倍左右。

用户搜索需求满足方式的极度的复杂化。

而关于用户搜索需求满足方式的复杂化可以通过以下问题来说明。

这是三个问题,代表的是过去若干年中,有趣的用户搜索需求形态变化。

第一个问题代表的是2006年开始发展的在线视频的搜索需求,这是一种新的信息载体。

第二个问题看上去非常的长,这里边体现了用户对于搜索引擎非常高的期望值,他希望搜索引擎解决的是非常复杂的问题,而这种问题用三两个关键词可能是解决不了的。

第三个问题是非常奇怪的,这样的搜索结果是非常多的,它体现了用户对于搜索引擎一种新希望——希望搜索引擎给出一种智能的决策,而不是简单的给我返回几个关键词匹配的结果。这样的需求实际上已经超出了传统的搜索引擎解决的问题的范畴。

接下来看这三个问题——实际上用户所要问的是同一个问题,就是日全食发生的时间。第一个问题的需求表现的是不完整的,他没有时间关键词。

第二个问题实际上是一个景点的表述。

第三个问题就是自然语言类的表述,他直接把搜索引擎当作了一个自然人,向搜索引擎做出了提问,这是更多的需求。

搜索引擎现在存在平台多样化的问题。3G现在已经成为一个热点了。不同平台上用户的搜索需求是不一样的。

过去用户的搜索需求满足的方式实际上是非常的简单的,我列两个例子:第一种是网址类查询,在过去的五年当中,这个比例下跌了大概是一半,从30%下跌到15%左右。

过去用户的搜索需求并不高,经常是一些经典的匹配就可以满足用户的需求了。如降龙十八掌第一掌是什么?我们给出一个结果就可以了。

现在的趋势很复杂。搜索只是用户需求满足过程当中一个必要的环节,而不是最关键和唯一的环节。

以购物需求为例,用户是要买到这个商品,消费这个商品,这个时候他才得到了他想要的东西。而搜索在这个过程当中,我不管是寻找这个商品还是了解相关的价格,还是了解相关的商家,这个过程当中,他只是在需求满足过程当中的前奏环节,后边可能有支付、物流、售后。如果这些都产生的问题的话,都会导致用户的需求最终没有得到满足。在目前我们的搜索需求当中,这样的比例越来越高。

第二个,用户对于搜索结果的时效性要求越来越高。

在过去,大家把互联网当作了一个静态的数据库,所以对时间的要求并不是很高,但是随着搜索引擎越来越成为大家生活当中的一部分,他们对其期望值越来越高:现在发生的事情,我希望马上要通过互联网了解到底是怎么回事。

举个例子:前阵子湖南卫视的快女节目,其中有一个选手叫曾轲可,她被PK下去的时候,她说她想骂人。这段节目发生的时候是零点45分,在零点46分的时候,就有网友问她想骂谁,只隔一分钟而已。

第三个典型的问题是什么?他希望搜索结果能满足其全方位的要求,而不是单独的一个方面。

比如用户在搜索引擎当中寻找一个职位——Java程序类,那么仅仅把职位信息提供给用户是不够的。

用户的潜台词是什么呢?他的潜台词是需要知道这个职位信息是不是最新的——是去年的招聘职位还是前年的招聘职位,还是上一个月的招聘职位?

他还想了解到我想找的这个职位工作地点是在北京,还是在上海?

还有他对于这个职位的薪水实际上是有潜意识的认知的,比如要求5000元的月薪,那么搜索引擎给出的职位到底是多少月薪呢?

他这些潜意识的东西都不会体现在提交给搜索引擎的问题中的,那么我们如何对这个用户进行全方位的满足?

第四个我提到的一个问题是什么呢?就是多元的信息的表现元素。这个谈到了什么问题呢?我们知道搜索引擎在过去的问题是,不管是文字的问题还是文字的摘要,为用户提供信息的指引。但是现在用户的需求是不局限于此的,不管是图片、视频、Flash还是人际交互的元素,越来越体现在搜索引擎,他们都对搜索引擎起到了非常关键的影响。

搜索行为的傻瓜化

五六年以前,我刚加入百度的时候热认为,搜索引擎已经很强大了,我们是不是能够通过教育用户,使用户能掌握精准的搜索技巧,从而搜索体验更好?

我们努力了一阵子后放弃了。我们发现这是逆潮流做事情。现在的潮流是:用户越来越倾向于用他们自己直接想到的词来进行搜索。我们专业人员所想象的通过非常精妙的关键词构造,一击命中的行为在用户当中是非常的少见。

举几个例子。

用户在搜索框中输入“123”,他们到底想做什么?实际上要找的是网址导航网站“hao123”,他把“hao”给省略掉了,只打“123”。

第二个问题非常有意思“文科女为什么要瞧不起工科男”。他把搜索引擎当做一个自然人,直接向搜索引擎发出提问,这样的比例越来越高。

第三个问题越来越长,不管是什么原因导致的,总的来说用户搜索的形式越来越多,越来越复杂,一共是25个汉字。这样的形式在我们所接受到的搜索请求里比比皆是。

接下来分享一个数字,这个是我们对网页搜索的长度进行的简单分类,左边的两个数据是从搜索次数来讲,右边的两个数据是从问题来讲——在整个的数据查询当中,他们占到了大概50%,而搜索次数角度大概占到了将近30%。可想而知,我们现在所面临的需求处理的复杂化是非常复杂的。

互联网上的有价值资源获取难度越来越高。

过去整个互联网这种网站结构是扁平的,互相之间链接,静态页面链接,非常简单。只要用经典的方式爬,总能够爬回来,但现在非常的复杂——网站的结构非常纵深,那些链接的构成,既有功能链接,还有很多由于系统程序的原因导致的垃圾链接。

这样的情况下,一个需求如果陷进去的话,基本上有的时候会有走投无路的感觉。

现在很多平台型的网站,这些网站的很多数据都是相对的孤立的,我们找不到一条线给串起来。比如PSP平台的Blog,或者是类似校内网,这些页面之间实际上是没有关联的,相对独立的。

第二部分就是面临的获取难度,就是我们一般所谈的“暗网”,我把“暗网”分成了四个部分:

第一个部分是网上存在,但是没办法获取。就像写反的查询,这个数据的话,我们是没办法获取,因为要收费。

第二个部分是网上公开,但是非常难获取,像北大图书馆的数据,它是公开的,你也可以查的,但是搜索引擎是非常难以获取的。

第三个部分是现实中存在,但是没有上网。如果有一个数字图书馆的计划,按照我的理解,他们现在做的就是这一块,如何把现实当中存在的信息给数字化。

第四个部分更为庞大——人脑中存在的问题,仍然没有记录下来的。

我们如何把用户大脑当中的信息给挖掘出来,给显性化,并且呈现给其他人,这是我们面临的很困难的问题。

如何解决四大难题?

搜索引擎接下来所要做的是什么呢?是精准的需求识别。

我们知道,过去的搜索引擎做的只是一个文本的匹配,而现在要如何理解用户背后真实的需求,这是我们面临的非常大的难题和挑战。

第二个问题是关于自然语言处理的问题。

我们现在看到,当搜索引擎从一个象牙塔里面的高级系统,变成了普通用户的日常工具之后,他整个搜索需求表述都非常的口语化的,接近自然语言状态的。当这个变成了用户日常检索中的常态时,我们应该对用户的语言做怎样的识别和处理,这对我们是一个挑战,而且我们认为这个问题接下来会越来越重要。

第三个是丰富多彩的结果的呈现形式。

我们认为为了满足用户的需求,在很多的时候,文字已经不足以能够对用户的需求产生合理的描述。经常我们说一张图片可以代表千言万语,所以大家可以看到,现在搜索引擎当中,不管是图片的元素,还是视频的元素,还是用户互动的元素现在已经出现的越来越多了。这种元素出现目的不是为了丰富多彩,实际上是为了使得用户的需求能够得到更好的满足。

当我们面对越来越复杂的互联网的时候,我们对于资源获取的方式是不是需要有一种新的思路?

过去我们从互联网上把所有的东西抓进来,当我们面对越来越复杂的互联网结构和我们原有的方式无法解决的“暗网”问题,我们现在应该怎么解决?

我们是不是有一种新的方式,通过和资源方有更多的合作,以及发布数据规范,把格式化的数据能够“推”到搜索引擎这边来,实现数据的实时化,以及格式化的处理,实现更强大的搜索效果。

关于社区搜索

在很早以前,当一个搜索引擎谈到要做搜索社区的时候,在一些做经典搜索技术的人员看来,多少有一点“不务正业”。

那么在我们看来,搜索社区是什么样子的东西呢?

社区搜索的出现实际上是搜索引擎认识到我们现在在互联网上的很多资源是稀缺的,我们在互联网上获取不到,但是用户又迫切的需要这些资源,怎么办?要么等,要么自己创造。

所以我们希望通过社区搜索构建这样的平台和机制,让用户帮我们把稀缺资源建设出来。

这个时候,它产生的是两种效应:

第一种效应是这样的平台直接可以为用户的需求产生满足,比如现在的百度“知道”平台,用户可以在“知道”当中问,有人回答,你的需求可以达到满足。

还有一种情况,是你在“知道”当中可以检索,你的需求也可以得到满足。但是更大的价值在于什么呢?在于“知道”把它沉淀下来的知识,反哺给网页搜索引擎,从而使得搜索引擎的搜索效率得到更高的提升。那么百度其他的社区类搜索,不管是贴吧还是百科,思路都是一脉相承的。

未来我们期望搜索框不仅仅是一个搜索引擎的入口,它同时是其他的应用的入口。然后在这里边,它能解决的问题是把用户的需求能够有一种智能的识别,并且分发给能够解决这个问题的最佳的应用方,然后使得用户的需求得到一个最好的满足。我们现在知道,现在的话你填进去一个关键词,给出来的是700、800个结果,甚至是几十万个结果,真的需要这么多结果吗?不一定。所以这个也是我们另外的一种思路。

1.《孙云丰 百度首席设计师孙云丰:搜索技术的四大难题》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《孙云丰 百度首席设计师孙云丰:搜索技术的四大难题》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/471979.html

上一篇

中国移动无绳电话 TD数字无绳电话年内上市:欲成杀手级产品

下一篇

中国移动应用商场 中国移动率先推出移动应用商场

火星魔兽世界 魔兽内测期对原注册用户开放全部服务区

火星魔兽世界 魔兽内测期对原注册用户开放全部服务区

点击进入 网易魔兽世界官方网站本站讯 7月23日晚间消息 魔兽世界官网今日晚间对外披露了该游戏的最新进展,随后魔兽项目负责人李日强在接受本站专访时强调了不删档、对原注册用户开放全部服务区的消息。李日强透露,网易对魔兽原有玩家的数据资料保存的非常完善,他特别强调了将不会删档。此外,之前曾有外界传闻称魔兽在内测期内会对玩家数量进行限制,李日强对此表示...

苏毅 网元畅游副总裁苏毅:调动用户开发游戏

苏毅 网元畅游副总裁苏毅:调动用户开发游戏

网元畅游副总裁苏毅本站讯 7月26日消息,Chinajoy第五天,本站作为中国网页游戏发展论坛首要合作媒体进行现场直播。网元畅游副总裁苏毅在主题演讲中透露,网元在未来半年内将调动用户进行游戏开发。“在网元新的模式当中,我们会提供一些引擎,开放给一些用户和论坛合作伙伴,由他们来创造游戏。我们去做一些设置、配制、过程化的东西,这样个性化的东西就出来了...

友商助手 金蝶友商网为工行网银用户提供在线会计服务

友商助手 金蝶友商网为工行网银用户提供在线会计服务

6月30日,中国工商银行与金蝶友商网正式联合发布“企业网上银行在线财务软件产品发布会”。成为国内银行同业中第一家向市场推出在线会计服务的银行。去年10月,工商银行选择金蝶友商网签署了战略合作协议,双方历时9个月共同打造了基于SaaS模式的在线财务服务平台,此平台通过将网银和财务服务的整合,加快产品创新,为广大企业客户、特别是中小企业客户提供一站式...

qq搜索引擎 腾讯阿里巴巴酝酿推出独立搜索引擎

qq搜索引擎 腾讯阿里巴巴酝酿推出独立搜索引擎

本站讯 7月9日消息,知情人士向本站透露,腾讯和阿里巴巴内部正酝酿独立发展搜索业务,很可能推出自己独立的搜索引擎,目前腾讯和阿里巴巴均秘密地推进各自的独立搜索计划。实际上,独立推出搜索引擎业务现已成为门户网站的一种新趋势。腾讯与阿里巴巴独立发展搜索业务此前早已出现种种迹象。去年11月,阿里巴巴集团宣布前微软亚洲研究院常务副院长王坚正式加盟,担任首...

dcci DCCI:中国互联网用户数达到3.5亿人

dcci DCCI:中国互联网用户数达到3.5亿人

本站讯 7月16日消息,互联网监测研究权威机构DCCI互联网数据中心昨日进行了“2009上半年中国互联网市场数据在线发布”。数据显示,中国互联网用户数达到3.5亿人。中国另外一家官方权威机构CNNIC今天刚刚公布的数字显示,中国上半年网民数量达到3.38亿。DCCI此次在其主网站发布的数据涉及互联网总体、用户受众、网络广告、品牌传播、产品消费、网...

中国联通常小兵 常小兵:联通为用户提供最佳服务 全国接听免费

中国联通常小兵 常小兵:联通为用户提供最佳服务 全国接听免费

视频:中国联通董事长常小兵接受本站专访本站讯 5月17日消息,中国联通今天正式在全国55个城市启动了3G试商用服务,在北京启动仪式现场,中国联通董事长常小兵对本站表示,“中国联通在短时间内完成网络建设并开通3G服务,我们希望通过批量用户的使用,发现潜在的问题,在未来一段时间内,不断完善网络、服务和支撑体系,为消费者提供更多更好的服务。” 据悉,中...

陈格雷 盒子网创始人陈格雷:年底用户将达50到100万

陈格雷 盒子网创始人陈格雷:年底用户将达50到100万

盒子网创始人陈格雷接受本站专访本站讯 5月17日消息 第四届中国互联网站长年会今日在北京长城饭店召开。本站对本次以“将增长进行到底”为主题的大会全程进行报道。盒子网创始人陈格雷在接受本站专访时表示,盒子网站由漫画网站升级为社区网站,主要是因为社区能让人群沟通和互动更加明显。他表示,目前盒子网站注册用户3万多,活跃用户1万多,如果下半年开发成功,到...

教授否认燕窝智商税 燕窝的药理方面没有任何问题

虎扑11月29日讯近日,中山大学副教授否认燕窝是智商税:燕窝的药理方面没有任何问题。新闻发布后引起了网友的热议,具体内容如下 :近日,网红主播辛巴所售燕窝是糖水一事引发热议,职业打假人王海称市场上的燕窝全都是燕窝糖水,燕窝本身就是智商税。此前有消息表示:其实燕窝的营养价值被商家过分的包装了,就像人参一样,人参的确有效,但有效成分其实和萝卜差不多。注意,萝卜也是很有营养的。而燕窝的蛋白质含量确实不低...