您现在的位置是：首页 > 数字化转型 >

专访百度孙云丰：一“框”打尽搜索需求

2009-08-25 16:09:00作者：那罡来源：

摘要回首搜索引擎的创新之路，从表面上看，搜索引擎可以说是最简单、最简洁的，但它又是最复杂、最有深度的。10年间，搜索框还是原来那个搜索框，但其背后蕴含的技术已经发生了翻天覆地的变化....

“搜索引擎正从一个象牙塔里的高级系统，变成人们生活中必不可缺的日常工具。5年以来，中文用户的搜索行为，并没有变得更‘高级’，更熟练，而是相反，变得更‘傻瓜’了。甚至是当年的‘高级用户’，搜索行为也慢慢地‘堕落’了。”百度首席产品设计师孙云丰甚至觉得，现在的搜索引擎所面临的状况，完全不能让人乐观。

回首搜索引擎的创新之路，从表面上看，搜索引擎可以说是最简单、最简洁的，但它又是最复杂、最有深度的。10年间，搜索框还是原来那个搜索框，但其背后蕴含的技术已经发生了翻天覆地的变化。

百度首席产品设计师孙云丰

百度要“框”谁？

2004年孙云丰加入百度时，百度只有4岁，那时候他甚至不知道李彦宏发明的超链分析技术，这早已成为一个百度内部广为流传的玩笑。一直从事搜索引擎相关的用户需求分析和产品设计工作的孙云丰，算得上是对用户需求了解程度最深的几个百度人之一。

孙云丰对记者说：“在过去一年中，中国网民在搜索框中输入的关键字越来越长，大于16个字节的搜索比例已经达到了29%。甚至有的网民直接在搜索框中输入一个问句，比如‘身体瘦弱，性格内向，一男孩应该报考什么高职专业？’这些用户把搜索引擎当成一个活生生的人来提问。”他认为搜索引擎的作用并不是要教会人们如何使用复杂的关键字匹配技术，来达到“一击必中”的效果，而是要更聪明地去理解网民想要干什么，从而把更准确的结果提供给他。

这一个看似简单的搜索请求，首先需要被拆成不同粒度的20个语义单位进行分析，要在后台经过3亿次计算来识别这个需求，并在100亿个网页资源中检索并进行需求分配，而整个过程需要在不到十分之一秒内完成。

随着网民对信息获取的要求越来越高，搜索引擎正在面临新的挑战，只有追求创新、保持专注才能突破瓶颈。对此，百度在今年提出了“框计算”（Box Computing）技术理念和下一代搜索引擎阿拉丁平台。未来，框计算将被应用到各种互联网应用上，为用户提供一站式服务，而阿拉丁即是框计算的重要组成部分。

“框”的野心是，不仅要解答用户需要的知识，还要响应用户的情感需求；不仅希望用户通过搜索框能找到知识的答案，还希望能给用户以人性化的结果。类似于“电脑不显示桌面上的图标鼠标也不能右击怎么办”、“听起来让人觉得开心的MP3”、“北京哪里能找到女朋友结婚”，这样似乎不符合传统搜索规范的问题将都能在百度得到解决。

稀奇古怪的挑战

记者了解到，网络信息的爆炸式增长和网民的个性化需求不断增加，使搜索引擎靠传统方式抓取信息很难满足现状，而百度在优化传统抓取方式的同时，采用了“推”的思路获取资源。孙云丰说，未来搜索框的应用将无限扩展，成为一个便捷的纽带，将用户与信息、应用连接起来。

或许，未来的电脑将只有一个“框”。我们曾经在命令行中输入“Dir”来获取目录列表，如今在搜索框中却可以输入千奇百怪的句式。网民搜索请求正在变得多元化、个性化，甚至到了稀奇古怪的地步。

随着搜索引擎的普及，它已经成为人类获取信息最重要的途径之一。而在中国，百度的网民覆盖率已经超过92.2%，预计将成为第一个覆盖率达到100%的中文互联网服务。根据百度对搜索关键词的监测发现，来自网民的Unique Query（唯一检索请求）累计已经超过1亿，而在2003年的时候，这个数字只有几百万。

这也就是说，以往网民的需求往往“同质化”，倾向于了解“是什么”、“什么样”这样的问题，而现在，网民越来越倾向于通过搜索引擎帮助他做决策。比如，之前网民搜索“周杰伦”，主要是了解这位明星的资讯、专辑、歌曲等，现在网民或许希望知道“周杰伦有哪些绯闻女友”或者“周杰伦的妈妈是谁”等问题。

孙云丰说，用户正在变得越来越“懒惰”，他们希望得到直接的答案，而非一堆链接。这实际上可以大大降低用户获取信息的时间和判断成本。归结搜索引擎面临的挑战，实际上其本质便是用户需求的提高。

照亮无限暗网

所谓暗网就是那些数以万亿计的没有被搜索到的信息。实际上，用户能够搜索到的信息只是互联网中的冰山一角。

很显然，搜索引擎必须直面用户需求的变化，否则将被用户淘汰。百度在2008年4月就推出的开放搜索平台阿拉丁作为框计算技术理念的一部分，除了应对互联网上的暗网信息，更重要的是带来了搜索体验的革命，让查询的需求得到直接满足。

“暗网的存在是因为很多网络技术人员不懂得合理的建站技术，不恰当地建设网站和管理信息所导致的，对于这些人来说，暗网搜索或许是救星。”孙云丰表示，他将暗网分成四大类，包括：1.网上存在，但未公开。比如企业法人资质查询。2.网上公开，但难获取。比如很多数据库类的网站——北大图书馆。3.现实中存在，但未上网。Google正在做的数字图书馆计划，就是期望解决这类问题。4.人脑中存在，但未记录。这类浩如烟海的信息，完全没法统计。

阿拉丁平台的推出，正是为解决现有搜索引擎无法抓取和检索“暗网”信息的问题。“如果我们把百度搜索引擎比做一个探照灯，在无边无际的信息宇宙中扫射并且记录下来扫射到的信息，那么，那些探照灯从来扫射不到的区域，都是‘暗网’。如何将这些已知和未知信息分门别类地融合，有序地纳入到我们的知识范畴，并且为广大互联网用户提供零成本、无障碍、无时差的精准送达，是百度有史以来在技术上面临的最大挑战。”孙云丰深感阿拉丁计划的压力。

链接：

查“颜”观“色”

微软亚洲研究院多媒体计算组华先胜王井东

“我想找身着紫色礼服的Brooke Hogan的照片。” “我想找以蓝色天空为背景的向日葵的图片。” ……

如果你在当前主流的搜索引擎上试试就会知道，对于上述类型的搜索需求，你可能需要很长时间的尝试才能找到如愿的结果。当前主流的图像搜索引擎基本上都是基于环绕文字索引的，而上述搜索目标中的具体要求很难被这些环绕文字（包括人工输入的标签，例如Flickr上的图片）描述和索引。但是如果你使用我们的最新研究成果“查颜观色——基于颜色的图像搜索”，实现这些目标就容易得多了。让我们通过一些例子来看看它是如何工作的。

如果我们想找图像上面有较多蓝天的草的图片，我们可以先搜索“草”，再在“查颜观色”提供的颜色模板中，画一个蓝色的竖杠，代表上面的蓝天，以及一个绿色的横杠，代表下面的草地，然后重新搜索（目前实际上是重新对已有搜索结果排序），就得到一些符合要求的照片排到搜索结果的前面。当然，我们也可以要求蓝天少一点而草地多一点，或者寻找黄色的草。

有时候我们在作幻灯片或者Poster的时候，想嵌入图片，但却苦于图片背景无法无缝地与原有内容融合在一起。这时，我们通常的做法是将图片背景设为透明，但对于背景复杂的图片，就难以实现。有了“查颜观色”，我们可以十分方便地要求搜索引擎返回背景单一的相关图片。还是以草为例，我们在模板的四周或四个角点上白色（或黑色或其他任意单色），再搜索，这样我们可以得到大量背景为白色的关于草的图片。

我们也可以用它来搜索黑白图片，或者线条图。例如，搜索黑白的老虎, 可以如常先搜老虎，然后再模板上随意点一些白点和黑点，重新搜索后得到了很多黑白图。如果你希望黑白图的线条更细一些，不妨多点一些白点（表示更多背景是白色的），就可以如愿以偿。

（责编：yangyang）

(本文不涉密)
责任编辑：

上一篇：隐身侠亮相沈阳2009年行业信息化峰

下一篇：Sun发布JDK 7预览版 JVM性能提升