作者:Tim、Jeremy 和Tara
翻译:Yeqi 工程师
注:Andrei Broder是雅虎新兴搜索技术(Emerging Search Technology)部门副总裁和雅虎研究科学家,在他数十年的职业生涯中,曾经在著名的搜索引擎公司AltaVista中担任过研发部门副总裁和首席科学家,并曾以“网页消重”和“网络映射”方面的论文分别获得了WWW6和WWW9的最佳论文奖。该访谈最早刊登在雅虎美国的搜索博客上,分为3个部分。在第1部分中,Andrei谈到了他选择来雅虎工作的原因,在谈话中从可以看出Andrei和搜索之间非同一般的感情。
问:当你加盟雅虎的消息被公布后,在一次采访中你曾经提到过,自己的选择让2/3的朋友失望了,为什么会这么说呢?
答:是这样的,你知道,搜索这个行业真是太小了。那时我收到了雅虎和其他几个搜索巨头的邀请。我在这三家搜索公司中都有很多朋友,所以无论我选择去哪家公司,其他2/3的朋友都会因为我没有选择他们的公司而不开心的!
问:那么,为什么选择雅虎呢!?
答:我一直从事研究的工作。最近,人们经常会问研究(research)和前沿开发(advanced development)之间的区别到底是什么?这是非常有趣的问题,因为以前研究通常会领先目前的技术水平5年,而前沿开发领先的时间则短得多。不过,现在这种情况已经转变了,从研究到前沿开发的周期已经变得非常的短,他们已经开始变得同步起来了。
但是,它们之间还是有着本质不同的:研究的目的是推进全球技术进入新阶段。所有进行研究的人们在一起推进全球的技术。诸如IBM和微软这样的公司都在支持研究工作,因为随着相应的市场扩大,每家公司也可以相应获利。同样,雅虎也采取了一个类似的开放的方法来开发、研究和发表成果,这里的研究环境和目标更让我认可。
问:你以前住在哪里?
答:我以前住在纽约,但是我非常乐意回到加州来生活。我过去在曼哈顿周边的Hawthorne工作,住在Riverdale,一切都挺好。从文化角度来说,没有地方可以比得上纽约了。顺便说一下,我们在纽约也有办公室;雅虎研究部在原来HotJobs公司(注:美国著名的在线招聘网站,2001年底被雅虎收购)的办公室里也有办公场所。
问:工作之余你会做什么呢?
答:我会去滑雪。4年前我在一次滑雪中摔伤了我的肩膀。不过搬到加利福尼亚后,我已经准备重新开始滑雪了!
问:当你滑雪时,有没有为你的研究或工作带来过灵感?
答:哈!不止是滑雪,当我在AltaVista的时候,我也会常常去旅行。在一次从罗马到苏黎士的旅行中,我当时正在写电子邮件以及做一些你平时在商务旅行中都会做的事,坐在我旁边的是一个韩裔的美国小女孩,9岁,非常口齿伶俐。她问了我很多问题,比如你在做什么,你用的是哪一种型号的计算机。我告诉她我在AltaVista工作,于是她说,“噢,我知道,那是一个搜索引擎!但是我们还不让去用它。”一个9岁女孩都知道我的研究领域,这太让人惊讶了。如果我说是DEC或者康柏公司,可能她就不知道我是干什么的了。这就是网络的魔力。
问:你决定从哪个方面介入搜索研究?
答:在这个音频片段中,Andrei谈了他的研究生求学经历,导师Don Knuth对他未来的影响,以及他最早的以及最广为人知的关于New Duplicates的论文。
下载语音链接:
Download file
问:你觉得目前网页搜索应用的现状如何?
答:一些问题还没有得到解决。如果你回过头阅读一下90年代中期的WWW会议上的论文,像重复、数据抓取策略、网络图分析等问题,现在仍然紧密相关的。所有这些问题都依旧存在,有很多可以改进的地方。同样,就像你看现在的汽车,依然会有很多对钢材料、发动机、结构的改进,但是研究的焦点已经放到了多功能汽车等上面。对于网页搜索,我相信下一步的研究方向将会是信息提供和多种信息来源的整合。
问:你是否想说我们(作为一个产业)自搜索引擎发明以来已经有了长足的进步?
答:是的,很显然。当AltaVista刚诞生的时候,我们需要3个月的时间来建立一个3千万网页文档的索引,而且还存在很多的重复和其它各种问题。90年代早期,5万词的辞典就可被称为“大”。接着,“大”是指百万级别,而现在则是指数十亿级别。这种变化不仅仅是数量上的,质量的改进同样使得搜索结果变得更好。
问:那么,Andrei,你认为下一步我们要朝哪个方向走?
答:我在《网页搜索的分类(Taxonomy of Web search)》这篇论文中谈到了网页搜索的三个阶段。我相信我们正在走入一个全新的时期。我把这个新阶段称为“没有搜索框的搜索”。今天的搜索被限制成你先给一些信息,然后得到一些信息,属于一种拉(Pull)的模式。下一步要做的是信息能根据上下文关系自动给出而不需要主动去搜索,一种推(Push)的模式。我最喜欢拿GPS举例,它取代了以往的在地图上找路的方式。在你的汽车里,GPS导航系统能为你指明方向,告诉你最近的加油站等。在今后的1到2年中,可能会发展成只有在你缺少汽油的时候才告诉你最近的加油站信息。于是,你只有在“需要的时候”才会获得信息,而不需要去主动请求信息。换句话说,我们会从信息检索转变到信息提供。
问:RSS属于你说的那种信息推送方式吗?
答:RSS提醒属于满足周期性需求的一种信息提供。而我所说的则是根据上下文关系来提供信息。广告就是一种上下文相关的信息提供方式。它的关键在于提供的广告必须和上下文相协调。例如,在滑雪杂志中,滑雪板广告就非常符合杂志的内容需求。由于广告这样的问题,信息提供作为一门科学还在不断的发展中。
问:信息提供就是你正在致力去做的事情吗?
答:是的,我正在尝试去理解信息提供形成的原理——骚扰信息和有用信息之间是有明显区分的。我们也希望用户可以在此过程中扮演自己的角色。你必须理解上下文环境、用户以及社会影响。如果我们知道其他像你这样的人都在做什么,那么对于这些用户群,我们有时就可以从信息检索转变到信息提供了。但是,我们仍然没有信息提供的理论,也没有一种可靠的模型。这完全是一个空白的领域。我们不太可能在短期内就可以看到成果,但是,他们代表下一阶段的发展方向。
事实上,我们对于某些上下文环境已经做的不错,例如,电子商务网站。假定你去一个在线旅游网站,搜索一下,你可以找到天气好坏的信息,会告诉你有哪些酒店可以住宿,有什么样的活动可以参加,等等。这就是一个关于信息提供的例子。但是,在其它没有这样紧密上下文关系的领域,我们仍需要努力。
实质上,我们正在把用户查询的平均单词数由2.7个逐渐降到0。这是如何做到呢?有个有趣的关于在线购物的呆伯特漫画(Delbert),不再是传统的一次点击购物,而是有了不需要任何点击的购物方式。如果你拒绝的速度不够快,恐怕呆伯特已经把商品发给你了!这如同变戏法一样,在幕布后面藏有很多魔法,你需要好的用户界面来把它藏起来;这是一个不错的研究方向。
不久前,Andrei Broder(雅虎研究团队成员及新兴搜索技术副总裁)花了一个下午的时间和我们谈了他在搜索行业数十年的历史以及他未来将要进行的项目。最后,作为访谈的结束,Andrei回答了雅虎搜索日志的读者们提出的一些问题。
问:很多人都在问,你如何看待发生在AltaVista身上的事?
答:AltaVista遇到了可以说是最坏的时机;它是带着巨大的技术优势起步的,但是却没有足以维持它的商业模式,最终失去了它在早期核心搜索领域建立起的领先地位。
问:有一位读者的问题是关于你的分类学论文的,你能谈谈这篇文章吗?
答:在那篇论文中,我谈到了搜索的三个阶段,就如同我以前所提到的。网络搜索诞生于上世纪90年代中早期,完全是对传统信息检索模式的扩展。当时,人们仍旧在努力寻找让传统信息检索模式能适应大规模互联网的最佳方法:布尔模型,随机模型,等等。第二个阶段,在上世纪90年代后期,是关于元数据的。超链接,标签,点击数据,各种形式的元数据类别。(通过)互联网的结构。但是,本质上这些方法仍然还是靠句法结构,基本上是用单词来匹配文本。并没有真正去理解文本的含义。第三个阶段,还处在不断发展中,是基于文本语义和分析的,我们试图去理解用户的查询到底想要表达什么。这就是论文的概述。现在,通过对用户查询词的理解已经推导了很多信息和新的产品,如雅虎的快捷展现(Yahoo! Shortcuts)。语义,快捷展现,本地搜索,都是方兴未艾。看上去,文章当时正确地预测了下一阶段的发展是语义搜索。当然,如果现在去补充我的论文的话,我会写上第四代搜索引擎:信息提供。
问:你是如何看待博客搜索的?为什么它的结果并不尽人意?
答:博客搜索是很困难的。一般来说,如果你看看网页搜索,帮助最大的是元数据,链接文字、链接、网络结构图的分析,等等。对于博客文章来说,我们只有很少有用的元数据。即使你从博客中获取了一些元数据,你也会发现这些数据通常是错误的,或者你无法信任它的正确性,于是你就很难从元数据那里获得帮助。
此外,博客文章也通常不具备上下文关系。很多的博客文章本身不独立,上下文关系都在博客文章之外。即使是人看到这些博客文章都会不知所云。我不确信在这方面我们会有多少进展(但是申明一下,这不是我关注的领域!)
问:最后,是一些关于垃圾信息(Spam)的问题。
答:垃圾信息制造者们试图干扰我们搜索引擎所用到各种信息参数。我们不仅得当心链接型作弊、虚假站点作弊等,还得当心对查询日志以及其他敏感信息的污染。另一方面,垃圾信息是有经济利益的,人们以为作弊者只是在开玩笑而没有获得好处,其实不然。垃圾信息是经济驱动的,而我们想做得就是提高作弊的难度以使得制造垃圾信息无钱可赚。随着搜索引擎提供更加个性化的用户体验,搜索的社区化因素越来越重要。现在还不清楚这种变化对垃圾信息的影响——开发出行为像人一样的抓取机器人(robots)程序是很困难的,这或许正是意义所在,因为搜索的社区化对垃圾信息极为排斥。