1.引言
Internet/Web技术的快速普及和迅猛发展,使各种信息可以以非常低的成本在网络上获得,正是鉴于这种,现在的用户面临着信息过载的问题[86],现在的信息用户在与web交互时存在着如下的问题:
(a.) 发现相关信息。当用户想在web上查找特定信息而使用搜索服务时,他会发现查询的结果大部分是不相关的东西。当前的搜索存在着第准确度和低召回率等问题[20]。(b) 在可用的web信息的基础上生成知识。这可以看作是上个问题的子问题,一些研究[34,85,29] 侧重于把web用作决策的知识库。(c.) 信息显示的个性化。(d.) 个性化用户的学习。这实际上是上一个问题的特定子问题。
而 web 挖掘则能直接或间接的解决上述问题。Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。
2.历史发展
Web
mining,这个术语是Oren Etzioni,[1]于1996年正式提出来的,这个概念提出来以后,很多研究人员在他们的文章用它来指代不同的含义, Jaideep Srivastava[2]和他的同事的定义为:web 挖掘是利用数据挖掘的技术从web 文档或服务上自动的发现和抽取信息。根据Etzioni[41] ,web 挖掘可以分解为四个子任务:
a. 查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
b.信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
c.归类:在同一个站点内部或在多个站点之间进行自动进行通用模式发现。
d.模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。
Web 挖掘涉及到 从web数据 发现潜在的有用的或没用的信息或知识的所有过程,它隐含的实现了数据知识发现的标准处理过程(KDD)[43],可以看作是KDD在web数据上的应用扩展。目前,研究人员将web挖掘分为三个大类[2,3]:
a.
web 内容挖掘。它应用数据挖掘的技术来挖掘发布在因特网上资源的内容,通常是html文件(半结构化的),无格式文本和xml文档(结构化的)。
b.web 结构挖掘依靠web的超链接结构。这种图形结构可以提供关于page rank的信息[4]或权威性[5]
,通过过滤能提高搜索的结果。
c.
web用法挖掘 分析用户和web服务器的互操作结果,包括 web日志,点击流和数据库事务等。Web用法挖掘涉及到了隐私的问题现在引起了不少的争论。
Fabrizio
Sebastini[6]和Soumen
Chakrabarti[7] 详细的探讨了web 内容挖掘的技术 Furnkranz 则对web结构挖掘进行了总结工作
3.现状评述
Web内容挖掘和结构挖掘中,工作多集中在如下:
把web看作是一个数据库,数据库领域的早期研究工作集中在web的层次观点,在半结构化的web上层置一层包含某些相关语义信息的抽象层,weblog[10]和webSql[11]正是这种基于数据库的方法,在这个领域,最近大部分的工作重点在实现语义web。
文档分类同样是当前一个研究的热点问题,早期的文档分类工作是把文本挖掘技术直接到web数据上,但是后期的研究工作表明:充分利用web的图形结构或以html为表现形式的半结构化内容,有助于提高分类的结果[14],Google新闻(http://new.google.com)便是从当前的新闻信息中自动的聚合分类的.
网页权重问题。Larry Page和他的同事提出了pagerank[4],并通过google的搜寻引擎的成功运用推广流行,利用pagerank 爬虫能提前计算出网页的排序,并将其结果返回,网页的pagerank的计算是基于该网页对其他网页的链接度。Sepandar Kamwar[14]对基本的pagerank算法进行了改进,对计算量代价有明显的提高。但这种基本的方法并没有考虑到链接的语义。聪明的做法就是利用网页的内容来进行评定。对那些与查询相似的链接给与更高的权重。Soumen Chakrabarti正是基于这种考虑提出了改进的算法[14]。实验结果表明,这种改进比同等方法相比,效果有明显提高。
Web用法挖掘在电子商务有许多的应用,包括:个性化,交通分析和针对性广告等。图形化分析工具如webviz[15]的发展使得web事务的挖掘流行起来。这个领域中的主要工作是web日志数据的预处理和从处理的数据中发现有用模式[16,17]。Etzioni[19]将web用法挖掘用在飞机票的购买应用上。其方法是根据时间挖掘出网上可用的飞机票价格以此来推荐用户在最合适的时间来购票。Web用法挖掘还涉及到个人的隐私问题,不再叙述。
当前一个一个比较新的课题是语义web 挖掘,在语义网中,向web资源中添加语义,是通过添加基于本体的注解来实现的,但不能寄希望于人工手动完成,因为这虽然简单但却不不能扩展。因此我们必须通过本体学习,匹配,归并和实例学习来自动实现注解。语义网和web 挖掘相互促进,web 挖掘能促进语义网的出现,而语义网则使得web 挖掘的效率更高。 4.发展前景预测
根据目前的研究状况预测,今后几年Web 挖掘研究的主要方向可能会有:
1) 在数据预处理方面,多种Web 数据的收集、结构转换等处理技术的研究 ;
2) Web 挖掘方法和模式识别技术在构造自适应站点以及智能站点服务的个性化和性能优化方面的研究;
3) Web 知识库的动态维护、更新,各种知识和模式的评价综合方法的研究;
4) 基于Web 挖掘和信息检索的,高效的、具有自动导航功能的智能搜索引擎相关技术的研究;
5) 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法;
6) 研究专门用于知识发现的数据挖掘语言及其标准化;
7) 研究和开发基于Web 的多层数据体系结构和智能集成系统,提供相应的查询语言,优化和维护机制;
8) 现有的数据挖掘方法与技术的改进及其向Web 数据的扩展,挖掘算法的适应性和时效性的研究;
9) Web 文档内的模式发现及其在信息提取、文本分析中的应用研究等;
10) Web 挖掘的相关技术在电子商务领域的应用研究等 。
5.小结
不难看出
web 挖掘牵扯到太多的诸如信息检索 信息抽取 数据挖掘 人工智能等技术,现在的掌握的技术和时间来看,从其中的某一个点选则突破比较好。我比较倾向于web数据的收集工作。.................
网页的自动聚合分类,向网页自动添加标注使其体现语义的特征,都可以作为研究方向进行下去。
6.参考文献
posted @
2007-06-04 10:44 Gridking 阅读(555) |
评论 (0) |
编辑 收藏
IT之路在何方
<!--[if !supportLists]-->一. <!--[endif]-->摘要
James Gray于1998年获得图灵奖。在获奖会上,他提出了未来信息技术要解决的著名的十二个问题,他给未来IT的发展指明了研究的方向,对计算机行业的发展具有重大意义,本文在介绍他所提出的十二问题的基础上,结合自己对IT发展的认识,对其中的一些问题给出了自己的一些想法。
<!--[if !supportLists]-->二. <!--[endif]-->关键字 Jim Gray 十二问题 IT 发展方向 ,人工智能
<!--[if !supportLists]-->三. <!--[endif]-->背景知识介绍
Jim Gray 格雷毕业于伯克莱大学,先后供职于国际商用机器(IBM)公司、微软旧金山研究所。他曾参与建设了世界最大的天文学数据库SloanDigitalSky -Server,其中所研究的星系从最初的100万达到了如今的2亿个,他参与设计的“世界视野望远镜”把天文学家的数据库连接为一个整体。如果没有他,那么世界大概不会是今天的样子,自动提款机、网上购物、甚至Google Earth的问世都要推迟。
格雷“开创性的数据库研究”为自动提款机(ATM)、机票网上预定系统和Google Earth的诞生奠定了基础,并在1998年获得了计算机科学领域的最高奖项——图灵奖。
图灵奖主要授予在计算机技术领域做出突出贡献的个人。而这些贡献必须对计算机业有长远而重要的影响。他在图灵奖的获奖会上做了题为“What Next? A Dozen Remaining Information Technology Problems”的演讲。这12个研究目标并非完全是格雷的个人看法,它们代表了众多计算机科学家和信息学家的意见,有很广泛的代表性,非常值得我们重视。
四.提出的十二个问题
在James Gray的演讲中,他提出了未来信息技术领域需要解决的12个长远问题。
第一个问题是:可扩展性。设计出一种硬件和软件体系结构能够以百万级的比例因子工作。
其目的就是设计出一种可以无限制的硬件和软件体系结构,但限于资金和时间等因素,比较实际的做法是使同一个计算问题由一个节点扩展到百万个节点也就是说,仅仅通过增加更多的资源,一个应用的存储,处理能力能够以百万级的比例自动增长;同时处理作业的速度和规模同样以百万级的比例加快。
可扩展性问题将会衍生出大型计算机系统方方面面的问题,这种系统是依靠模块依次递加的,每个模块承担计算任务的一小部分,一个模块失效了,任务应该能自动移植到其他的模块上去并能继续执行。自我管理,容错性和负载均衡仍然是当前诚待解决的挑战
第二个问题是,图灵测试。构造一个计算机系统使它至少能有30%的时间赢得模仿游戏。
图灵测试是基于一种三个人玩的模仿游戏,在游戏中,一个男人和女人在一个房间中,而裁判在另一个房间中。他们三个彼此看不到对方,因此通过电子邮件联络,裁判向他们问5分钟的问题从而确定哪一个是男的哪一个是女的。这本来应该是很简单的,除非这个男的撒谎,假装自己是女的。而这个女的尽力帮助裁判弄清事实真相。如果这个男的很会演戏的话,他可能在一半的时间内愚弄裁判,事实上,这个裁判在70%的时间内是正确的
在过去的50余年里,计算机在图灵测试方面已经取得巨大的进步,计算机已初步具有简单的大脑存储和计算能力。但其中,计算机还只是充当工具和合作者而非智能机器,所以,目前的超级计算机软件和数据库在下一个十年里也不会通过图灵测试。这里需要一些与现在完全不同的想法。
第三个问题 语音文本。使计算机能够听懂并将语言转化为文本。
第四个问题 文本语音。使计算机能够说话并将文本转化为语言。
第五个问题 同人类一样的视觉,可以辨认物体和行为。
图灵测试中两个隐藏的子问题是,一是计算机要像人类一样进行阅读和理解,再就是能和人一样思考可书写。但二者都和图灵测试一样困难。
目前在计算机对自然语言,音乐等的鉴别有了很大的进步,演讲到文本的转化系统已经能要很好的利用了,当然这很大程度上要归功于计算机硬件的发展,但他目前使用的算法仍得益于对自然语言的深层次的理解。其增长的速度很慢,而且词库也非常的有限。另一个问题是,跟定一个文本,计算机能否像人一样对问题进行关注,这是进行人机交互的一种重要方式。基于上述问题的考虑,jim Gray 提出了上述三个问题
第六个问题 个人memex存储器。能够存储一个人看到和听到的一切东西,同时能够快速找回任何请求的条目。
能记录一个人一生的所见所闻一直我们梦寐以求的事情。但这仍然有很多难点,这其中既有技术上的难点也有社会学的问题。但不管怎么说,这是一个值得研究的方向。前景非常的宽阔。
第七个问题 世界memex存储器。构建一个系统,通过给定一个文本集,可以像人类该领域的专家一样回答关于文本的问题和对文本做出快速和准确的总结。
这其中的一个挑战就是自动分析组织信息,一旦某个人有了问题,那么这个问题可以输入到一个自然的接口里面去,这种结构融会了语言,姿势 图形和其他形式借口,这种系统能根据用户的层次提供合适的答案。这是个需要解决的任务,也许能有人工智能来完成,但它是个一个非常棒的目标,也许比计算机能像人一样的玩虚拟游戏更有意义。
第八个问题 远程介入。让观察员在模拟以前发生的事件时,与当时在场的人员有同样感觉(即远程观察);或者参与者模拟正在发生的事件时,能与其他人交流,就像亲临现场一样(即远程出席)。
把所有事情记录下来之所以令人感兴趣的原因之一,就是能使其他人立刻看到或以后回顾。我们大多数人都发现这种“时间转移”要比“空间转移”更有价值。通过多角度、高保真地记录事件,计算机可以重现从任何角度观察到的高保真图像,让观察者有完全身临其境的感受。这项技术的挑战性在于记录事件后按要求生成虚拟环境,允许观察者像实际参与者那样体验事件,我们把这叫做“远程介入”。 今天的电视与广播已实现了这种方案的低质量版本,但它们完全是被动的。下一个挑战就是允许远程介入者与现场人员进行交流,即远程出席。对于远程出席,目前 已存在的形式有电话、远程电话会议和聊天室。但是,这比亲临现场的体验要差得多。因而,人们仍然愿意经过长途跋涉以得到更真实的体验。对远程出席的可操作 性测试之一,就是看远程介入的学生和直接面对教师的学生的成绩是否一样好,教师与两组学生的关系是否同样和谐亲切。
第九个问题 无差错系统。构建一个每天可以被上百万人使用的系统而只需要一个业余人员来管理和操作。
第十个问题 安全的系统。确保上面系统的服务只提供给授权者,未授权者无法得到服务。同时要能证明信息没有被泄露。
第十一个问题 永不down机。确保系统在一百年的时间内至多只有一秒钟不可用。
第十二个问题 自动编程。设计出一种特别的语言或用户接口,它能够(a)人们能够非常容易地表达自己的设计思想,比现在容易1000倍;(b)计算机可以编译;(c)能够完整地描述所有的应用。这个系统因该能对应用进行推理,对异常和不完整的情况提出问题;但使用起来不应该很烦琐。
这就是12个非常有趣的研究问题,每个问题都是一个长期研究的课题,这也是jim gray 向政府寻求长期资助的原因,据推测,50年后,计算机科学的发展会在每个问题的研究上都会有进步的。这些问题包括非常广的种类:图灵智能机提高了人机交互结构,布尔的存储记录,分析和总结所发生的任何事情。Babbage’s的计算机能自我变成,从不出错因而是安全的 。当然这些问题在现在看来是有些不合实际,但根据摩尔定律:每十八个月技术的发展等于之前所有的发展总和,如果摩尔定律继续有效的话,那么上述提出的问题就有可能会变成现实的。
五.小结
我们可以看出这12个问题都是信息技术领域的一些根本性的问题。其中有很多问题是与人工智能紧密结合的。这些问题的逐步解决就是整个信息技术和信息产业不断进步和发展过程。对这些问题的研究和解决,需要长期的投资支持。在这个过程当中,我们能够产生新的想法,同时能够锻炼和培养我们的学生,政府应该提供一些 资金支持。一些长期的研究项目可以包括,人机接口—使计算机能够更加容易地与人交互;对信息的组织,总结和分析;
结合当前计算机行业发展的趋势和Jim gray 的文章,我认为计算机智能技术将是一个热点,尤其是与计算机网络结合起来的智能技术将会得到前所未有的重视与发展.自然,智能技术中现在面临的还未解决的问题将引起人们空前的关注。约翰·巴克斯把计算技术分为了四个大的发展阶段,硬件、软件、网络和通讯、认知计算技术,他认为继网络和通讯之后的未来十年,认知计算技术将是下一步发展方向,即计算机能够进行思想识别,就像人类用大脑思考一样,这是智能技术的表现。
巴 特勒·兰普森把计算机的应用分为三个大的阶段,模拟仿真、通讯和存储、具体化,认为计算机继通讯和存储之后的下一步应用是具体化,包括机器人、语音等应用范围,他还详细列举了两个例子来说明具体化,一是自主驾驶,二是自动编程,这两个例子的共同点就是要让计算机懂得或者明白一些事情,这是计算机智能化的体 现。
<!--[if !supportLists]-->六. <!--[endif]-->参考文献
[1] Graph based on data in Hans P. Moravec Robot, Mere Machines to Transcendent Mind, Oxford, 1999, ISBN 0-19-511630-5, (http://www.frc.ri.cmu.edu/~hpm/book98/) personal communication with Larry Roberts who developed the metric in 1969, and personal communication with Gordon Bell who helped analyze the data and corrected some errors.
[2] Donald E. Stokes, Pasteur’s Quadrant: Basic Science and Technological Innovation, Brookings, 1997, ISBN 0-8157-8178-4.
[3] Jim Gray . What Next? A Dozen Information-Technology Research Goals. June 1999 Technical Report MS-TR-99-50
posted @
2007-05-18 12:58 Gridking 阅读(1598) |
评论 (0) |
编辑 收藏
研究生是个特殊的群体,在外人看来,我们像是管在象牙塔,肯定幸福得不得了,但事实并非如此,我们总是存在这样或那样的问题,其中比较值得关注的就是:研究生在人际交往上还存在比较多的困扰。
这其中有其客观原因的存在,一方面大家都来自不同的大学,四年的大学经历造就了大家不同的学习生活的习惯和思考问题的方式,看待问题的观点,这些分歧的存在从某种程度上影响了大家彼此的交往。再大家的年龄跨度比较大,有二十出头的年青人,也有三十多岁成家立业者,年龄的差距,往往使大家人际交往中的代沟。年轻人总喜欢比较新潮的东西,而年龄大的喜好则与他们的不同。同样,有些人是参加工作后来读的研,而有些人则是直接从大学当中升上来的,缺少一定上社会经历,这种阅历的差异,使德我们看待问题的方式和观点,关注问题的侧重点或多或少的有所差别。而这些差别从某种程度上会妨碍我们的人际交往。
抛开这些客观原因不讲,在人际交往中,我们研究生自身也有好多问题。研究生太过于关注自身的发展和自我娱乐。特别是像我们工科的研究生,把一些学习工作的方式带到了我们的生活中。很多问题喜好自己埋头苦搞,很多时候只顾低头走路,不愿抬头看天。不会或很少放一放主动和别人交流一下自己的心得和一些想法。做学问,独立钻研思考是对的,但把这种方式带到生活中来,不跟别人进行必要的联系沟通,这会给别人造成一种难以接近的久而久之会被孤立的。特别是我们80年代后的这一批人,大部分人是独生子女,好多人从小在家里养尊处优,心理上保持着一些优越感,再加上较强的渴望成功的心态,使得我们更关注自身的发展,而较少顾及到他人,这无疑会影响我们的交际。
过多的自我关注,使我们研究生在交往中待人接物往往不够坦诚,仁厚和友善。而且不大愿意关心他人。研究生这个层次,人的心理都已基本成熟,每个人都有自己独特的生活方式,不再像中学生那么可以轻易嘻嘻哈哈打成一片。从本科上到研究生的转变,大家逐步培养自己的一个事业的概念,其做事的目的会更明确。同时压力也自然接踵而至,实验室的项目的进展,自己的开题,论文,无时无刻不压着我们;需要考虑的问题也更多,从近的论文毕业,到今后社会立足、成家立业等等大多数人都在每天忙着自己的事情。很多人因为看不到明天或是不愿对现实而感到苦不堪言,更多人选择了沉默。都快一年多了,除了自己实验室的一些人,本班的同学都没认全。。大家就处在实验室这个小圈子内,很少与陌生人打交道,与人打交道的能力也分厂匮乏。久而久之,就形成恶性循环。
当然这并不是我们内心不喜欢与人交往,在前不久进行的一次心里辅导课上,在大家发言的环节上,同学们提的最多的就是要创造一个让大家在一起彼此认识,沟通的机会。这说明我们研究生除了需要必需的逻辑思维能力和创造力外,我们还需要其他同学的关心和友情,宽容和帮助。我们也希望与身边的每个同学无话不谈,希望有很多很多的朋友。我们可以向他们分享自己的快乐,也可以宣泄自己的不平、愤怒、委屈和烦恼,可以排解心中的苦闷。我们也很愿意向别人打开自己的世界。
那么,在研究生阶段,如何建立一个适合而良好的人际关系呢?我认为这固然有外在环境等因素,但更多的是内在自身的因素。我们要提高人际交往的能力就要发现自身存在的问题,只有发现了自身的不足,才能解决问题。首先要正视自我,悦纳自我,要与人为善,以宽容的态度对待他人。其次对人要诚恳真切,再者,有有颗开放的心,当自己遇到困难时,要找到正确的途径和合适的人寻求帮助,注意留心周围的朋友的,在他们有困难时,伸出自己的双手 。只有这样,才能提高人际交往的能力,使自己能够全面发展,自我的价值也就更大!
posted @
2007-05-11 21:04 Gridking 阅读(2712) |
评论 (0) |
编辑 收藏
其实这个博客早在去年十月份 就开了,说来惭愧,这还是我最亲密的一个人帮我开的。由于自己的懒惰,一直没有更新,也难得她帮我贴上两篇文章,不至于让这里空着。现在算是重新开博吧 ,算是记录自己学习,工作,生活的点滴吧 ,也为了不使她失望!come on!!!
posted @
2007-05-01 09:41 Gridking 阅读(214) |
评论 (0) |
编辑 收藏