题记:借着开博的机会总结自己的过去,给未来开一个好头。
两年以前,我怀着一个特别质朴的目的来到了中科院,那就是——在这里好好的玩上三年。
实际上,在一年级和二年级的日子里,我也确实是这么做的。我跳街舞,没事就和一帮比我年轻的丫头小子们颇没素质的满地打滚儿;夜里逛酒吧,经常彻夜不归;偶尔做点正事,那也是跑北京国际车展上给奔驰公司当当Explainer,虽然人家是给钱的,但我对自己说,我是要借此机会和外国人练习口语。
在过去两年中仅有的一点不用来玩耍的空余时间里,我读了一百多本书,抛开村上春树,海岩,米兰昆德拉这些不算,还有一大堆是好久以前便想看但一直没时间看的书,比如《代码大全》、《设计模式》、《Head First OOA&D》、《程序员修炼之道》、《.NET大局观》等等。当然也少不了最爱的经管类图书,最经典的《经济学原理》、《货币,银行与金融市场》、《长尾理论》、《组织行为学》、《性越多越安全》等等,心理学方面的《决策与判断》、《心理学与生活》、《社会心理学》、《亲密关系》等等不一而足。
读过这些书,我越发感觉自己真不是搞计算机科学的料,无奈到目前为止这仍然是我最擅长的东西,所以一直苟延到现在。
研究生二年级的下半学期,我差点加入到清华大学互联网信息中心申请的某863项目中,就在与主持该项目的老师面谈的当天,他差点连在他们实验室的工位都一并给我安排好了,只是后来我与自己的老师商议感觉不妥之后,才算作罢。
但免费上着中科院的学,免费住着计算所的宿舍,不能一直就这么晃荡下去,于是最近我打算开始干点什么,好让一年以后审我的专家们能在我的论文评审表上给个通过。
我既然是我老师的学生(好啰嗦的话),每个月拿着他给的补贴过活,自然要参加他申请的项目。也直到这时候我才想到回过头去看看我的老师到底是何许人也。
老师是现在计算所所长,院士李国杰的同班同学,早年两个人一起搞过人工智能和计算机象棋,后来李国杰继续待在中科院系统中搞科研,老师则跑去给曙光搞产业化。后来老师的方向转到了OCR(Optical Character Recognition,光学字符识别)和中文处理上,现在还管理着曙光旗下的一个公司和深圳点通数据有限公司。07年年中的时候,新申请的863项目正式审批完毕,开工上马,包括海量的网络资源库,中英文双语语料库,双语语音库,基于构件的软件构造方法等等,也汇集了在这些方面有些造诣的从剑桥归国的老教授,北京语言大学的专家等一批人,准备把一期好好搞搞,二期要把规模翻番。
我在其中扮演一个小角色,于是选择的余地也很大。回头总结了一下自己玩过的东西,发现最熟悉的竟然是J2EE,然后网格也玩过,C++也写过,还整过人脸识别和OpenGL编程。真是说不出自己擅长什么,于是便随机的挑选了在中文处理和搜索引擎方面都有点用武之地的文本分类,也开始一头扎进“纸”堆里(我们都把论文叫Paper,所以也是纸堆啦,哈哈),开始和各种公式打交道。那时候才知道了“读书破万卷,下笔如有神”这句话的含义,就是说读过很多看也看不懂的论文以后,才能写出那种让别人看也看不懂的文章,好似“神”写的天书一般。
无论如何,已经走上了这条路,就得坚持走到黑,从今天起,我的大名就叫文本分类男,小名就叫增量学习,英文名就叫SVM。我以后也就把这里当阵地,把我的那些烂透了的,一点也不新颖的,和古人有着巨大重复的想法倾倒在这里,与大家共勉(笑)。