摘要: 简单log,一些commons-logging和log4j的东西
阅读全文
摘要: 分享一个ThreadMonitor,来自commons-io的一段小程序,感觉会有用,拿来分享一下
阅读全文
摘要: 框架介绍:
主要分为几个部分,核心httpClient部分,认证相关的token部分和api调用部分。
Weibo这个类是一个主体核心,调用的入口。
当用户完成上面介绍的授权后,通过weibo这个类来调用api实现功能。
阅读全文
摘要: 数据类型选择方面的几个原则:
1,更小通常更好,选择能正确表示数据的最小类型。
2,简单就好,用简单类型优于用复杂类型。
3,避免NULL,尽量定义字段为not null。性能提升很小。
阅读全文
摘要: 这个工具是一个可定制的图像抓取工具
我希望这个小工具的功能点有以下几项:1.给定页面抓取页面的图片;2.给定页面和过滤规则,抓取页面的图片并存到本地磁盘或内存;
主要的技术点不多:1.图片链接的获取(htmlparser搞定);2.图片的读写(imageIo搞定);3.规则的制定(来源于需求)
介于方法的多样,第一个版本的spider只是很简单的功能实现,未来希望加入的就是可扩展的规则对象
少废话,上代码:
阅读全文
摘要: htmlStat主要想做什么,就是统计页面的信息,我一直认为页面的结构设计是设计人员按照思维套路来进行的。数字往往反映了一个设计的一个很重要的方面,比如它使用的各个tag的比例,文字的数量,图片的数量和大小等等。而想学习理解出这一套思路,先统计页面信息是最重要的。
当然先说下开发环境:jdk1.6.11,maven2,git
主要的依赖目前只在pom中更新了一部分,有加入的会慢慢加入,具体可以看github上的项目信息
有愿意一起玩代码的,可以留言我,
阅读全文
摘要: 没有过多的技术含量,只是拿来分享一下LCS算法的实现
阅读全文
摘要: Object pool就是一个管理对象的池子。新版本利用jdk 1.5以后的特性,结合泛型,而不是利用Object来实现了。
阅读全文
摘要: 今天看了一下JTidy的使用,目的就是为了格式化一个不标准的html到标准的xhtml。
JTidy是一个用java写的HTML语法检查器,用JTidy可以检查并修正语法不正确的html,同时还可以对html的DOM进行分析。Xhtml和html有很多不同,其中几个主要的区别是
阅读全文
摘要: 杂七杂八的看了一些velocity的资料,把所见所得做个简单不系统的笔记写下来,算是增强记忆。
阅读全文
摘要: Commons-lang记录:
一个最常用的工具,作为jdk的补充,有必要看一下源码~~
阅读全文
摘要: 聚类可以见我以前写过的聚类分析的文章。
回归是一个统计中非常重要的概念了。在Commons Math库中有一个regression的子包转么实现了线性回归的一些基本类型。在regression包中,有个基本接口就是MultipleLinearRegression,这个接口表达y=X*b+u这样的基本线性回归式。线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。简单看这个公式,y代表了一个n维的列向量(回归子),X代表了[n,k]大小的观测值矩阵(回归量),b是k维的回归参数,u是一个n维的剩余误差。回归分析干什么用的?具体讲就是预测。我们在数据挖掘中定义,定性的分析叫做分类,而定量的分析叫做回归。回归就是根据已有的观察值去预测未来的一个定量的指标。记得前一段阿里云到学院来做技术交流,讲到阿里和淘宝通过数据分析对中国商品交易(还是具体什么贸易,忘记了,尴尬)的预测就是工程师做的一个简单的线性回归分析,模型虽然简单,但是后来与实际数据一比较,预测值与实际值的曲线基本吻合。
阅读全文
摘要: 概率统计最基本的前提就是有数据,而我们做模拟或者测试时总会用到大量的随机数据。我们知道绝对的随机是做不到的,但是可以利用算法来实现伪随机数的生成。Commons Math库提供了一个random的包,其中定义实现了很多可以用来生成随机数的类和接口。random包中定义了5个接口,分别是EmpiricalDistribution、NormalizedRandomGenerator、RandomData、RandomGenerator和RandomVectorGenerator。
阅读全文