2009年9月5日随笔档案 - 泰仔在线

Linuxのポート状況を確認する(netstat)

摘要: Linuxのポート状況を確認する(netstat)
Linuxのポート状況を確認するには、netstatコマンドを使用します。
netstatコマンドが表示する情報には、ポート情報以外に、ルーティング
テーブル、IPマスカレードなど様々な情報を得ることができます。
netstatは表示できる情報が多いため、オプションを使い分けることで
必要な情報のみを表示する使い方が宜しいと思います。阅读全文

posted @ 2016-01-15 12:10 泰仔在线阅读(270) | 评论 (0) | 编辑收藏

JdkにSSLルート証明書をインストールする

摘要: JdkにSSLルート証明書をインストールする(例として、GeoTrustのRapidSSLSHA2(SHA256)) 阅读全文

posted @ 2015-10-21 09:46 泰仔在线阅读(266) | 评论 (0) | 编辑收藏

常用Maven plugin使用

摘要: 常用Maven plugin使用阅读全文

posted @ 2015-10-21 09:29 泰仔在线阅读(227) | 评论 (0) | 编辑收藏

在linux环境下如何查看进程的全路径

摘要: 那如何查看进程的全路径呢？
其实每个进程启动之后在 /proc下面有一个于pid对应的路径

# ll /proc/31723
总用量 0
dr-xr-xr-x 2 root root 0 3月 19 18:13 attr
-r-------- 1 root root 0 3月 19 18:13 auxv
-r--r--r-- 1 root root 0 3月 19 18:04 cmdline
-rw-r--r-- 1 root root 0 3月 19 18:13 coredump_filter
-r--r--r-- 1 root root 0 3月 19 18:13 cpuset
lrwxrwxrwx 1 root root 0 3月 19 18:13 cwd -> /
-r-------- 1 root root 0 3月 19 18:13 environ
lrwxrwxrwx 1 root root 0 3月 19 18:13 exe -> /usr/sbin/htt 阅读全文

posted @ 2014-03-19 17:21 泰仔在线阅读(4085) | 评论 (0) | 编辑收藏

SSL安全证书

摘要: 1、什么是SSL？
SSL 是一个安全协议，最初是由美国网景 Netscape Communication 公司设计开发的，全称为安全套接层协议 (Secure Sockets Layer) 。它采用公开密钥技术为传输通信提供如下帮助：
1. 信息传输的保密性；
2. 数据交换的完整性；
3. 信息的不可否认性；
4. 交易者身份确定性。
换句话说，服务器部署SSL证书后，其核心能就是确保服务器与浏览器之间的数据传输是加密传输的，在数据传输过程中不被篡改或被解密。浏览器上，用户可通过“金色锁型”标记，得知是否已处于SSL安全保护，如果更先进的VeriSign EV SSL证书，那么除了“锁型”标记外，浏览器的地址栏还会变成绿色。
阅读全文

posted @ 2013-08-21 13:47 泰仔在线阅读(281) | 评论 (0) | 编辑收藏

linux如何查看端口被谁占用

摘要: linux如何查看端口被谁占用
使用 netstat 进行查看！
>netstat -noap | grep 80 | grep tcp
使用 lsof 进行查看！
>/usr/sbin/lsof -i tcp:8080
>/usr/sbin/lsof -i :22
>/usr/sbin/lsof -i | grep http
阅读全文

posted @ 2013-05-13 11:44 泰仔在线阅读(15817) | 评论 (0) | 编辑收藏

windows如何查看端口被谁占用

摘要: 想使用的端口又被谁给占用了，想确认一下被谁占用了吗。
首先打开命令行窗口CMD，使用 netstat 进行查看！
>netstat -aon | findstr 端口号
>tasklist | findstr PID
App Name PID Session ID Memory
----------------------------------------------------------------------- 阅读全文

posted @ 2013-05-13 11:07 泰仔在线阅读(343) | 评论 (0) | 编辑收藏

How to get IBM Java 7 for Windows?

摘要: Q：IBM has its own JVM called J9. Linux versions can be downloaded from DeveloperWorks, but not the Windows versions (except for one requiring IBM hardware). This is most likely a licensing issue. We develop against IBM non-x86 hardware with J9 so it is interesting to use the same JVM for development too.
What is the official way of getting IBM Java 7 for Windows? (and how expensive is it?) 阅读全文

posted @ 2013-04-08 11:41 泰仔在线阅读(270) | 评论 (0) | 编辑收藏

Oracle 系统变量使用

摘要: ALTER SYSTEM SET
UTL_FILE_DIR='C:\oracle\oradata','C:\oracle\oradata\log'
SCOPE = SPFILE ;"

select name,value,description from V$PARAMETER where name like 'u%'; 阅读全文

posted @ 2010-11-04 14:53 泰仔在线阅读(266) | 评论 (0) | 编辑收藏

mount两台Linux服务器RHEL5

摘要: mount -t cifs -o username=root,password=root //192.168.0.194/share /mnt/share_194

mount -t nfs 192.168.0.196:/home/share /mnt/share_196 阅读全文

posted @ 2010-10-22 10:49 泰仔在线阅读(295) | 评论 (0) | 编辑收藏

Oracle Connect By Start With 总结==转帖

摘要: Oracle 实在太强了，本篇文章详细介绍了Oracle的递归查询语法，利用此语法，可以方便地实现递归的双向查询：

-- Tirle : Recursion query for TREE with "connect by/start with"
-- Author : Rake Gao
-- Create Date : 2005-08-22
-- Version : 2.0
-- Last Modify : 2005-08-22

目录
一、测试准备
二、实现各种查询要求
三、要点总结阅读全文

posted @ 2010-10-13 14:41 泰仔在线阅读(343) | 评论 (0) | 编辑收藏

软件版本Beta,RC,Demo,Build等是什么意思呢？

摘要: 软件版本Beta,RC,Demo,Build等是什么意思呢？阅读全文

posted @ 2010-09-24 14:54 泰仔在线阅读(319) | 评论 (0) | 编辑收藏

135-PowerDesigner12.5下载及破解(Version 12.5.0.2169)

摘要: 一、下载
1、PowerDesigner 12.5官方下载地址
　http://download.sybase.com/eval/PowerDesigner/powerdesigner125_eval.exe
　大小125 MB (132,006,349 字节)

二、破解
环境：Window 2003 Server Enterprise+sp1+PowerDesigner12.5_eval.exe(12.5.0.2169)
1、制作license.lic文件
拷贝以下内容，并保存为license.lic文件（注意扩展名是lic）
FEATURE PD_SHELL SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=1
FEATURE PD_DEV SYBASE 12.50 permanent uncounted 1 TS_OK HOSTID=ANY SIGN2=2 阅读全文

posted @ 2010-05-07 12:49 泰仔在线阅读(2498) | 评论 (16) | 编辑收藏

Nutch URL过滤配置规则

摘要: nutch网上有不少有它的源码解析,但是采集这块还是不太让人容易理解.今天终于知道怎么,弄的.现在把crawl-urlfilter.txt文件贴出来,让大家一块交流,也给自己备忘录一个。阅读全文

posted @ 2010-04-30 10:12 泰仔在线阅读(3384) | 评论 (0) | 编辑收藏

nutch抓取动态网页

摘要: 解决搜索动态内容的问题：
需要注意在conf下面的2个文件：regex-urlfilter.txt，crawl-urlfilter.txt
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=] （-改+）
这段意思是跳过在连接中存在? * ! @ = 的页面，因为默认是跳过所以，在动态页中存在？一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成：
# skip URLs containing certain characters as probable queries, etc.
# -[?*!@=]
另外增加允许的一行
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
意思是抓取时候允许抓取连接中带 ? = & 这三个符号的连接
注意：两个文件都需要修改，因为NUTCH加载规则的顺序是cr 阅读全文

posted @ 2010-04-24 19:06 泰仔在线阅读(2206) | 评论 (1) | 编辑收藏

Nutch中的html页面的解析问题

摘要: 今天主要研究了Nutch中的html页面的解析问题，因为我的任务是从页面中提取特定的文本，因此首先要找到Nutch如何将html中的文本提取出来。Nutch提供了两种html解析器，nekohtml和tagsoup，我采用了neko的解析器，在看了代码后，发现其提取文本的方法在org.apache.nutch.parse.html中的DOMContentUtils文件中，主要的函数是getTextHelper。阅读全文

posted @ 2010-04-23 17:38 泰仔在线阅读(3070) | 评论 (1) | 编辑收藏

Nutch中的一些小的问题解决

摘要: 今天主要解决了Nutch中的一些小的问题，下面分别简述一下。

1.网页快照乱码问题

Nutch的网页快照是乱码，解决办法是修改tomcat/webapps/nutch目录下的cached.jsp文件，修改其中的第63行。

原来的代码是：content = new String(bean.getContent(details);

修改后的代码是：content = new String(bean.getContent(details),"gb2312");
阅读全文

posted @ 2010-04-23 17:36 泰仔在线阅读(431) | 评论 (0) | 编辑收藏

Nutch插件加载分析

摘要: 当某个插件需要被加载时， Nutch 会加载所有插件的相关接口到缓存，此后每个插件需要实例的时候，根据相关接口和相关接口实现实例在缓存内的记录，使用反射实现一个实例并返回，下面以 QueryFilter 的所有插件被加载例子进行说明。阅读全文

posted @ 2010-04-23 11:30 泰仔在线阅读(484) | 评论 (0) | 编辑收藏

nutch源代码阅读心得

摘要: 主要类分析：
一、 org.apache.nutch.crawl.Injector:
1，注入url.txt
2，url标准化
3，拦截url，进行正则校验（regex-urlfilter.txt）
4，对符URL标准的url进行map对构造，在构造过程中给CrawlDatum初始化得分，分数可影响url host的搜索排序，和采集优先级！
5，reduce只做一件事，判断url是不是在crawldb中已经存在，如果存在则直接读取原来CrawlDatum，如果是新host，则把相应状态存储到里边（STATUS_DB_UNFETCHED（状态意思为没有采集过））

二、org.apache.nutch.crawl.Generator: 阅读全文

posted @ 2010-04-23 11:05 泰仔在线阅读(1052) | 评论 (0) | 编辑收藏

MapReduce算法模式

摘要: 读者是没有耐心的，我也没有，所以先说结论：你可以不用编程序，只要鼠标点几下拖动些图标，改改参数，就能完成过亿数据的分布处理程序。

当然，这么理想的目标现在还没有达到，但路已经明明白白的展现在面前了，至少我们已经走了接近一半了。阅读全文

posted @ 2010-04-21 11:41 泰仔在线阅读(794) | 评论 (0) | 编辑收藏

MapReduce 简介

摘要: 1. 介绍
MapReduce是google发明的一种编程模型。在这种编程模型下，用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对（key/value pair）进行处理（处理时可能只有值这一项有用），生成一系列新的键/值对作为中间结果；系统（MapReduce的实现）对map函数生成的键/值对进行处理，将同属于一个键（key）的值（value）组合在一起，生成键/值列表（（key/list of values） pair）对；reduce函数将键/值列表对作为输入，对同属于一个键的值列表进行处理，生成最终处理结果输出。

如果一个问题可以通过MapReduce编程模型来表达和解决，就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验，只需要定义map和reduce函数。阅读全文

posted @ 2010-04-21 11:29 泰仔在线阅读(1574) | 评论 (0) | 编辑收藏

eclipse 起动后报JVM terminated. Exit code=127的解决办法

摘要: eclipse 起动后报JVM terminated. Exit code=127的解决办法阅读全文

posted @ 2009-12-28 16:11 泰仔在线阅读(1605) | 评论 (0) | 编辑收藏

JNLP介绍

摘要: jnlp是什么？是java提供的一种让你可以通过浏览器直接执行java应用程序的途径，它使你可以直接通过一个网页上的url连接打开一个java应用程序．好处就不用说了，如果你的java应用程序以jnlp 的方式发布，如果版本升级后，不需要再向所有用户发布版本，只需要更新服务器的版本，这就相当于让java应用程序有了web应用的优点了阅读全文

posted @ 2009-12-25 16:43 泰仔在线阅读(262) | 评论 (0) | 编辑收藏

用POI的HSSF来控制EXCEL的研究

摘要: 1.创建工作簿 (WORKBOOK)
HSSFWorkbook wb = new HSSFWorkbook();
FileOutputStream fileOut = new FileOutputStream("workbook.xls");
wb.write(fileOut);
fileOut.close();
2.创建工作表（SHEET）
HSSFWorkbook wb = new HSSFWorkbook();
HSSFSheet sheet1 = wb.createSheet("new sheet");
HSSFSheet sheet2 = wb.createSheet("second sheet");
FileOutputStream fileOut = new FileOutputStream("workbook.xls");
wb.write(fileOut);
fileOut.close(); 阅读全文

posted @ 2009-09-23 19:48 泰仔在线阅读(351) | 评论 (0) | 编辑收藏

Nutch的索引代码解读（一）

摘要: Nutch的内部网增量缩影是可以通过recrawl脚本（nutch的wiki上有发布）进行增量更新，但是对于对于全网爬取的URL如何做到增量更新，目前来说还没有相关的方法，尤其是对于上TB级别数据的索引更新和合并，直接把Nutch似乎还有相当多的问题需要解决（比如分布式大索引分割、合并等等，在Nutch的mailing list上大家讨论了非常多，但还是没有一个合理的解决方案），因此，作者期望通过解读源码的方式来对Nutch的索引构建机制和源码做一个较为初浅的解读，以期通过修改解决Nutch的索引面临的问题，期望能得到广大网友的意见。
考虑到笔者的需求是Nutch对于海量的数据的索引，因此基于集群的方式对Nutch的源码进行解读。
本文是针对Nutch1.0而写，Nutch1.0相比0.9更多的功能采用了Map/reduce算法结构，若不是先前对MapReduce有一番了解，看起来将是非常费解。
首先：补充一点最基础的知识，就是Nutch的文件目录所包含的内容：阅读全文

posted @ 2009-09-05 17:00 泰仔在线阅读(1527) | 评论 (1) | 编辑收藏

Nutch的命令详解

摘要: 关键字: nutch 命令
Nutch采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。主要的命令如下：

1. Crawl
Crawl是“org.apache.nutch.crawl.Crawl”的别称，它是一个完整的爬取和索引过程命令。
2. Readdb
Readdb命令是“org.apache.nutch.crawl.CrawlDbReader”的别称，返回或者导出Crawl数据库（crawldb）中的信息。
3. readlinkdb
它是"org.apache.nutch.crawl.LinkDbReader"的别称，导出链接库中信息或者返回其中一个URL信息。
4. inject
它是"org.apache.nutch.crawl.Injector"的别称，注入新URL到crawldb中。
5. generate
它是“org.apache.nutch.crawl.Generator”，从Cra 阅读全文

posted @ 2009-09-05 16:55 泰仔在线阅读(8085) | 评论 (0) | 编辑收藏

泰仔在线

导航

留言簿(3)

随笔分类

收藏夹

Database相关

Enet 冲浪

Java 技术

Linux相关

搜索

最新评论

阅读排行榜