solo

Solo是一个元搜索引擎,即从现有搜索引擎中提取数据的程序。

统计

留言簿(1)

相关链接

阅读排行榜

评论排行榜

2005年1月13日 #

Solo用途

  1. 产品即时比价,为购买产品提供参考;
  2. 产品规格收集;

posted @ 2007-12-27 09:43 solo 阅读(212) | 评论 (0)编辑 收藏

20071220截图

结果页面


 

posted @ 2007-12-20 22:57 solo 阅读(225) | 评论 (0)编辑 收藏

TODOs and Issues

TODO List:

  1. Identify attributes in a web page
  2. Deal with multiple attributes in a single line while comparing
  3. Show already mapped attributes in compare dialog
  4. Filter "related product" area to reduce # of hunks (by identifying instance URLs in webpage)
  5. Use 3rd party (oss) Java diff library, to remove "org.eclipse.compare" dependency
  6. [Web]Add attribute value filtering options in search page
  7. Add "washer" or "MessageFormat" to attribute entry
  8. Specify whether an attribute is long text (e.g. description) or image URL
  9. Add popularity property to ore, evaluate it by speed, usage, etc.
  10. Solo data partition
  11. Show downloading progress bar in web interface
  12. Added order property to Attribute
  13. Result page columns categorized by ores
  14. Give different thread pool size to user according to his level, default = 3
  15. Ores of a category should be derived, like attributes inheritance
  16. Solve the problem that one ore maps attributes differently in different categories
  17. Model advanced search of ores
  18. Automatically discover search url pattern of ores
  19. Convert relative HREFs to absolute so that they can be recongnized by instance url pattern
  20. Add test query keyword for Category (or Ore) as an attribute, for easy testing purpose
  21. Ability to map multiple attributes in web page to one
  22. Package as rcp product
  23. Mark as "not available" for an attribute of ores
  24. Cache most recent downloaded web pages, for re-compare purpose
  25. Remove tag content to reduce hunks
  26. Remove unique content in product url to reduce hunks

Issue List:

  1. [Desktop]Concurrently download test pages in comparing dialog.
  2. Remove org.eclipse.swt dependency from solo model
  3. Instance url pattern of Ore should be multiple (allow an ore has multiple instance url pattern)
  4. Use relative path for default.solo
  5. Clear prior mapping when an attribute is assigned again, provide "remove mapping" button
  6. Add progress indicator for attribute extraction dialog while refresh comparison area
  7. Add as test instance URL when two URLs are entered to be compared
  8. Allow mapping multiple attributes in mapping dialog without pressing OK button
  9. Add add/remove category/attribute function
  10. Provide category selection function in editing ore dialog
  11. Replace compare area with Table for better performance

posted @ 2007-12-17 19:39 solo 阅读(292) | 评论 (0)编辑 收藏

20071216截图

Web界面搜索结果的大概结构:


posted @ 2007-12-16 23:00 solo 阅读(182) | 评论 (0)编辑 收藏

20071212网页界面

和离线编辑器比起来,供大多数人使用的web界面要简单很多,如果不考虑用户管理,大概就是一个搜索界面。

posted @ 2007-12-13 00:01 solo 阅读(182) | 评论 (0)编辑 收藏

20071211离线编辑器截图

Solo的离线编辑器界面,其作用是编辑分类、属性和Ore,作为在线查询的后台数据


posted @ 2007-12-11 20:42 solo 阅读(202) | 评论 (0)编辑 收藏

Solo计划发布Web版本

为了让使用者能更快体验solo,solo计划发布Web版本,第一个版本发布时间大约在08年3月底。

posted @ 2007-12-10 11:30 solo 阅读(197) | 评论 (0)编辑 收藏

Solo at SourceForge.net

Solo在SourceForge.net的申请终于通过了,可以通过http://sourceforge.net/projects/solo/访问最新的Solo进展。

posted @ 2005-03-10 09:21 solo 阅读(373) | 评论 (0)编辑 收藏

2005年3月3日截图

重新设计了透视图结构,增加了Ontology下载管理功能,收藏夹功能。

solo5.gif

posted @ 2005-03-03 10:18 solo 阅读(281) | 评论 (0)编辑 收藏

选择几本书进行对比

solo4.gif

posted @ 2005-02-24 14:18 solo 阅读(298) | 评论 (1)编辑 收藏

两个书店查询“中国”的结果

solo3.gif

posted @ 2005-02-24 14:11 solo 阅读(254) | 评论 (0)编辑 收藏

待修改问题列表

1、测试Ore是否可连接
2、对没有Instance的Subject的处理(例如yisou的查询结果)
3、数字类型栏的正确排序
4、Index表格增加Retrive All命令
5、对无法连接的Ore不进行Index处理,在结果里提示用户该Ore无法连接
6、运行环境只能为J2SDK 1.4.06版本的问题(必须修改
7、查询表格空间不够时要可以滚动
8、隐藏进度视图
9、保存查询到收藏夹,实现“订阅”功能
10、图形化编辑Ore模型代替Protege(大工程)
11、提供Ore模型下载功能,Local File替换功能
12、应用程序打包
13、拆分Ore选择、查询表格和查询结果为独立View
14、Index和Instance查询结果分为独立View,菜单分开
15、记录最新N条搜索历史
16、IndexJob和InstanceJob的改进,下载过程进度报告,取消操作响应
17、修改Reload功能的bug
18、实现Index->Instance的拖放和copy-paste操作
19、允许用户显示/隐藏各视图
20、含有用javascript载入内容代码的网页处理(难题
21、一个Field应该可以被多个Ore重用
22、思考Ontology的发布模式

新版solo的问题列表

posted @ 2005-02-24 13:59 solo 阅读(176) | 评论 (0)编辑 收藏

Solo简介

什么是Solo?

Solo是“Search OnLine Ores”的缩写,可以把Solo想象成一个统一的搜索入口,目前的Web上有非常多的搜索引擎,其中很多是专用目的的,例如各种电子商务的搜索功能。每一个这样的搜索引擎就是一个Ore,Solo做的是把它们按照类别集合起来,让用户输入很少的查询就能得到足够结果,并且这些结果是结构化的。

通过定义特定的本体,你可以为Solo增加更多的搜索功能。例如你可以搜书、搜数码相机、搜新闻,通过让Solo了解通用搜索引擎如Google,你当然也可以搜索任何“东西”。

为了方便定义本体,Solo提供一个简单有用的网页内容提取器,和一个本体测试工具,配合专用的本体定义工具(如Protege),定义一个Ore的时间大约可以控制在30分钟以内。当然,按照设想,一般用户只要从网上下载别人定义好的本体直接使用即可。

怎样使用Solo?

和所有程序一样,用户可以通过一个快捷方式启动Solo。选择自己要查询的物品类别,例如“书”,然后在可选的Ore列表勾掉不希望的项,在系统自动生成的查询表格里输入查询内容并按回车,稍后将在结果表格里看到查询结果。

此外,Solo还可以作为Eclipse的插件来使用(要求Eclipse 3.0或以上版本),使用界面基本不变。

注意下图中的查询结果里标有“b”的表示由于网络原因没能成功获取的信息,你可以Reload它们。

posted @ 2005-01-13 20:56 solo 阅读(24895) | 评论 (0)编辑 收藏