Friday, December 14, 2007
人工搜索Mahalo.com研究
--James Qi(讨论) 2007年10月25日 (四) 15:29
为了准备我们未来的关键词搜索Wiki想法,最近找了一些相关搜索网站来研究,我会陆续把研究记录放在日志中。
先来看看人工搜索的新贵Mahalo.com,这是我目前在网上找到与我们的想法最接近的项目。
简介
Mahalo是夏威夷语“谢谢你”的意思(Wiki也是夏威夷语,现在网络上世道真是变了,夏威夷语这么流行 )。
它是由业内知名的搜索引擎专家Jason Calacanis创建,此人把以前创办的Weblogs Inc以2500万美元的价格出售给AOL,这次在2007年5月30日推出了号称第一人工搜索引擎的Mahalo,引起VC界的关注,刚开始就获得不少 投资。在网上搜索到的一些中文介绍都是6月初发布的,我到10月才开始关注、看到,真是落伍了!
下面摘录一点报道中的内容:
Mahalo 是世界上第一个台人肉搜索引擎,他们由一些热心人提供动力,这些人废寝忘食地将自己的青春花费在搜索上面,帮你过滤掉垃圾信息,手工编辑最佳的搜索结果,而且如果没有你需要的结果,还可以向他们提交搜索申请 ……
Mahalo 不收录的网页:
- 垃圾邮件网站;
- 非垃圾邮件站点但包含欺诈性广告的站点;
- 恶意获取个人信息的站点;
- 只会复制重不原创的站点;
- 非法复制内容(没获得许可)的站点;
- 火星人建立的站点;
- 成人内容或者令人恶心的内容的站点。
Mahalo 收录的网页:
- 在某个领域权威的站点;
- 高品质原创内容的站点;
- 运作一年以上的站点;
- 涉及清爽,广告在可以忍受的范围之内的站点。
上面是他们自己介绍的,虽然翻译得不好,但它其实是一个严肃的项目,创建人是搜索领域赫赫有名的 Jason Calacanis。这一项目的原动力在于,虽然搜索词是不可限定的,但事实上有一万个搜索词占据了所有搜索 24% 的份额,人工编选的结果和机器搜索其实是很容易很出来的,而那 76% 的“长尾”,就留给 Google 好了。
CNET 对它的评介是,搜索结果匹配度非常地高。
平台
打开他们网站 http://www.mahalo.com 看看,因为我成天接触Wiki用的MediaWiki软件,所以马上就发现该网站所用平台与MediaWiki惊人相识,同样有Category、 History等,今天上午再仔细看看,确实就是用的在开放源代码软件MediaWiki基础上修改过的系统做为平台(这点上与WikiHow相同),不过他们修改的幅度比较大,主要是适应他们的一些特点,例如不允许浏览用户编辑但可以推荐和讨论,也增加了很多插件来实现他们需要的功能和界面。
页面打开特别快,不像其它一些国外的英文网站打开很慢。我故意打错一个链接,看到Squid出错的提示,看来也是用了与MediaWiki配合做缓存的Squid服务器。
使用MediaWiki平台来做各种网站项目确实是个好的办法,上面的两个例子网站都是很知名的了,我们自己现在也是这样做,但我们现在还没有找人来进行针对性开发,以后是需要的。
内容
该项目目前是全英文的。
首页上有一个搜索框,然后下面是分类及热点文章。
5月30日推出的时候有4000个关键词,当时说到今年年底准备做10000个关键词。
我在页面底部看到“Mahalo's goal is to hand-write the top 20,000 search terms. ”,也就是他们准备做20000个搜索量最大的关键词出来。
从已经做好的文章内容来看,质量是没有话说的,远比通用搜索引擎(例如Google, Yahoo!等)给出的结果好,到底是人脑厉害!
页面
进入一个典型的关键词Paris Hotels页面后,看到:
上方
包括:
- 返回首页链接
- 搜索框
- 分类
左侧
包括:
- 标题
- 相关文章(See Also, Do You Mean)
- 推荐Top 7网站
- 其它标题(例如与关键词相关的新闻、视频、历史等)及推荐网站
- 相关搜索(指向更多的相关内部文章)
右侧
包括:
- LOGO
- 编辑笔记
- 快速内容
- 最多推荐链接
- 分享本页
- 今日热门页面Top 10
- 图标含义(Warnings / Guide's Choice / What is?)
下方
包括:
- 作者名称及链接
- 浏览者推荐链接
- 最近更新时间、查看历史链接
- 搜索框
- 分类
- 到博客和Greenhouse(参加编辑的项目组织网站)的链接
- 使用说明、隐私政策
组织
他们招聘有40位专职的编辑人员,另外通过 Greenhouse 招收业余兼职编辑,每篇符合要求的文章付费10-15美元。对编辑人员进行分级别。
按照他们自己的说法,写一篇文章一般需要几个小时。然后还有定期的后续维护。
给编辑人员的帮助我重点看了看,包括编辑内容的质量要求、格式的编排、准备的模板等,准备得还是很充分的。
其它
其它的一些了解到内容:
- 无结果页面:对于还没有编写内容的关键词,系统会给出相关文章列表和Google搜索结果
- 收益:以后靠广告收入,目前专注于高质量内容的建设,另外通过Google搜索结果中的广告可以分享收入
Labels: search engine, SNS