Board logo

标题: 善用特殊符号搜索电驴网络中文资源 [打印本页]

作者: tongzhinihao    时间: 2011-1-27 18:44     标题: 善用特殊符号搜索电驴网络中文资源

在电驴网络(eDonkey 2000
Network,简称eD2k)上,所有用户共享的资源信息,包括文件名,文件Hash值等都被索引到eD2k服务器上,用户可以在eD2k服务器上查找
自己需要的资源,我们通常称为eD2k搜索。在eMule(电骡)等客户端中搜索方式选择“全局(服务器)”或“服务器”,这两种方法都是在进行eD2k搜索。


但是有很多时候,我们会发现搜索中文所命名的资源的时候结果往往很少,这和搜索的原理有关。中文的组成方式不像英文等字母语言那样,是用空格隔开的
一个个单词,所以例如那些我们熟知的网页搜索引擎在索引中文网页时,都需要对内容进行分词处理,中文分词技术属于自然语言处理技术范畴,也是一个非常复杂
的研究领域,这已经不是目前常用的eD2k服务器端软件所能处理的。


电驴服务器搜索原理


现在我们来看目前最常用的电驴服务器(eDonkey server)端软件lugdunum eServer处理eD2k搜索的原理,由于电驴官方服务器端dServer年代久远,并且已经没有再被使用所以不再讨论。


eServer在处理搜索的时候有两种形式:关键词搜索和字符串搜索。



现在我们来看eServer处理搜索时候所规定的特殊符号:


搜索中文命名文件


所以我们知道了,如果我们搜索“阿凡提”,那么我们只能搜索到那些文件名中使用了分隔符把“阿凡提”三个字分割成一个关键词的文件,比如:“[阿凡提.偷东西的驴].XviD.avi”这样的文件,我们无法找到文件名包含了诸如“聪明的阿凡提”或是“阿凡提的故事”这样的文件。这就是为什么很多人认为eD2k搜索中文不好用的原因。


找到原因了解决办法就很简单,



电驴服务器搜索


此方法适合于所有使用了非单词组成的语言,中文,日文等命名的文件。


最后特别需要提醒的是进行字符串搜索会极大消耗电驴服务器的资源,而且会比进行关键词搜索慢很多,而且电驴服务器会在未完成搜索达
到一定阈值的时候取消这次搜索,所以在可能的情况下,请尽量使用关键词搜索方式,而不要使用通配符,对于资源发布者来说,请尽量在文件命名时候使用分隔符
突出资源名称的关键词,这样也能够方便大家。


作者: lowlow    时间: 2011-2-1 18:07

对于中文这类文字来说,通配符* 前后都用基本可以保证能搜索到包含关键字的文件了,如*阿凡提* ;
对于英文等文字来说,似乎不存在明显的搜索障碍,只要词之间分开就没问题……
起始符这个没接触过,看样子很好用,谢谢科普!
作者: haosq    时间: 2011-2-1 22:46     标题: 回复 2# huilee0998 的帖子

http://emule-ed2k.com/sousuo/
作者: HTH    时间: 2011-2-1 23:10

希望多点人能看到,老手可以跳过了。
作者: Alang    时间: 2011-2-20 12:49

谢谢楼主分享,增加知识了。
作者: nkpoper    时间: 2011-2-20 12:56

这个*,是DOS时代必用的通配符,呵呵。我一开始用电驴搜索就用上了。
作者: zub612    时间: 2011-3-11 15:21

学习了,很好很强大
作者: csy300sd    时间: 2012-12-9 14:40

谢谢楼主分享,增加知识了。




欢迎光临 ::电驴基地:: (https://www.cmule.com/) Powered by Discuz! 6.0.0