选择显示字体大小

matrix java 大讲坛 之 搜索引擎技术

<p><strong>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; matrix java 论坛 之 搜索引擎技术<br><br></strong>农民 - javen- 19:50:30<br>  感谢大家支持!<br>  <br>  1、自由发言:大家悠着点,不要太着急啊。刚开始请尽量由主讲发言吧;<br>  <br>  2、一点限制:主讲人与管理员的字体颜色为红色,请大家使用黑色或者蓝色,并且请大家<br>  字体不要超过5号;&nbsp;&nbsp; <br>crane- 19:50:39<br>  偶鼓掌先 <br>老渔翁- 19:50:46<br>  &nbsp; <br>crane- 19:51:01<br>  &nbsp;&nbsp; <br>╃(chris-- 19:51:05<br>  hi,各位,现在开始吧. <br>charbee- 19:51:06<br>  广州好像已经20:00啦 <br>朱世杰℡- 19:51:27<br>  gg <br>农民 - javen- 19:51:33<br>  好了。&nbsp; 大家欢迎&nbsp; chris ,&nbsp; 也感谢大家的支持!&nbsp; <br>真神- 19:52:28<br>  欢迎 <br>╃(chris-- 19:52:31<br>  恩,多谢大家支持,我先自我介绍一下.我是chris,matrix打算在这个高手群里经常展开一些专题性,技术含量比较高的专题讨论,从来让大家都能获益。所以我今晚就抛砖引玉,希望以后大家也能踊跃报名. <br>╃(chris-- 19:52:58<br>  术业有专攻,谁也不会是十全十美的高手,但是能够把自己专长的东西拿出来和大家分享,是一件很令人开心的事情 <br>阿古- 19:53:04<br>  鼓掌 <br>nemo- 19:53:10<br>  &nbsp; <br>老渔翁- 19:53:19<br>  &nbsp; <br>冰云- 19:53:25<br>  别刷屏! <br>╃(chris-- 19:53:29<br>  搜索引擎技术不是我的专业,但是我的兴趣,3年前我研究lucene源代码从而对搜索引擎感<br>  兴趣,从而进入了这个领域。 <br>╃(chris-- 19:53:53<br>  我的专业是金融领域的一些算法研究和应用,在香港,这方面比国内还是要先进一些,希<br>  望下次能有机会给大家讲讲这方面的技术。 <br>╃(chris-- 19:54:02<br>  言归正传,下面我们开始今天的专题讨论。 <br>╃(chris-- 19:54:26<br>  我会从结构上和方向上做一些介绍,至于详细的算法, 今晚因为时间原因我就不讲那么详<br>  细,具体有疑问大家在论坛发贴或者email和我联系。 <br>~~&gt;.&lt;~~- 19:55:12<br>  good<br>  !!<br>   <br>╃(chris-- 19:55:19<br>  先大概介绍一些搜索引擎吧,这里指的搜索引擎是指类似于www.google.com,www.baidu.com<br>  这样的搜索引擎.yahoo严格意义上,不具有一个完整的搜索引擎的全部东西.google是搜索<br>  引擎的典范. <br>~~&gt;.&lt;~~- 19:55:20<br>  有兴趣。 <br>╃(chris-- 19:55:38<br>  我今晚会大概介绍一下一个完整的搜索引擎的架构以及用到的关键技术. <br>╃(chris-- 19:55:53<br>  对一个搜索引擎来讲, 比较传统的架构会是这样的:<br>  crawler&nbsp; -&nbsp; index engine - search engine <br>~~&gt;.&lt;~~- 19:55:53<br>  怎么你打字超快啊。<br>   <br>crane- 19:55:58<br>  up一下 <br>server- 19:56:17<br>  不要说话,尊重一下 <br>~~&gt;.&lt;~~- 19:56:22<br>  &nbsp; <br>~~&gt;.&lt;~~- 19:56:32<br>  比掌声!! <br>kiki- 19:56:55<br>  晕,不要说话,听chris大哥讲 <br>╃(chris-- 19:56:58<br>  crawler就是一个不断从网上将网页抓下来的一个引擎. index engine是一个索引引擎. <br>  search engine就是检索引擎. <br>╃(chris-- 19:57:07<br>  下面,我们先从crawler开始讲. <br>wuyu- 19:57:59<br>  呵,百度的spider,trs的雷达,应该都算crawler吧? <br>╃(chris-- 19:58:18<br>  crawler是一项比较复杂的技术,standford有一些博士毕业论文的主题就是crawler的算法. <br>╃(chris-- 19:58:45<br>  对,但是就crawler来说,google无疑是做的最好的,具体也有很多数据,包括覆盖率,精确性等. <br>╃(chris-- 19:59:18<br>  stanford有一下颚关于crawler的paper,大家可以访问<br>  http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少关于crawler的算法,<br>  以及google的crawler的一些原型算法,当然现在的google的crawler远远要复杂的多. <br>wuyu- 19:59:55<br>  crawler主要完成哪些工作?包不包括对html、script这类&ldquo;无用&rdquo;信息的处理?<br>   <br>╃(chris-- 19:59:56<br>  就一个crawler来说,比较复杂的技术在于:<br>   <br>charbee- 20:00:01<br>  lucene跟google有什么关系吗?<br>  问题我先mark一下,等下chris讲完了,再问 <br>╃(chris-- 20:00:21<br>  有,lucene会在下面提到,lucene应该属于index engine部分的东西. <br>╃(chris-- 20:00:27<br>  就是中间的这部分. <br>wuyu- 20:00:36<br>  lucene只是chris讲的搜索引擎的一部分,负责全文检索,而且lucene的切分词是采用自动<br>  切分词技术的 <br>  <br>  <br>  <br>  <br>  <br>  <br>wuyu- 20:00:57<br>  还是从crawler开始吧,不打岔了 <br>╃(chris-- 20:01:13<br>  好,wuyu的问题很好,一会我们再讨论一下分词这个东西. <br>╃(chris-- 20:02:27<br>  继续crawler的关键技术:<br>  <br>  1.分布式,多线程抓取.任务的调度问题. 因为对于成千上万的网页, 如何不重复抓取, 又<br>  不漏掉重要站点, 是一个很关键的问题. 这里需要一个好的分布式算法,一个很好的任务<br>  调度机制。<br>  <br>   <br>╃(chris-- 20:03:17<br>  具体的算法,这里就不聊了,每个算法都可以开一个专题来讨论的,呵呵. <br>crane- 20:03:23<br>  支持打岔 <br>朱世杰℡- 20:03:39<br>  能不能提一下那些算法 <br>朱世杰℡- 20:04:34<br>  intro即可 <br>charbee- 20:05:49<br>  lucene的最新版支持中文了吗? <br>wuyu- 20:06:01<br>  先整体介绍吧,对各部分的着重点提一下,最后大家再对具体的某些点做提问,毕竟搜索<br>  引擎每一部分都可以开一大个专题来讨论,在一个细节上陷进去就难出来了 <br>╃(chris-- 20:06:02<br>  算法,没有固定的名字,因为这是一个特殊的领域,但是对于调度算法的研究,会基于传统的<br>  分布式调度算法来进行. <br>kiki- 20:06:18<br>  不支持吧,weblucene支持,也是开源项目 <br>charbee- 20:06:42<br>  车东的开源,我知道。环境架不起来。 <br>wuyu- 20:06:44<br>  看吧,一扯就扯远了吧。让chris继续吧 <br>╃(chris-- 20:07:19<br>  继续crawler的关键技术:<br>  2.网页重要性的评估, 这个很重要,因为crawler不会把所有网页都抓下来,只会抓20%的网<br>  页下来,所以必须评估网页的重要性,如何评估就显得很重要. <br>╃(chris-- 20:07:48<br>  一般,评估技术会用到page rank算法.这是google发明的算法. <br>╃(chris-- 20:08:11<br>  pagerank这里就不介绍的太详细了,大家google一下有很多介绍的。大概说一下,就是通<br>  过指向页面a的链接数量和权重来判断页面a的rank 值。matrix的page rank是5.0,是一个<br>  中等的得分 <br>╃(chris-- 20:09:29<br>  继续crawler的关键技术:<br>refresh policy-. 因为网页抓下来之后,每经过一段时间,crawler都必须更<br>  新网页,从而保证索引的网页是最新的网页。最简单的更新策略就是把所有网页重新下载<br>  一次,但是这个耗费的时间起码是一个月,是heavy cost,不能被接受。所以,一个优秀的<br>  更新算法是一个crawler的根本。 <br>╃(chris-- 20:10:41<br>  继续crawler的关键技术:<br>  4.压缩算法,crawler抓下来的东西,会分布式的存储在本地。一般来讲,因为数据量的庞<br>  大,所以这里的存储会有一个压缩机制,从来减少总的存储容量。包括将来在各个数据服<br>  务器之间传输数据,都是需要一个优秀的压缩算法,从来减少通讯带来的带宽负担。 <br>╃(chris-- 20:11:10<br>  关于crawler的介绍就完了,大家自由提问吧.提问完我们进入index engine <br>base- 20:11:26<br>  1. 分布式的运算方式<br>  2. 效率问题<br>  3. 切词<br>  4. 相似性分析<br>  5. 如何缓存等等<br>  <br>  请简述一下先,谢谢<br>  偶列的可能没有重点,请指教,偶关心相似性分析部分 <br>base- 20:11:32<br>  哦,这是刚才打的 <br>真神- 20:12:13<br>  google的pr值是针对性每个网页还是一个网站? <br>base- 20:12:24<br>  1. 你说的是算法<br>  2. 应该就是相似性分析部分<br>  3和4应该属于缓存和更新部分的吧 <br>crane- 20:12:27<br>  关心多线程的检索方式 <br>╃(chris-- 20:12:28<br>  一个一个来,我先回答base的问题,ok? <br>base- 20:12:37<br>  &nbsp; <br>╃(chris-- 20:14:03<br>  base的问题:<br>  1.分布式的运算方式? 这个主要就是任务调度的算法问题,就是如何分配任务. 比如,一个<br>  很简单的分布式,就是一个线程下载一个网站,一台服务器处理一个ip段. <br>╃(chris-- 20:14:55<br>  2.效率问题? crawler目前来讲,google跑完一次需要3个月,所以每隔一段时间google会<br>  dance一次,就是重新整理索引. <br>base- 20:15:41<br>  1. 这里面,如果某些服务器出现问题的时候怎么办?<br>  2. google是如何存放数据的,dbms? <br>base- 20:15:59<br>  哦,我应该了解下crawler先 <br>╃(chris-- 20:16:25<br>  1. 有备份机制,如何备份不得而知. 2.自己定义的格式存储,比如txt,非dbms,肯定不是. <br>~~&gt;.&lt;~~- 20:17:03<br>  为什么不用dbms?<br>   <br>base- 20:17:05<br>  是dbms是不行的,文本方式?大约可以知道是怎么存放的了 <br>╃(chris-- 20:17:40<br>  3.切词, 这个是中国搜索引擎的特色. 一般来讲,切词输入nlp的领域,引入了nlp的话,会提<br>  高检索效率,但是nlp是一个世纪难题,baidu解决得效果我看大家也能看得到. <br>╃(chris-- 20:17:47<br>  google没有切词这个概念 <br>╃(chris-- 20:18:04<br>  4,5 属于检索引擎得东西,我们下面在谈. <br>╃(chris-- 20:18:17<br>  next,真神得问题? <br>真神- 20:18:35<br>  google的pr值是针对每个网页还是一个网站?&nbsp; <br>base- 20:18:36<br>  切词是刚才听到的,呵呵 <br>╃(chris-- 20:18:50<br>  pr值是对每个网页. <br>base- 20:19:04<br>  在语义分析的时候会有&nbsp; <br>╃(chris-- 20:19:05<br>  page rank,顾名思义,是page <br>╃(chris-- 20:19:35<br>  对,绕开语义是必须得,google完全绕开了语义. <br>冰云- 20:19:36<br>  就是说,我和pr高的page做链接我的pr也会提高 <br>╃(chris-- 20:20:08<br>  冰云说得对,这个非常明显 <br>╃(chris-- 20:20:30<br>  但是也要和对方给出来得连接数量有关 <br>陆地孤帆- 20:21:06<br>  我想问一下跨语言跨字符集的搜索怎么实现的?<br>  比如我们输入中文,却能查到行相似关键字的繁体中文,甚至日问韩问资料? <br>base- 20:21:15<br>  对,绕开语义是必须得,google完全绕开了语义. <br>  <br>  但是这样一来,只是关键字分析的话,那么相似性分析就会有很大偏差了 <br>╃(chris-- 20:22:05<br>  但是效果来看,google并不差,实际上全文检索引擎+page rank可以做得很好. 语义并不是<br>  想象中那么容易处理. 往往1%得误差,会造成10%的错误放大. <br>base- 20:22:40<br>  当然,语义分析到现在也解决的不好,很难 <br>╃(chris-- 20:23:21<br>  跨语言,跨字符集. 这个有一个翻译的对应词典. 会在索引阶段就处理这个问题. 比如简体<br>  和繁体的对应. 但是google没有做简体对英文的对应,因为这是属于机器翻译的问题,而不<br>  是简单的对应问题. <br>冰云- 20:23:55<br>  不是通过unicode么? <br>base- 20:24:13<br>  page rank+全文检索,这个问题需要讨论一下,有点不清楚 <br>╃(chris-- 20:24:27<br>  对,简体,繁体,可以通过unicode <br>╃(chris-- 20:25:00<br>  但是which unicode对应which unicode 还是应该有个对应. <br>农民 - javen- 20:25:41<br>  还有没有回答的:&nbsp; <br>  <br>crane- 20:12:27<br>  关心多线程的检索方式 <br>╃(chris-- 20:25:48<br>  google的本质是全文索引+page rank. 没有语义,没有分词. 但是效果很不错. <br>╃(chris-- 20:26:10<br>  crane,能把问题说清楚些么? 多线程的检索方式? <br>╃(chris-- 20:26:34<br>  你是问多用户并发检索的情况如何处理? <br>crane- 20:26:49<br>  就是多线程 如何 处理不重复 <br>crane- 20:27:05<br>  如何保证 不重复检索网页 <br>crane- 20:27:36<br>  我曾经做过爬网站的程序,这个是我遇到的最复杂的问题 <br>╃(chris-- 20:27:59<br>  应该是crawler如何不重复下载网页吧?最简单的方法,就是我前面提到的:<br>  比如,一个很简单的分布式,就是一个线程下载一个网站,一台服务器处理一个ip段.<br>   <br>   <br>╃(chris-- 20:28:42<br>  具体,如果是在一个网站也采用多线程处理,那么实现方式上来讲,会有一个队列,来存储已<br>  经处理过的页面. 然后新处理的页面要比较一下队列里的页面. <br>农民 - javen- 20:28:52<br>  但 matrix 会同时有 上千个 google 线程来 dance&nbsp; <br>╃(chris-- 20:29:07<br>  对,上面讲到了解决方法. <br>╃(chris-- 20:29:14<br>  会有一个队列. <br>crane- 20:29:25<br>  一个线程下载一个网站,我倒,因为我这个程序是就一个机器,我的pc <br>crane- 20:29:36<br>  有没有其他的办法 <br>crane- 20:29:59<br>  算法推荐也好 <br>base- 20:30:03<br>  就是一个网段一个网段的排吧 <br>base- 20:30:10<br>  不会重复网站了 <br>╃(chris-- 20:30:16<br>  如果是n个线程处理一个网站,那么就是我上面提到的方法啊.&nbsp; <br>╃(chris-- 20:30:27<br>  会有一个队列,来存储已经处理过的页面. 然后新处理的页面要比较一下队列里的页面. <br>  <br>  <br>  <br>╃(chris-- 20:30:36<br>  所有线程共享这个队列. <br>╃(chris-- 20:30:43<br>  这是最简单的方法. <br>crane- 20:31:03<br>  哦,明白了,谢谢 <br>╃(chris-- 20:31:05<br>  在n个线程处理一个网站,当然也可以有一些更聪明的调度方法, <br>╃(chris-- 20:31:24<br>  具体以后再聊聊. <br>╃(chris-- 20:31:29<br>  还有其他问题么? <br>crane- 20:31:33<br>  更聪明 的是什么,刚才你说的一个队列和我的想法是一样的价值不大 <br>冰云- 20:31:42<br>  pr这东西对个人网站到底有没有意义呢? <br>base- 20:32:03<br>  以前偶查东西的时候是ip段来,一个ip一个ip的来过 <br>crane- 20:32:08<br>  更聪明算法 的我以后找你可以么&nbsp;&nbsp; <br>╃(chris-- 20:32:19<br>  价值不大?但是你必须实现啊. 其他算法以后我们可以探讨一下. <br>╃(chris-- 20:32:38<br>  pr值我觉得还是挺重要,起码再google排名上气的是关键性的作用. <br>冰云- 20:32:56<br>  左边的排名是排的pr? <br>base- 20:32:58<br>  我还是不明白,page rank + 全文检索,如何处理的相似性问题,就是重要性问题,举个<br>  例子如何? <br>╃(chris-- 20:33:07<br>  google带来的访问量,目前来讲是在60%以上. <br>农民 - javen- 20:33:56<br>  我们在同一个数据库里检索数据都要考虑速度问题,google 是怎么样保证他的检索速度的?<br>  同一个关键词的搜索,他需要从 n 个服务器上去拿数据,而且上面说到的,可能是打开文<br>  本文件来获得数据。&nbsp;&nbsp;&nbsp; <br>方片- 20:34:14<br>  为什么在google中搜索,当你翻了很多页时会经常出现重复的页面链接? <br>╃(chris-- 20:34:25<br>  base,可以看看page rank算法. <br>base- 20:35:03<br>  哦,谢谢,偶去望一下 <br>charbee- 20:35:18<br>  weblucene怎么用呀? <br>郁也风- 20:36:00<br><br>base- 20:36:12<br>  you can use english,haha.... <br>╃(chris-- 20:36:12<br>  javen,这个就是分布式全文索引的效率问题,效率上来讲,这个会很迅速,特别是海量数据的<br>  处理上,会比传统的数据库快n倍.对google来讲,检索一次,也就是读几个文件,本地传输2次<br>  数据.速度完全可以保证 <br>郁也风- 20:36:33<br>  english is my weakest link <br>╃(chris-- 20:36:44<br>  charbee,weblucene我没有用过,希望下次我们可以把车东请过来给大家讲讲这个东西,呵呵.<br>  javen可以联系一下 <br>base- 20:37:01<br>  try wan neng wubi :) <br>crane- 20:37:16<br>  哗~~~~ 鼓掌~~ <br>郁也风- 20:37:23<br>  welcome:) <br>charbee- 20:37:29<br>  好, <br>阿古- 20:37:36<br>  鼓掌! <br>拓拔涛- 20:37:36<br>  &nbsp; <br>冰云- 20:37:43<br>  车东现在在美国培训 <br>kiki- 20:37:45<br>  &nbsp; <br>server- 20:37:46<br>  em14 <br>base- 20:37:52<br>  &nbsp; <br>农民 - javen- 20:38:01<br>  检索一次,也就是读几个文件,本地传输2次数据.<br>  <br>  这个可以细化一下???&nbsp;&nbsp; <br>server- 20:38:03<br>  em13 <br>charbee- 20:38:14<br>  lucene呢,讲讲原码核心部分也好。 <br>╃(chris-- 20:38:17<br>  javen,这个和google的具体索引实现有关. <br>农民 - javen- 20:38:27<br>  警告:&nbsp; base&nbsp; server <br>  <br>  不要发这种东西。&nbsp;&nbsp; 否则立马清除!&nbsp; <br>base- 20:38:36<br>  &nbsp; <br>真神- 20:38:40<br>  这个是否是index engine部分的内容了? <br>╃(chris-- 20:38:46<br>  lucene源码核心我也想讲讲,但是时间不是很允许. <br>╃(chris-- 20:38:56<br>  对,下面我们讲讲index engine <br>charbee- 20:39:04<br>  呵呵,好。 <br>crane- 20:39:06<br>  lucene源码核心&nbsp; 放到最后讲如何 <br>charbee- 20:39:11<br>  好。 <br>crane- 20:39:17<br>  好 <br>╃(chris-- 20:39:30<br>  现在已经快一个小时了,我得手要断了,哈哈 <br>charbee- 20:39:44<br>  page rank 还没有讲完,我的一个普通网页的网站,怎么提高page rank <br>农民 - javen- 20:39:51<br>  要不休息一会儿吧。&nbsp; 大家自由聊聊。&nbsp;&nbsp;&nbsp; <br>crane- 20:39:52<br>  挑战体能极限,我们都支持你&nbsp; <br>crane- 20:40:05<br>  好哈,休息 <br>郁也风- 20:40:07<br><br>╃(chris-- 20:40:14<br>  charbee:<br>  1. 找尽量多的网页为你做链接指向你. <br>kiki- 20:40:17<br>   吃块瓜, <br>农民 - javen- 20:40:22<br>  charbee :&nbsp;&nbsp; 这个倒是个实在的问题啊。&nbsp;&nbsp; <br>  <br>  我的 blog 今天看到了&nbsp; 3 了 。&nbsp; 哈哈&nbsp; <br>charbee- 20:40:42<br>  呵呵。 <br>冰云- 20:40:45<br>  我之前是5,现在下降到4,估计和我有情链接增多有关 <br>郁也风- 20:40:45<br>  my pr value is zero <br>crane- 20:41:05<br>  怎么看5 3呀 <br>冰云- 20:41:10<br>  google bar <br>charbee- 20:41:10<br>  我的也是0 <br>crane- 20:41:14<br>  pr指数在哪里看? <br>╃(chris-- 20:41:20<br>  增多是不会减少pr的. pr只和指向你的链接有关. <br>郁也风- 20:41:20<br>  my link's type is ?abc=*** <br>╃(chris-- 20:41:31<br>  下载一个google的bar就可以看到 <br>  <br>  <br>  <br>╃(chris-- 20:42:52<br>  下面我们继续index engine <br>crane- 20:43:10<br>  好,谢谢 <br>charbee- 20:43:25<br>  农民我的blog玩不了了:<br>  http://www.matrix.org.cn/blog/char/ <br>charbee- 20:43:46<br>  继续 index engine <br>  好像lucene就是用 index engine&nbsp; <br>╃(chris-- 20:44:09<br>  东西抓下来之后,除了存储起来,就是要进行索引了,这就是index engine要做的事情。<br>  这里我们的索引都是指完全的全文索引,而不是只对字的索引,或者只对词的索引。有些<br>  国内的检索引擎是对字的索引或者对词的索引,或者两者的结合。 <br>kiki- 20:44:11<br>  好像也有search engine吧? <br>╃(chris-- 20:44:48<br>  其实,我们平时用的lucene就是一个索引引擎,但是不支持分布式。而且,索引压缩算法<br>  还有其他方面还存在一些问题不适合大型搜索引擎使用,但是对于一般通常的应用来讲应<br>  该是没有什么问题。 <br>╃(chris-- 20:45:39<br>  关于index engine,有几个问题比较关键: <br>╃(chris-- 20:46:30<br>  1.一般来讲,因为数据量是很大,所以索引的容量也会很大,一般来讲,数据量和索引量<br>  的比例会是1:1。所以,索引的存储也会是分布式的。比如google,用来存储索引的服务<br>  器大概有1000多台。google用的是什么算法是没有公布,起码我是没有找到。最简单的索<br>  引就是倒排索引,lucene就是用的这个. <br>╃(chris-- 20:48:51<br>  2.index engine 必须支持增量索引,而且增量索引速度应该很快。这个问题,通常的解<br>  决方法,是为新增的数据新建一个新的索引块,然后在一定时间,将这个新的索引块并入<br>  旧的索引块。比如lucene里就是这么做的。 <br>╃(chris-- 20:50:55<br>  3.索引有一个压缩的问题,因为通常数据量和索引量的比例会是1:1,如果压缩算法做的<br>  比较好的话,应该可以得到更好的一个比例。lucene这方面做的比较一般. <br>╃(chris-- 20:51:29<br>  4.还有就是多语言的问题,索引必须支持多语言.现在unicode可以很好的解决这个问题 <br>╃(chris-- 20:52:55<br>  5.索引的结构还必须为检索,相似性分析,等等提供良好的计算接口.比如google和baidu的<br>  类似网页,为了很快找到类似网页,这些数据也必须放到索引里面去. <br>╃(chris-- 20:53:57<br>  6.当然,支持doc,excel,ps 等多种文件格式,这个是基本的东西了 <br>  <br>join- 20:54:19<br>  怎么把数据放入索引哦?<br>   <br>join- 20:54:27<br>  添加索引?? <br>╃(chris-- 20:54:29<br>  就是通过索引引擎. <br>join- 20:54:44<br>  没听过 <br>╃(chris-- 20:54:56<br>  数据下载下来,出发索引引擎,索引引擎分析数据,添加到索引库. <br>╃(chris-- 20:55:48<br>  index engine 介绍完了.大家自己提问 <br>╃(chris-- 20:55:52<br>  自由提问 <br>方片- 20:57:51<br>  时间太短,讲的东西太深,听不大懂,chris能不能花点时间将今天的讲座整理成一篇文档,<br>  以便慢慢学习啊 <br>农民 - javen- 20:58:11<br>  坦率地说,我没有太明白&ldquo;全文&rdquo;索引的意思。&nbsp; 对象不是字、词,是全文?&nbsp; <br>  <br>  一般意义上的索引对象都是关键字。&nbsp;&nbsp; <br>╃(chris-- 20:58:15<br>  呵呵.好啊.完了会整理放到网上. <br>阿古- 20:58:23<br>  就是阿<br>  感觉很复杂<br>  很多算法没有接触到 <br>农民 - javen- 20:58:34<br>  我会整理好记录的。&nbsp; 我已经在整理了。&nbsp;&nbsp; 会完后马上可以放到网络上。&nbsp; <br>charbee- 20:58:54<br>  最好有实际点的东西比较好,有这样有什么好,没有这样有什么好。 <br>crane- 20:58:55<br>  是哈,这个东西太深了,而且涉及的方面可真多 <br>kiki- 20:59:01<br>  主要是没学过九阳神功,要不小ks&nbsp; <br>╃(chris-- 20:59:07<br>  对,全文检索不是对关键字,是对全文.<br>  比如&quot;我是中国人&quot;,检索&quot;是中&quot;,也可以检索到就是全文检索 <br>郁也风- 20:59:25<br>&nbsp; <br>base- 20:59:34<br>  这里应该是page rank的内容了吧? <br>阿古- 20:59:45<br>  你可以写拼音嘛1 <br>base- 20:59:49<br>  you can download the 万能五笔 <br>wuyu- 20:59:52<br>  能不能再介绍一下索引中的分词处理,比如中文同义词处理? <br>郁也风- 21:00:24<br>  i'm downloading ms ime,76mb <br>wuyu- 21:00:25<br>  如果搜&ldquo;毛主席&rdquo;,带着&ldquo;毛泽东&rdquo;、&ldquo;毛润芝&rdquo;之类的信息也能检索出来? <br>crane- 21:00:28<br>  chris 随便找个你认为最有价值 的方面,详细讲讲吧 <br>╃(chris-- 21:00:41<br>  google对索引,不会做分词处理的.所以不会对同义词进行处理. baidu会做处理. <br>base- 21:00:52<br>  万能五笔 is little, just less than 5m <br>堕入凡间的雨- 21:01:13<br>  这样的处理岂不是很复杂 <br>crane- 21:01:24<br>  google现在能处理拼音了 <br>wuyu- 21:01:31<br>  是啊,baidu、trs、慧聪之类的国内厂商所吹的,也就是基于汉语言的切分词技术 <br>wuyu- 21:01:58<br>  中文切分词过程大致的原理? <br>crane- 21:02:00<br>  trs 不是国内的吧 <br>wuyu- 21:02:11<br>  国内的,易宝嘛 <br>╃(chris-- 21:02:13<br>  trs是港资的,但是主力是国内的 <br>╃(chris-- 21:02:24<br>  北京信息工程学院的 <br>charbee- 21:02:34<br>  chris,你在trs做吗? <br>╃(chris-- 21:02:40<br>  慧聪吗,呵呵..我呆过一段时间. <br>wuyu- 21:02:49<br>  呵,主要是trs比较便宜,好象trs server才8万。 <br>╃(chris-- 21:02:57<br>  不在trs啊? 这个不是我的专业,只是我的爱好. <br>crane- 21:04:36<br>   基于汉语言的切分词技术,&nbsp;&nbsp;&nbsp; 维护同义词字典? <br>wuyu- 21:04:47<br>  慧聪吹的有一个东西是内嵌在关系数据库内的全文,trs、百毒、lucene都是另起专门的全<br>  文库,这两种方式有什么优缺点? <br>农民 - javen- 21:05:20<br>  因为 google 根本不去管什么分词、语义,而 baidu 、慧聪什么的在玩一点,所以说他们<br>  技术比 google 高,说什么第三代、第四代搜索技术?&nbsp;&nbsp; <br>bill-过儿- 21:06:05<br>   感谢!我来晚了! <br>base- 21:06:22<br>  唉,语义分析,&nbsp;&nbsp; <br>kiki- 21:06:27<br>  晕,现在才来? <br>农民 - javen- 21:06:36<br>  感谢大家支持!<br>  <br>  1、自由发言:大家悠着点,不要太着急啊。刚开始请尽量由主讲发言吧;<br>  <br>  2、一点限制:主讲人与管理员的字体颜色为红色,请大家使用黑色或者蓝色,并且请大家<br>  字体不要超过5号;&nbsp;&nbsp;&nbsp; <br>crane- 21:06:46<br>  自然语言语义分析可有的玩了 <br>wuyu- 21:06:49<br>  我是觉得中文切分词很关键啊,如果用lucene的自动切分词,能够满足&ldquo;查全&rdquo;的要求,<br>  但是实际应用中,更加需要&ldquo;查准&rdquo;啊,你出一万条垃圾信息还不如出一条用得着的信息好 <br>bill-过儿- 21:07:25<br>  是啊,聚了一下会! <br>╃(chris-- 21:07:29<br>information retrieval-的技术会越来越多的应用到搜索引擎里面.比如,排重,<br>  相似性分析,用户爱好分析,问题回答性质.等等. 但是,这都要以一定的准确性为基础,如果<br>  技术不成熟,就只能是放在实验室的产品. <br>charbee- 21:07:29<br>  有没有实用点的技巧? <br>crane- 21:07:33<br>  切分词技术 方便解释一下么 <br>郁也风- 21:08:00<br>  切分词? i'm late, what is 切分词?wuyu? <br>bill-过儿- 21:08:22<br>  继续 <br>charbee- 21:08:28<br>  车东有篇文章讲切分词。 <br>wuyu- 21:08:32<br>  郁也风,拆分为&ldquo;郁也&rdquo;&ldquo;也风&rdquo;,lucene就是用这种自动切分词手段的,两字两字一切分。 <br>crane- 21:08:45<br>  哦,明白了,谢谢 <br>郁也风- 21:08:57<br>  i see:) <br>wuyu- 21:09:31<br>  英文好切分,见空白符就切成word了,中文就没边界。&quot;this is&quot;,明显的两个词,但是<br>  &ldquo;郁也风&rdquo;,你让计算机去判断判断用了几个词? <br>crane- 21:09:40<br>  我想,应该切分有意义的词吧&nbsp; <br>╃(chris-- 21:09:46<br>  切分词,对英文是不存在这个分词的问题,因为空格就是英文单词的分隔符..<br>  但是中文就有,比如 &quot;我马上从马上下来&quot;,计算机存在识别困难. 现在,通过一定的技术,基<br>  于语料库,可以达到比较好的效果. <br>crane- 21:10:07<br>  哈哈,这个例子好玩 <br>堕入凡间的雨- 21:10:29<br>  语料库是什么? <br>crane- 21:10:33<br>  语料库 是什么,不只是词典吧,还有什么 <br>base- 21:10:37<br>  又到了语义分析上了,唉,谁能三言两语说明白,老朽会佩服死去活来的 <br>bill-过儿- 21:11:02<br>  对不起噢!<br>   <br>charbee- 21:11:09<br>  http://www.chedong.com/tech/lucene.html#segment<br>word segment- <br>bill-过儿- 21:11:13<br>  可以了 <br>╃(chris-- 21:11:16<br>  语料库是一些,已经处理好的标注文章, 比如把人民日报2年的文章分词标注好. 然后基于<br>  这个语料库来处理分词. <br>bill-过儿- 21:11:25<br>  调整好了 <br>crane- 21:11:29<br>  这么智能呀 <br>╃(chris-- 21:11:41<br>  语料库是手动做的. <br>base- 21:11:49<br>  这个查询数据量,大了去了,有什么相关算法? <br>crane- 21:11:59<br>  想当于 先给机器人学知识,然后他去做 举一反三的工作? <br>╃(chris-- 21:11:59<br>  这个建索引,速度还不错. <br>╃(chris-- 21:12:06<br>  crane说对了 <br>crane- 21:12:41<br>  哇,太夸张了,现在的技术可真厉害,估计性能是个不小的问题 <br>base- 21:12:45<br>  呵呵 <br>堕入凡间的雨- 21:13:18<br>  也就是将常用词语做库!然后在语法切分时根据库做比较? <br>真神- 21:13:32<br>  这个深入下去估计是ai方面的内容了 <br>base- 21:13:42<br>  不用深入,已经是了 <br>╃(chris-- 21:13:46<br>  不仅仅这么简单,是对一些文章进行分词并进行词性标注. <br>╃(chris-- 21:14:10<br>  先手动做,然后让机器在这个基础上对其他文章自动分词 <br>堕入凡间的雨- 21:14:41<br>  也就是叫机器去读文章! <br>╃(chris-- 21:14:46<br>  对. <br>╃(chris-- 21:14:58<br>  这些都是ir,nlp范畴的东西,呵呵 <br>真神- 21:15:29<br>  说到这里我想起电影《ai》里小机器人去游乐场问问题那一幕 <br>╃(chris-- 21:15:32<br>  所以说,搜索引擎是一项非常丰富的技术.会牵涉很多领域 <br><br>╃(chris-- 21:15:45<br>  下面我们继续 search engine<br>   <br>堕入凡间的雨- 21:16:05<br>  如果库的文件不是很大,倒是为未来的电脑语音系统提供了很好的内容 <br>农民 - javen- 21:16:48<br>  第三个部分内容:&nbsp;&nbsp;&nbsp; <br>base- 21:16:52<br>  如果语义分析解决了,不是领域问题,是对人类的一大贡献哦 <br>╃(chris-- 21:17:13<br>  索引建好之后,就是为了search 服务了.<br>  通常流程是这样的,用户发出请求 &lt;-&gt; search engine&lt;-&gt; index server <br>╃(chris-- 21:18:06<br>  对于检索引擎,search engine,有以下关键问题:<br>  1. 检索结果的排序问题,这个其实前面的page rank做了很多铺垫的 <br>╃(chris-- 21:18:58<br>  一些新的尝试,比如对用户偏好的分析之类的,都可以运用在这里,对不同偏好的用户采用不<br>  同的排序策略 <br>╃(chris-- 21:19:37<br>  2.检索结果的排重问题,就是排除重复的结果.这个算法很重要,因为不仅是准确性的问题,<br>  还有就是速度问题. <br>╃(chris-- 21:20:06<br>  3.检索结果的相似性分析问题,这个和上面的为那提比较类似. 主要用在 类似网页 里面 <br>╃(chris-- 21:21:04<br>  4.检索的速度问题.这个主要是靠前面的索引结构决定.当然,很多技术可以用来提升速度,<br>  比如分布式cache <br>╃(chris-- 21:21:23<br>  大概就这么几个问题.. <br>╃(chris-- 21:21:26<br>  大家自由发言. <br>wuyu- 21:21:52<br>  能不能讲讲二次检索? <br>crane- 21:22:06<br>  感觉&nbsp; 问题 好象应该在入仓的时候就 该解决 <br>crane- 21:22:15<br>  感觉&nbsp; 排重问题 好象应该在入仓的时候就 该解决 <br>╃(chris-- 21:22:27<br>  二次检索很简单,其实就是和第一次检索的东西作一次and <br>bill-过儿- 21:22:38<br>  检索结果的排重问题,就是排除重复的结果.这个算法很重要,<br>  这个要自己 开发 吗? <br>╃(chris-- 21:22:48<br>  对,排重的问题,很多会在入库的时候解决. <br>wuyu- 21:22:50<br>  但是二次检索对性能的影响?一般搜索引擎是怎么处理的? <br>╃(chris-- 21:23:29<br>  性能影响不大...对于优秀的搜索引擎来讲,一般的布尔表达式都不会是大问题 <br>╃(chris-- 21:23:54<br>  二次检索也只是为布尔表达式加了一个and <br>╃(chris-- 21:24:09<br>  排重当然要自己开发拉? <br>wuyu- 21:24:44<br>&quot;上一次的&quot; and 关键词),然后进行&ldquo;全新&rdquo;的检索? <br>╃(chris-- 21:25:16<br>  这只是一种实现方式, 就是这种方式,解决起来也是完全可行的.当然,有更好的方式,比如放到cache里,然后检索cache等. <br>wuyu- 21:25:21<br>  我晕死,呵呵,我还一直以为采用了某些手段,比如做了cache <br>╃(chris-- 21:25:57<br>  呵呵. <br>郁也风- 21:26:45<br>  &quot;上一次的&quot; and 关键词-it's like my method:) <br>╃(chris-- 21:26:59<br>  呵呵 <br>wuyu- 21:27:07<br>  我是关键数据库的检索时被人逮着问二次检索的,那家伙硬是把我用的trsserver提供全文和我业务后台管理时从关系数据库做检索混起来,非让我明白的告诉他支持不支持二次检索,是怎么支持的,晕啊 <br>农民 - javen- 21:27:11<br>  大家还有问题吗?&nbsp;&nbsp;&nbsp; 要不今天暂时到这里?&nbsp;&nbsp; <br>ss- 21:27:24<br>  问个问题 <br>ss- 21:27:35<br>  比如刚才因为很多没有看到 <br>╃(chris-- 21:27:42<br>  wuyu,你这个问题必须放到cache里. <br>农民 - javen- 21:27:43<br>  chris 应该是比较累了。 呵呵 。&nbsp;&nbsp; 狂敲键盘一个半小时了。&nbsp; <br>kiki- 21:27:44<br>  急什么?? 都这么有热情劲儿 <br>╃(chris-- 21:27:52<br>  哈哈 <br>java神化- 21:27:58<br>  &nbsp; <br>ss- 21:27:59<br>  比如我检索一个条件是 xx=123 and test=234 <br>bill-过儿- 21:28:04<br>  唉!我还没听够那! <br>ss- 21:28:07<br>  一般做法是不是分2次检索 <br>java神化- 21:28:09<br>  &nbsp; <br>charbee- 21:28:11<br>  呵呵。我们要考虑怎么把技术变成实用。 <br>crane- 21:28:19<br>  一般的大型企业应用系统中,哪些地方可以用到lucene呢 <br>ss- 21:28:29<br>  先检索出xx=123然后在结果集中test=234 <br>╃(chris-- 21:28:39<br>  ss,这个要看索引结构,如果索引结构好,不用两次检索,可以一次扫描就解决 <br>wuyu- 21:28:40<br>  我是含糊过的,反正我关系数据库的检索是根据我定义的filter做了cache,而他们大量用<br>  检索的时候是跑我trs server来检索的,懒得理他,呵呵 <br>crane- 21:29:35<br>  学了这么多,手痒痒,想用用,在哪里能用这些技术&nbsp; <br>charbee- 21:29:55<br>  好呀。最好能有些效果可以看看 <br>堕入凡间的雨- 21:30:04<br>  资源系统里面较为常用 <br>╃(chris-- 21:30:28<br>  开发搜索引擎的时候,或者处理海量数据的时候. <br>堕入凡间的雨- 21:30:38<br>  而且资源系统中的数据量一般也是比较大的 <br>╃(chris-- 21:31:09<br>  搜索引擎也会是将来的一个方向,专业化,个性化的搜索引擎 <br>crane- 21:31:14<br>   感觉 搜索引擎 是非常有钱途的东东<br>kiki- 21:31:31<br>  呵呵,没钱途誰学呀&nbsp; <br>wuyu- 21:31:49<br>  我这边更多的应用是从关系数据库的数据导入全文库,然后再提供出来做检索。<br>  <br>  不过有一个问题很烦,就是关系数据库(或是google的某个网页)做了变更、删除以后全<br>  文库的同步问题? <br>  1、是更新后立即刷新全文完成同步,还是通过定时任务进行同步?<br>  2、如果是定时任务,是增量更新方式来完成同步,还是完全复制的同步? <br>bill-过儿- 21:31:49<br>  &nbsp; <br>╃(chris-- 21:31:51<br>  对,前段时间万网老总就做了一次秀,关于搜索引擎 <br>crane- 21:32:01<br>  以前是信息就是金钱,现在是信息太多,摘得出来才是金钱 <br>阿古- 21:32:21<br>  嗯  <br>堕入凡间的雨- 21:32:27<br>  还有个问题,如果使用存储过程,在查询速度上会有很大的提升,但是如果考虑跨平台的<br>  使用,使用sql语法有什么好的建议 <br>ss- 21:32:50<br>  要看是什么系统了 <br>wuyu- 21:33:12<br>  对于google来说,原始网站和全文库的不同步是可以允许的,但是对于小型应用来说,原<br>  始关系数据库和全文库的不同步或是同步不及时,就是很难容忍的了,呜呜 <br>ss- 21:33:16<br>  我觉得这种核心思想应该是够用则可 <br>╃(chris-- 21:33:28<br>  小型应用,我觉得立即同步刷新就行了. <br>ss- 21:33:28<br>  就是说如果现有的速度够用,就不要用存储过程 <br>堕入凡间的雨- 21:33:42<br>  资源!应该是小学到高中的全部资源或者更多 <br>ss- 21:33:52<br>  如果不够,在需要的地方加,此时不用顾虑移植问题 <br>wuyu- 21:34:26<br>  基于事件触发的机制,在关系数据库完成更新操作后立即通知全文库做内容更新同步操作? <br>╃(chris-- 21:34:39<br>  对,小型应用应该这样 <br>堕入凡间的雨- 21:35:24<br>  这一步的更新是通过触发器来实现??? <br>╃(chris-- 21:35:44<br>  是触发机制,不是触发器<br>╃(chris-- 21:36:07<br>  trigger比较局限 <br>crane- 21:37:01<br>  关于搜索引擎的未来,关于全球海量信息,会不会有这样的问题,就是计算机的性能发展比信息量增加的快,因为历史资料是有限的 ,新的文字资料要人工写的<br>  对于文字的检索也许将来的性能不是问题?!?有没有这种可能<br>   <br>wuyu- 21:37:05<br>  事件触发,我不一定是触发器的,可是是对一个数据实体做一个动作以后触发,或是完成一系列的动作,也就是完成一个业务处理以后做触发 <br>ss- 21:37:14<br>  不可能的 <br>ss- 21:37:25<br>  信息的发展是爆炸性的 <br>ss- 21:37:49<br>  这是指数级别的增长 <br>crane- 21:37:51<br>  爆炸 的信息文字谁来写,要人来写的 <br>ss- 21:38:07<br>  而计算机性能是倍数级的 <br>ss- 21:38:13<br>  很多信息不需要人工输入的 <br>堕入凡间的雨- 21:38:14<br>  解决问题的方式也是! <br>bill-过儿- 21:38:23<br>  可以发明说话转换成字阿 <br>crane- 21:38:30<br>  什么信息不需要人工输入呀 <br>╃(chris-- 21:38:34<br>  呵呵,这个也没有办法,你必须作出一个牺牲,it is a tradeoff. <br>ss- 21:38:37<br>  很多,比如统计数据 <br>crane- 21:38:54<br>bill-过儿- 21:38:23<br>  可以发明说话转换成字阿 <br>  <br>  哦,对 ,这样信息量就大了去了 <br>ss- 21:39:16<br>  还有比如探测器取得的信息 <br>crane- 21:39:24<br>  不过,同样面临着一个问题,一年内一个人说话是有限的 <br>ss- 21:39:30<br>  不一定是说话 <br>╃(chris-- 21:39:31<br>  今天的专题讲座到这结束吧. 我们下次再见.多谢各位的支持.希望matrix能有更多的高手加入进来.欢迎你们. <br>crane- 21:39:33<br>  那不是文字信息了,图形的 <br>wuyu- 21:39:34<br>&quot;内容&quot;-;输出的,或者是他的&ldquo;链接&rdquo;是由jsflash等手段来控制的,这种时候,spider常见的处理机制?有没有简单入门的算法? <br>ss- 21:39:46<br>  图形 文字等等 <br>crane- 21:39:52<br>  晕,谈谈搜索引擎的未来吧 <br>╃(chris-- 21:40:14<br>  这个是html的分析问题,spider肯定有一个完整的html分析器.分析所有js,flash等,这个属于program层面的东西了.呵呵. <br>crane- 21:40:18<br>  技术,基础,历史,都讲了,最后要谈未来 然后收功的&nbsp;&nbsp; <br>堕入凡间的雨- 21:40:21<br>  图形可以建立索引目录呀! <br>╃(chris-- 21:40:28<br>  哈哈,未来无限美好! <br>╃(chris-- 21:40:31<br>  收工! <br>冰云- 21:40:41<br>  &nbsp; <br>ss- 21:40:42<br>  讲了2个小时了 <br>crane- 21:40:45<br>  谢谢 chris <br>ss- 21:40:45<br>  不错 <br>java神化- 21:40:45<br>  &nbsp; <br>拓拔涛- 21:40:46<br>  &nbsp; <br>kiki- 21:40:55<br>  &nbsp;&nbsp; <br>wuyu- 21:40:57<br>  按sun的说法,网络就是计算机,搜索就是信息。 <br>ss- 21:40:59<br>  pppppppppppppppppp <br>ss- 21:41:05<br>  大家鼓掌 <br>wuyu- 21:41:07<br>  &nbsp; <br>wuyu- 21:41:10<br>  献花 <br>╃(chris-- 21:41:11<br>  太累,要不今晚接着把lucene的源码讲一遍,呵呵,下次吧. <br>堕入凡间的雨- 21:41:12<br>  &nbsp; <br>java神化- 21:41:13<br>  明天去报到<br>  听说还要军训&nbsp; 5 <br>农民 - javen- 21:41:15<br>  感谢 chris 的学识与努力,也感谢大家的支持!<br>  <br>  今天晚上到此为止。&nbsp;&nbsp;&nbsp;&nbsp; <br></p>
<p>&nbsp;</p>
<p><font color=#ff0033>chris, matrix站长. 可以通过adongvic at sina dot com与他交流. 或者访问<a href=&quot;http://www.matrix.org.cn/&quot;>www.matrix.org.cn</a>.<br><br clear=all>访问<a href=&quot;http://www.matrix.org.cn/&quot;>www.matrix.org.cn</a> 留意最新的讲座消息</font></p>


 


关键字 本文所属关键字

相关 与本文相关文章

分类 所有文章关键字导航

源码编程相关

Java   Asp   PHP   .Net   XML   C/C++   CGI   VB   Jsp   J2ee   J2se   J2me   EJB   Servlet   Tomcat   Resin   Struts   Weblogic   Eclipse   ANT   GUI   JMS   Web servise   IDEA   Webphere   Hibernate   Spring   Jboss   Applet   Swing   Socket   Javamail   Perl   Ajax   P2P   安全   模式   框架   测试   开源   游戏

SQL数据库相关

My-SQL   Ms-SQL   Access   DB2   Oracle   Sybase   SQLserver   索引   存储过程   加密   数据库   分页   视图  

手机无线相关

3G   Wap   CDMA   GRPS   GSM   IVR   彩信   短信   无线   增值业务

网页设计制作相关

HTML   CSS   网页配色   网页特效   Javascript   VBscript   Dreamweaver   Frontpage   JS   Web   网站设计

网站建设推广相关

建站经验   网站优化   网站排名   推广   Alexa

操作系统/服务器相关

Windows XP   Windows 2000   Windows 2003   Windows Me   Windows 9.x   Linux   UNIX   注册表   操作系统   服务器   应用服务器

图形图像多媒体相关

Photoshop   Fireworks   Flash   Coreldraw   Illustrator   Freehand   Photoimpact   多媒体   图形图像

标准 网站致力的规范

Valid CSS!

无不良内容,无不良广告,无恶意代码

Valid XHTML 1.0 Transitional

creativecommons