关于百度中文分词的猜测和分析

搜索引擎对于浩瀚的网络作出了卓越的贡献，他们将邻散的内容收集起来，随时供用户的查找和分析。如果网络离开了搜索将只剩下空洞的数据。

搜索引擎一般处理用户的数据一般有：抓取页面内容算法,查询处理数据,排名算法,CACHE机制,ANTI-SPAM等等.这些数据的处理方法是做为商业绝密保存起来的，是不会公之于众的.大家所知道的百度中文分词和算法只是外界根据百度猜测和分析出来的

这些技术中百度中文分词是百度的一大优势。百度中文分词查询处理，首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开
一. 处理数据
用户提交查询数据给搜索引擎,搜索引擎接受到用户查询后在后台处理这些数据,在数据库查看是否有匹配的内容，如果有则返回这些匹配的内容.
1.比如：用户提交的信息为”最好的北京网站建设公司”.那么搜索引擎首先做的是根据分隔符比如标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:最好的，北京网站建设，公司三个子字符串;
2. 如果查询的内容有重复的百度中文分词怎么处理呢?比如查询”北京网站建设公司网站建设公司”,百度是将重复的字符串当作同一个内容,等价成了”北京网站建设公司”.
3. 中文包含英文,比如”北京网站建设 ok”,百度的方法是将中文字符串中的英文当作一个整体看待,并以此为断点将中文切分开

二. 百度中文分词
是不是中文字符串百度都会分词下呢?答案是否定的,那么什么样的字符串才满足百度中文分词的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度中文分词程序才派上用场.

百度中文分词是百度在中文处理方面的优势,也是其算法中的一个环节，我们做网站不用去特意考虑百度中文分词算法的，不然把问题复杂化了，只用做好自己该做的内容就可以了，比如用锚文本去固定我们要做的关键字，每天持续有规律的外链等。

NEWS

关于百度中文分词的猜测和分析