〃長官"(4651130) 14:57:53
今天我来给大家讲下 搜索引擎的分词机制
〃長官"(4651130) 14:57:58
准备下 马上就开始
〃長官"(4651130) 15:00:36
在搜索引擎中 用户提交的搜索内容会被后台提交到数据库与数据库中的数据来对比,从中调出相应的数据。(这些东西做程序的可能了解)与普通网站的站内搜索类似
〃長官"(4651130) 15:01:38
下面举例:
比如你想要搜索的是 “京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹”这个语句的时候
〃長官"(4651130) 15:02:40
如果搜索引擎 直接用 你段话与数据库中的数据来对比。肯定搜索不出来任何数据。
因为 这个是我自己随便写的。
〃長官"(4651130) 15:03:26
但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词 和英文分词
〃長官"(4651130) 15:03:42
今天主要说中文 英文以后在说
〃長官"(4651130) 15:04:50
当它用了分词后,用过动易CMS系统的朋友,应该知道。他们采集后的数据,会把标题分割成2个字一组的关键词。
〃長官"(4651130) 15:04:58
比如:京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹
〃長官"(4651130) 15:05:55
这个标题 动易的分词机制是这么分:京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹
它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的
技术含量在里面。
〃長官"(4651130) 15:06:39
之所以 把词拆分开,就是为了与数据库中的相应数据来对比
〃長官"(4651130) 15:08:10
搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!这些后面有介绍)
〃長官"(4651130) 15:09:03
京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹
〃長官"(4651130) 15:09:35
也可以这样分
〃長官"(4651130) 15:10:42
京珠高速|的|火车出轨|并且|无一人|伤亡|天上|也|掉下|冰雹
〃長官"(4651130) 15:11:51
怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系
〃長官"(4651130) 15:12:22
比如
百度搜索引擎
〃長官"(4651130) 15:13:23
这样可以简单的看出他是怎么分的
〃長官"(4651130) 15:13:27
〃長官"(4651130) 15:14:45
京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹
〃長官"(4651130) 15:16:02
京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹
〃長官"(4651130) 15:17:22
下面来看看百度搜索引擎中的分词的理解与实践
〃長官"(4651130) 15:17:48
〃長官"(4651130) 15:18:15
大家可以看到 这个是百度中的分法(不能一概而论)
〃長官"(4651130) 15:19:07
可以看出 我在上面所规划出的词
〃長官"(4651130) 15:19:10
〃長官"(4651130) 15:16:02
京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹
〃長官"(4651130) 15:19:13
这个来`
〃長官"(4651130) 15:19:41
〃長官"(4651130) 15:20:01
而第二个呢
〃長官"(4651130) 15:20:08
就与上面有些出入了
〃長官"(4651130) 15:21:08
这些就是在 数据库中 所存的数据 也可以说是字典
〃長官"(4651130) 15:21:17
http://www.baidu.com/s?wd=%BE%A9%D6%E9%B8%DF%CB%D9%B5%C4%BB%F0%B3%B5%B3%F6%B9%EC%B2%A2%C7%D2%CE%DE%D2%BB%C8%CB%C9%CB%CD%F6+%CC%EC%C9%CF%D2%B2%B5%F4%CF%C2%B1%F9%B1%A2&cl=3〃長官"(4651130) 15:21:26
大家可以打开这个地址看一下
〃長官"(4651130) 15:21:28
一会在看哦
〃長官"(4651130) 15:23:20
当 这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词
〃長官"(4651130) 15:23:54
也就是相当于 比如搜索的是某个成语
〃長官"(4651130) 15:24:37
胸有成竹 东山再起
〃長官"(4651130) 15:25:02
刚刚我用的是只能ABC打出来的
〃長官"(4651130) 15:25:49
直接拼音出来 胸有成竹 东山再起 这两个就能直接打出来。搜索引擎的数据库 原理是类似
〃長官"(4651130) 15:26:45
比如你刚刚搜索的是 胸有成竹 这个成语
〃長官"(4651130) 15:27:04
http://www.baidu.com/s?wd=%D0%D8%D3%D0%B3%C9%D6%F1&lm=0&si=&rn=10&ie=gb2312&ct=0&cl=3&f=12〃長官"(4651130) 15:27:29
〃長官"(4651130) 15:27:57
百度中主要是先用这个词来与数据库中的数据来对比
〃長官"(4651130) 15:29:01
如果 数据库中的数据有这个词 那么就先从这写词开始,然后在晒选,根据百度的规则,竟价等 来顺序的显示数据
〃長官"(4651130) 15:29:40
http://www.baidu.com/s?ie=gb2312&bs=%D0%D8%D3%D0%B3%C9%D6%F1&sr=&z=&cl=3&f=8&wd=%D0%D8%D3%D0+%B3%C9%D6%F1&ct=0〃長官"(4651130) 15:30:06
当中间出现空格的话 胸有 成竹
〃長官"(4651130) 15:30:39
这就自动当成2个词语来算
〃長官"(4651130) 15:30:36
〃長官"(4651130) 15:31:35
当你搜索拼音的时候
为什么岢鱿窒嘤Φ氖菽?
〃長官"(4651130) 15:31:57
http://www.baidu.com/s?wd=tiananmen&cl=3〃長官"(4651130) 15:32:22
〃長官"(4651130) 15:32:42
因为他们的数据库中有拼音对比中文的数据库
〃長官"(4651130) 15:33:10
cpu(330327631) 15:33:30
长官图片出不来
〃長官"(4651130) 15:33:54
〃長官"(4651130) 15:34:15
现在 本来搜索的是拼音tiananmen 而排在前面的是中文的,这就是百度讨厌的地方,因为他想怎么做就怎么做
〃長官"(4651130) 15:35:00
http://www.baidu.com/s?ie=gb2312&bs=%B3%C2%B9%DA%CF%A1&sr=&z=&cl=3&f=8&wd=%C4%E3%BA%C3%B6%C8&ct=0〃長官"(4651130) 15:35:27
〃長官"(4651130) 15:35:43
还有错别字纠正
〃長官"(4651130) 15:37:21
他这些,也是从数据库中来对比的。
个人认为他们是在临时的数据库。
当一个词搜索量高的时候,这个词就会写入临时数据库中,来对比
〃長官"(4651130) 15:38:06
下面简单的介绍下GG的
〃長官"(4651130) 15:38:54
http://www.google.cn/search?hl=zh-CN&q=%E4%BA%AC%E7%8F%A0%E9%AB%98%E9%80%9F%E7%9A%84%E7%81%AB%E8%BD%A6%E5%87%BA%E8%BD%A8%E5%B9%B6%E4%B8%94%E6%97%A0%E4%B8%80%E4%BA%BA%E4%BC%A4%E4%BA%A1+%E5%A4%A9%E4%B8%8A%E4%B9%9F%E6%8E%89%E4%B8%8B%E5%86%B0%E9%9B%B9&meta=&aq=f〃長官"(4651130) 15:39:07
还是上面那句话,京珠高速的火车出轨并且无一人伤亡 天上也掉下冰雹
〃長官"(4651130) 15:40:00
大家可以看到 GG的中文确实不如百度做的好
〃長官"(4651130) 15:40:16
〃長官"(4651130) 15:41:03
这些搜索字词都已标明如下: 京 并且 无 天上 也 掉 下
这些搜索字词仅在指向此网页的链接中出现: 珠 高速 火车 出轨 一人 伤亡 冰雹
〃長官"(4651130) 15:41:17
这些是GG中标明的
〃長官"(4651130) 15:42:28
京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下冰雹(掉下)(冰雹)
这些是我之前所根据自己的思维来划分的词
〃長官"(4651130) 15:43:46
搜索引擎中 还有一个重点就是
〃長官"(4651130) 15:45:03
当这个词出现的时候 他们做的是 从左到右或者是 从右到左 这么判断分析
〃長官"(4651130) 15:46:08
http://www.baidu.com/s?ie=gb2312&bs=%CC%EC%CC%EC+%D7%AC%C7%AE&sr=&z=&cl=3&f=8&wd=%CC%EC%CC%EC%D7%AC%C7%AE&ct=0〃長官"(4651130) 15:46:15
http://www.baidu.com/s?ie=gb2312&bs=%CC%EC%CC%EC%D7%AC%C7%AE&sr=&z=&cl=3&f=8&wd=%D7%AC%C7%AE%CC%EC%CC%EC&ct=0〃長官"(4651130) 15:46:49
大家可以看这两个词的 相关网页数量是相同的 都是4,120,000篇
〃長官"(4651130) 15:48:00
以上就是搜索引擎中的分词机构
注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性
〃長官"(4651130) 15:48:14
〃長官"(4651130) 15:48:00
以上就是搜索引擎中的分词机制
注明:以上信息全是我个人经过这几年从体验中判断的,并不表示一定的正确性
〃長官"(4651130) 15:48:16
打错字了
〃長官"(4651130) 15:49:42
补充一下 如果你搜索完天天赚钱这个词后,在和天天 赚钱这两个词对比一下,如果相同,就说明这个是搜索中的分词
〃長官"(4651130) 15:49:53
解释下上面说到的数据库
刷新(287835456) 15:52:23
〃長官"(4651130) 15:52:29
一会我去论坛上发表,在有一个就是补充,书本汉语自动分词系统-cdwd.PDF电子书
上面结实的比较详细
如果数学好的朋友 可以根据算法 体验中间的奥秘
好好学习(172088368) 15:52:35
辛苦长官了!
〃長官"(4651130) 15:52:37
谢谢大家 今天到这里 `
好好学习(172088368) 15:53:45
我有个小问题想请教下,如果一个词搜索得多,对网站有什么帮助吗?
百谷-魏良(59955110) 15:54:03
关于搜索引擎的分词机制的相关问题?
关于搜索引擎的分词机制的相关问题?请大家把自己的问题贴出来,我们及时 给你解答!
http://www.baigu.org/thread-434-1-1.html