社区应用
帖子
相册
日志
群组
热榜
分享
记录
最新帖子
精华区
社区服务
道具中心
会员列表
统计排行
基本信息
到访IP统计
管理团队
管理操作
在线会员
会员排行
版块排行
帖子排行
标签排行
银行
美国主机网
知识库
资源总汇贴
帮助
下拉
用户名
UID
电子邮箱
记住
找回密码
登录
注册
微博帐号登录
内容互通,快速登录
淘宝帐号登录
支付宝登录
我的快捷通道
关闭
您还没有登录,快捷通道只有在登录后才能使用。
立即登录
还没有帐号? 赶紧
注册一个
美国主机支持论坛
落伍中介交易
帖子
日志
用户
版块
群组
帖子
搜索
热搜:
蓝色天空
水墨江南
黑色旋风
绿意盎然
紫色梦幻
书签
开发技术
美国空间
IXWebhosting
公告区
新手求助
本站公告
关闭
选中
1
篇
全选
cpanel控制
修改MYSQL密
我刚买的ju
ixwebhosting
网络爆红神曲《微信爱》直接P倒《伤不起》
google这十年对搜索引擎算法做出的改善
让Apache支持ASP.NET
Q币犯罪产业链揭秘:全程流水线 核心人物90后
新浪与腾讯的开放平台对比
[切换到宽版]
最新帖子
精华区
书签
美国主机支持论坛
>
综合讨论
>
主题敏感PageRank介绍
发帖
回复
« 返回列表
新帖
1815
阅读
0
回复
主题敏感PageRank介绍
本站代购的美国服务器详细列表
usidc5
UID:1
注册时间
2010-02-05
最后登录
2012-05-22
在线时间
486小时
发帖
6979
搜Ta的帖子
精华
49
金币
2566
威望
3026
贡献值
0
元宝
0
访问TA的空间
加好友
用道具
级别:
管理员
发帖
6979
金币
2566
威望
3026
贡献值
0
元宝
0
关注Ta
发消息
只看楼主
更多操作
倒序阅读
复制链接
使用道具
楼主
发表于: 01-17
主题敏感
PageRank
是
PageRank
算法的改进版本,该算法已被
Google
使用在个性化搜索服务中。
6.6.1
主题敏感
PageRank
与
PageRank
的差异
PageRank
算法基本遵循前面章节提到的“随机游走模型”,即用户在浏览某个网页时,如果希望跳转到其它页面,则随机选择本网页包含的某个链接,进入另外一个页面。主题敏感
PageRank
则对该概念模型做出改进,引入了更符合现实的假设。一般来说用户会对某些领域感兴趣,同时,当浏览某个页面时,这个页面也是与某个主题相关的(比如体育报道或者娱乐新闻),所以,当用户看完当前页面,希望跳转时,更倾向于点击和当前页面主题类似的链接,即主题敏感
PageRank
是将用户兴趣、页面主题以及链接所指向网页与当前网页主题的相似程度综合考虑而建立的模型。很明显,这更符合真实用户的浏览过程。
PageRank
是全局性的网页重要性衡量标准,每个网页会根据链接情况,被赋予一个唯一的
PageRank
分值。主题敏感
PageRank
在此点有所不同,该算法引入
16
种主题类型,对于某个网页来说,对应某个主题类型都有相应的
PageRank
分值,即每个网页会被赋予
16
个主题相关
PageRank
分值。
在接受到用户查询后,两个算法在处理方式上也有较大差异。
PageRank
算法与查询无关,只能作为相似度计算的一个计算因子体现作用,无法独立使用。而主题敏感
PageRank
是查询相关的,可单独作为相似度计算公式使用。而且,在接收到用户查询后,主题敏感
PageRank
还需要利用分类器,计算该查询隶属于事先定义好的
16
个主题的隶属度,并在相似度计算时的排序公式中利用此信息。
6.6.2
主题敏感
PageRank
计算流程
主题敏感
PageRank
计算主要由两个步骤构成,第一步是离线的分类主题
PageRank
数值计算;第二步是在线利用算好的主题
PageRank
分值,来评估网页和用户查询的相似度,以按照相似度排序提供给用户搜索结果。下面以具体示例来了解主题敏感
PageRank
的计算流程。
分类主题
PageRank
计算
主题敏感
PageRank
参考
ODP
网站
(
www.dmoz.org
)
,定义了
16
个大的主题类别,包括体育、商业、科技等。
ODP(Open Directory Project)
是人工整理的多层级网页分类导航站点(参见图
6-19
),在顶级的
16
个大分类下还有更细致的小
图
6-19 ODP
首页
粒度分类结构,在最底层目录下,人工收集了符合该目录主题的精选高质量网页地址,以供互联网用户导航寻址。主题敏感
PageRank
采用了
ODP
最高级别的
16
个分类类别作为事先定义的主题类型。
主题敏感
PageRank
对
16
个类别的主题,依次计算该类别的
PageRank
分值,图
6-20
图示了其计算流程和基本思路,为了简化说明,示意图只表现出了三个分类类别。在计算某个类别的
PageRank
分值时,将所有网页划分为两个集合,一个集合是
ODP
对应分类主题下所包括的所有网页,即人工精选的高质量网页,可以称之为集合
S
,剩下的网页放入另外一个集合内,可称之为集合
T
。在计算
PageRank
时,由于集合
S
内的网页能够很好地表征分类主题,所以赋予较大的跳转概率值。通过这种设定,集合
S
内的网页根据链接关系向集合
T
中网页传递权值,因为直接有链接指向的往往主题类似,这样就将与该分类主题内容相似的网页赋予较高的
PageRank
值,而无关的网页则赋予较低权重的
PageRank
分值,以此方式达到对网页所包含主题的判断。
图
6-20
网页的分类主题
PageRank
计算
回到图
6-20
,假设有个编号为
1
号的网页,其被列为
ODP
目录中的艺术类别中,在对艺术类别进行
PageRank
计算时,
1
号网页在集合
S
内,计算结束后,该网页获得的
PageRank
分值为
0.5
。当计算体育和商业类别的主题
PageRank
分值时,
1
号网页在集合
T
中,获得了相应的集合
S
中网页传递的权值,分别为
0.02
和
0.01
。在所有类别计算结束后,
1
号网页获得了
3
个不同主题对应的
PageRank
分值,组成一个主题
PageRank
向量。通过类似的方式,互联网内任意网页也可以获得相应的主题相关
PageRank
向量。通过以上过程可以看出,主题相关的
PageRank
分值向量其实代表了某个网页所讲述内容所属类别的概率。
注意:在上述计算主题
PageRank
过程中,从集合
S
和集合
T
的划分,及其权值传播方式中可以看出,该步骤计算过程也符合“子集传播模型”。但是由于本算法主框架及其出发点都是为了改进
PageRank
,所以将其归入“随机游走模型”的衍生算法类别中。
在线相似度计算
图
6-21
给出了主题敏感
PageRank
在线计算用户查询与网页相似度的示意图。假设用户输入了查询请求“乔丹”,搜索系统首先利用“用户查询分类器”对查询进行分类,计算用户查询隶属于定义好的各个类别的概率分别是多少,在我们给出的例子里,“乔丹”隶属于体育类别的概率为
0.6
,娱乐类别的概率为
0.1,
商业类别的概率为
0.3
。
图
6-21
在线相似度计算
在进行上述用户查询分类计算的同时,搜索系统读取索引,找出包含了用户查询“乔丹”的所有网页,并获得上一步骤离线计算好的各个分类主题的
PageRank
值,在图
6-21
的例子里,假设某个网页
A
的各个主题
PageRank
值分别为体育
0.2
,娱乐
0.3
以及商业
0.1
。
得到用户查询的类别向量和某个网页的主题
PageRank
向量后,即可计算这个网页和查询的相似度。通过计算两个向量的乘积就可以得出两者之间的相关性。在图
6-21
的例子里,网页
A
和用户查询“乔丹”的相似度为:
Sim(
“乔丹”
,A)= 0.6*0.2+0.1*0.3+0.3*0.1=0.18
对包含“乔丹”这个关键词的网页,都根据以上方法计算,得出其与用户查询的相似度后,就可以按照相似度由高到低排序输出,作为本次搜索的搜索结果返回给用户。
6.6.3
利用主题敏感
PageRank
构造个性化搜索
以上内容介绍的是主题敏感
PageRank
的基本思想和计算流程,从其内在机制来说,这个算法非常适合作为个性化搜索的技术方案。
在图
6-21
所示例子里,计算相似度使用的只有用户当前输入的查询词“乔丹”,如果能够对此进行扩展,即不仅仅使用当前查询词,也考虑利用用户过去的搜索记录等个性化信息。比如用户之前搜索过“耐克”,则可以推断用户输入“乔丹”是想购买运动服饰,而如果之前搜索过“姚明”,则很可能用户希望获得体育方面的信息。通过这种方式,可以将用户的个性化信息和当前查询相融合来构造搜索系统,以此达到个性化搜索的目的,更精准的提供搜索服务。
本帖最近评分记录:
共
条评分
隐藏
关键词:
google
搜索引擎
算法
QQ: 378890364 微信:wwtree(省短信费) 紧急事宜发短信到0061432027638
欢迎加入本论坛超级QQ群:122538123
回复
引用
举报
顶端
发帖
回复
« 返回列表
http://www.usidcbbs.com
访问内容超出本站范围,不能确定是否安全
继续访问
取消访问
描述
快速回复
您目前还是游客,请
登录
或
注册
限 100 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容
进入高级模式
加粗
字体颜色
背景颜色
插入链接
图片
提 交
回复后跳转到最后一页
上一个
下一个
隐藏
快速跳转
公告区
本站公告
站长工具箱
邮箱搜索、网站地图工具
其他站长工具
综合讨论
综合讨论
开发技术
网站优化
新手求助
美国空间
IXWebhosting
Godaddy
Justhost
Hostgator
美国VPS
Photonvps
美国服务器
Serverpoint
LUCN
Krypt
FDC
100TB/Softlayer
站长专区
谈天说地
网赚流量
关闭