下面给出的全是WINDOWS自带的API函数,可以用于VB和VC中。给出的是函数名和函数功能。想知道细节可以用GOOGLE搜一下。这可以做为一个索引来用。
继续阅读…
ERP(企业资源计划)
ERP为Enterprise Resource Planning的缩写,中文翻译为”企业资源计划”。企业资源计划ERP(enterprise resources planning)一词是由Gartner Group. Inc咨询顾问与研究机构于20世纪90年代初提出来的。GGI提出了ERP概念及其内涵,面向供需链的管理。把ERP界定内容超越了MRP II,信息集成范围更为广阔,并且支持动态监控,支持多行业、多地区、多模式或混合式。ERP具有强大的系统功能,灵活的应用环境和实时控制能力,是制造 业未来信息时代的一种管理信息系统。ERP是目前企业管理信息系统中十分流行的一种形式,大多数的ERP系统在全面解决企业在供销存、财务、计划、质量、 制造等核心业务问题方面均能起到良好的作用并产出效益。ERP的意义在于以经营资源最佳化为出发点,整合企业整体的业务管理,并最大限度企业经营的效率。 ERP的概念也是有一个发展的过程,企业最早关注物料、库存(MRP),后延伸到生产计划和制造(MRPII),随着管理外延和产品功能的不断发展,一个 比较完整的制造业ERP系统应该包含了MRP和MRPII,不过今天的ERP的概念外延可能更加广泛,几乎是企业信息化的代名词。
MRP(物料需求计划)
MRP为Material Requirement Planning的缩写,中文译为”物料需求计划”。MRP是在定货点法(order point system)计划基础上发展形成的一种新的库存计划与控制方法,是建立在计算机基础上的生产计划与库存控制系统。 其主要内容包括客户需求管理、产品生产计划、原材料计划以及库存纪录。其中客户需求管理包括客户订单管理及销售预测,将实际的客户订单数与科学的客户需求 预测相结合即能得出客户需要什么以及需求多少。应注意的是,客户需求预测应是科学的预测,而不是主观的猜测或只是一个主观的愿望。产品生产计划指的是最终 将生产的产品的时间和数量,这将成为决定需要多少劳动力和设备以及需要多少原材料和资金的依据。产品生产计划应是客户需求与现有库存量比较的结果。产品生 产计划要求非常精确,因为不准确的产品生产计划有可能导致资源浪费或是不能满足客户的需求。原材料计划是在产品生产计划的基础上制订的原材料需求计划,表 示要生产所需要的产品而需要准备的原材料的具体情况。而在确定购买原材料之前,需要检查现有库存纪录,并通过比较得实际的购买量,因此,保证库存数据的准 确性尤为重要。
MRPII(制造资源计划)
MRPII是Manufacturing Resource Planning的缩写,中文为”制造资源计划”。MRP II是在20世纪70年代未到80年代初诞生的。MRP II系统在全面继承MRP和闭环MRP基础上,把企业宏观决策的经营规划、销售/分销、采购、制造、财务、成本、模拟功能、准时生产JIT(just in time)和适应国际化业务需要的多语言、多币制、多税务,以及计算机辅助设计CAD(computer aided design)技术接口等功能纳入,形成了一个全面生产管理集成化系统,即MRP II = MRP ++。 MRPII对企业的最大作用是它使得企业能够根据未来的客户需求考察对目前生产、资金以及对原材料的影响,并据此加以应对。MRPII指的是一个整体的数 据库系统,企业的各个环节都可以根据自身的需求使用这个系统以便对企业的所有资源进行规划和监督并创造利润的最大化。其主要作用在于:1、减少了产品库存 时间;2、提高客户满意度;3、减少了库存量、降低产品成本;4、提高劳动生产力;5、提高设备利用;6、减少运输成本。
MTL(物料管理系统)
MTL为Material Management System的缩写,中文为”物料管理系统”,主要作用为针对物料的分类、编码原则、描述、特性、储存、建立日期、外观、影象、库存量等非数量与金额的基 本资料进行管理。物料管理系统为ERP系統实施的基础系统。
SCM(供应链管理)
SCM为Supply Chain Management的缩写,中文为”供应链管理”。产品由原材料转换成成品并交换到最终用户手上的过程中,由影响其执行效率的个体组成的流通路径被称作 供应链,其组成可能包括:供应商→制造商→工厂→批发商→零售商→最終用户。供应链管理关注的是如何通过需求与供应间适当的结合以使资源的利用和分配的效 益达到最高,或称”少花钱,多办事”。
CRM(客户关系管理)
CRM是Customer Relationship Management缩写,中文为”客户关系管理”。由于消费者的消费者意识逐渐加强,顾客已由过去的被动接受,转变为主动寻求自我需求,因此注重满足个 性差异的顾客需求将是企业间的竞争趋势。在客户导向的时代,只有积极的个性化服务,才能提高消費者的忠诚度,抓住客戶的心。客户关系管理关注的就是如何通 过不断的沟通了解并影响顾客的行为,通过分析对顾客有效并可供参考的信息,增加新客户、留住老客户,根据客户的个性化需求提供专为客户量身订做的服务以提 高客户的满意度并改善客户的利润贡献度。
EDI(电子数据交换)
EDI为Electronic Data Interchange的缩写,中文译为”电子数据交换”,是指在不同企业或组织间,依据一定的交换标准,将业务往来的资料转换成标准化的格式,以电子形 式在彼此的电脑之间进行传输,以降低人工操作的错误率及信息处理成本,并提高文件处理效率,改善客戶服务质量的一种管理系统工具。
SFA (销售队伍管理系统)
SFA是Sales Force Automation缩写,中文为”销售队伍管理系统”。”销售队伍管理系统”是CRM客户关系管理系统中的重要组成部分,重点解决销售队伍的管理和控 制。包括,潜在客户基本信息库、购买意向、竞争对手情况、销售过程的监控,还有销售队伍的管理和控制。特别适合客户比较多、周期比较长、需要介入的人员比 较多的企业。
CAD(计算机辅助设计)PDM(产品数据管理系统)
CAD(Computer Aided Design)计算机辅助设计,PDM(Product Data Management)产品数据管理系统。CAD是制造业企业产品设计时非常重要的工具,运用大量的、非常复杂的数学模型进行计算,大大减轻了手工绘图的 设计模式时代的工作量,极大地提高了设计效率。PDM则是更加复杂的产品数据管理系统,基本上涵盖了CAD设计时的产品数据,加强了对产品生命周期、产品 数据的管理。
最后40天!
这个学期,开学到现在,在准备材料的过程,选研究项目,写计划、论文等材料。总觉得时间过得飞快,到全部搞定,寄出材料 后,这里要谢谢echo,是她让我最终下定决心。也要谢谢钱老师,准备材料过程中,帮我不少忙。以后真不知该如何谢谢他。报考这个学校也是对自己的一个挑 战。也是自己人生上的一个重要转折点。
离最后的也只有后40天。加油吧。希望最后的抱佛脚,能给自己带来好运。一直记着小时候,父母说的 话,一代要比一代强,为了这个目标,也为了自己,echo努力吧。不过,不知道为什么,在准备材料过程,随着日子的渐进,自己反而觉得信心十足。天时,地 利,人和,我都占了,没有理由无法成功。Trust myself,i’m the best!对于自己的未来,我总是充满信心。
开了 blog了,自己也没上几次。又有点顺应了自己的性格,做事凭一时冲动。看来老爸说得没错。出国后,我改变了很多以前的看法。对人,对事,对自己。现在才 发现以前自己,竟然是个自私、固执、保守、脾气燥的人,还有严重莆田男子典型的大男人主义。对于自己周边的东西,总是要求十全十美,进而言之,就是以自己 的观点来评价,ng的就必须按自己的思路去改,直到自己满意为止。有时我都觉得自己有点象老太婆,唠唠叨叨,有点神经质。也发现以前的自己自信过头成自负 了。总觉得自己什么都对,也许是工作上的一点成绩蒙住了自己的双眼,就好像戴着一副磨砂眼睛看一样。改吧,慢慢改吧。出国后,卸去了原来工作上的压力,考 虑的事情没以前那么多,那么复杂了,自己觉得人轻松了很多,思想上也单纯很多,有点找到了大学年代的感觉,好好地反省了自己,为自己的未来做了计划。
Google的PageRank算法学习1.2.3,网上转载的。做seo的可以看看吧。
Google的PageRank算法学习一
1、Google PageRank(网页级别)介绍
Google的核心软件称为 PageRank(网页级别),这是由Google创始人 Larry Page 和 Sergey Brin 在斯坦福大学开发出的一套用于网页评级的系统,网页级别(PageRank)是所有Google网络搜索工具的基础。
作 为组织管理工具,网页级别(PageRank)利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页 A 链接到网页 B 时,Google 就认为”网页 A 投了网页 B 一票”。Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。”重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的”重要性”。重要的、高质量的网页会获得较高的网页级别。 Google 在排列其搜索结果时,都会考虑每个网页的级别(PageRank)。当然,如果不能满足您的查询要求,网页级别(PageRank)再高对您来说也毫无意 义。因此,Google 将网页级别(PageRank)与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。 Google 以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。虽然Google也在搜索结果旁刊登相关广告,但没人能花钱买到更高的网页级别 (PageRank),从而保证了网页排名的客观公正。
google自己对于pagerank的解释如下:
PageRank Explained
PageRank relies on the uniquely democratic nature of the web by using its vast link structure as an indicator of an individual page’s value.In essence, Google interprets a link from page A to page B as a vote, by page A, for page B. But, Google looks at more than the sheer volume of votes, or links a page receives; it also analyzes the page that casts the vote. Votes cast by pages that are themselves “important” weigh more heavily and help to make other pages “important.”
Important, high-quality sites receive a higher PageRank, which Google remembers each time it conducts a search. Of course, important pages mean nothing to you if they don’t match your query. So, Google combines PageRank with sophisticated text-matching techniques to find pages that are both important and relevant to your search. Google goes far beyond the number of times a term appears on a page and examines all aspects of the page’s content (and the content of the pages linking to it) to determine if it’s a good match for your query.
返回顶端
2、PageRank算法1
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
其中:PR(A):页面A的网页级别,
PR(Ti):页面Ti的网页级别,页面Ti链向页面A,
C(Ti):页面Ti链出的链接数量,
d:阻尼系数,取值在0-1之间.
由 此可见,1)这个算法不以站点排序,页面网页级别由一个个独立的页面决定;2)页面的网页级别由链向它的页面的网页级别决定,但每个链入页面的贡献的值是 不同的。如果Ti页面中链出越多,它对当前页面A的贡献就越小。A的链入页面越多,其网页级别也越高;3)阻尼系数的使用,减少了其它页面对当前页面A的 排序贡献。
返回顶端
3、随机冲浪模型
Lawrence Page 和 Sergey Brin 提出了用户行为的随机冲浪模型,来解释上述算法。他们把用户点击链接的行为,视为一种不关心内容的随机行为。而用户点击页面内的链接的概率,完全由页面上 链接数量的多少决定的,这也是上面PR(Ti)/C(Ti)的原因。一个页面通过随机冲浪到达的概率就是链入它的别的页面上的链接的被点击概率的和。阻尼 系数d的引入,是因为用户不可能无限的点击链接,常常因劳累而随机跳入另一个页面。d可以视为用户无限点击下去的概率,(1-d)则就是页面本身所具有的 网页级别。
返回顶端
4、PageRank算法2(对算法1的修订)
PR(A) = (1-d) / N + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
其中N是互联网上所有网页的数量
由此,所有页面的网页级别形成的一个概率分布,所有页面的网页级别之和是1。在算法1中,随机冲浪访问某个页面的概率由互联网的总页数决定,在算法2中,网页级别是一个页面被随机访问的期望值。
以下讲解,皆基于算法1,主要是计算简单,因为不用考虑N的值。
返回顶端
5、PageRank的特性
有页面的网页级别之和等于互联网的总页数。在网页数比较少的情况下,网页级别方程可以解出,而面对互联网上成亿的网页,再解方程是不可能的。
此处设阻尼系数为0.5,虽然Lawrence Page 和 Sergey Brin在实际将其设为0.85.
PR(A) = 0.5 + 0.5 PR(C)
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B))
解得:
PR(A) = 14/13 = 1.07692308
PR(B) = 10/13 = 0.76923077
PR(C) = 15/13 = 1.15384615
有:
PR(A)+PR(B)+PR(C)=3
返回顶端
6、迭代计算pagerank
Google 采用一种近似的迭代的方法计算网页的网页级别的,也就是先给每个网页一个初始值,然后利用上面的公式,循环进行有限次运算得到近似的网页级别。根据 Lawrence Page 和 Sergey Brin公开发表的文章,他们实际需要进行100次迭代才能得到整个互联网的满意的网页级别值,这儿的例子只用了10多次就可以了。在迭代的过程中,每个 网页的网页级别的和是收敛于整个网络的页面数的。所以,每个页面的平均网页级别是1,实际上的值在(1-d)和(dN+(1-d))之间。
迭代次数
PR(A)
PR(B)
PR(C)
0
1
1
1
1
1
0.75
1.125
2
1.0625
0.765625
1.1484375
3
1.07421875
0.76855469
1.15283203
4
1.07641602
0.76910400
1.15365601
5
1.07682800
0.76920700
1.15381050
6
1.07690525
0.76922631
1.15383947
7
1.07691973
0.76922993
1.15384490
8
1.07692245
0.76923061
1.15384592
9
1.07692296
0.76923074
1.15384611
10
1.07692305
0.76923076
1.15384615
11
1.07692307
0.76923077
1.15384615
12
1.07692308
0.76923077
1.15384615
返回顶端
7、Google搜索引擎的网页级别的实现
有三个因素决定的网页的等级:网页特定性因素、入链锚的文本、网页级别。
网页特定性因素包括网页的内容、标题及URL等。
为提供检索结果,Google根据网页特定性因素和入链锚的文本计算出网页的IR值,这个值被检索项在页面中的位置和重要性加权,以决定网页和检索请求相关性。IR值和网页级别联合标志网页的基本重要程度,这两个值的联合方式有多种,但明显的是不能相加的。
由于网页级别只对非特定的单个词的检索请求影响比较明显,对于由多个检索词构成的检索请求,内容相关性的分级标准的影响更大。
返回顶端
8、用Google工具条显示当前页面的网页级别(PAGERANK)
Google工具条是Google公司开发的IE插件,需要从Google下载并安装。注意,显示网页级别的功能是其高级功能,这时会自动收集用户的信息,并会自动升级工具条。
这个工具条显示的网页级别分为0-10共11级,如果根据理论用(Nd+(1-d))测算,假定d=0.85,则推测实际网级别的对数即为显示的级别,且对数的基数在6-7之间。
参考文献1中给出了一个方法,可以不经过toolbar就可以取得网站主页的网页级别,可惜因为版本或别的原因,已经不可行。下面我根据提示在IE缓冲目录里找到http://xagoogle.com的获取URL.
http://216.239.33.104/search?cli … ong%2E3322%2Eorg%2F
我的主页的网页级别是0。 isaac和chedong的分别是5和4。
返回顶端
9、Google的目录服务可以显示网站的pagerank
此处级别分为7级。有人对两种级别进行了比较
PageRank算法学习<二>
1、入链对计算页面级别的影响
入链总是能增加当前页面的级别,尤其当前页与其下级页面构成回路时,这种贡献更大。如右图例,设ABCD各页初始级别为1,阻尼系数为0.5,PR(X)/C(X)=10。则易算出
PR(A) = 19/3 = 6.33
PR(B) = 11/3 = 3.67
PR(C) = 7/3 = 2.33
PR(D) = 5/3 = 1.67
如果A不在回路上,则只能得0.5*10=5的收益。
阻尼系数越大,页面级别的收益越大,且整个回路上都能收到更大的收益(即入链收益更能平均地分布到各个回路页面上。针对上例,将阻尼系数改为0.75,则有
PR(A) = 419/35 = 11.97
PR(B) = 323/35 = 9.23
PR(C) = 251/35 = 7.17
PR(D) = 197/35 = 5.63
除回路上各个页面的级别值明显增大外,PR(A)/PR(D)的值敢明显减少了。
入链对整个回路上所有页面的级别值的增加之和,可以由下面这个公式得出.
(d / (1-d)) × (PR(X) / C(X))
这个公式,可以由简单推导出。
返回顶端
2、出链对计算页面级别(pagerank)的影响
增加出链不会影响整个web的总级别,但一个站点失去的级别值等于链到的站点的增加值之和。对于两个封闭的站点,从一个站点链上另一个站点时,增加的和 减少的都是(d(/(1-d) × (PR(X) / C(X)).如果这两个站点互相链接,则此值减少。用随机冲浪模型可以解释这种现象,就是出链的增加,减少了用户访问站内页面的概率。举例如图,设阻尼系 数为0.75,则
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR(C)
得:
PR(A) = 14/23
PR(B) = 11/23
PR(C) = 35/23
PR(D) = 32/23
PR(A)+PR(B)=25/23
PR(C)+PR(D)=67/23
PR(A)+PR(B)+PR(C)+PR(D)=92/23=4
Page和Brin将这样的链接称为悬摆链,它链到页面没有出链。悬摆链对页面的级别计算产生负面影响。如例,阻尼系数为0.75.
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.375 PR(A)
得:
PR(A) = 14/23
PR(B) = 11/23
PR(C) = 11/23
PR(A)+PR(B)+PR(C)=36/23<3
据Page和Brin,Google在索引页面时,悬摆链的量很大,主要是由于限制robot.txt的限制及索引了一些没有链出的文件类型如PDF 等。为消除这种负面影响,google在计算级别时,将此类链接从数据库里去掉,在计算完毕后,再单独计算悬摆链所链到页面。由此可见,PDF类的文件还 是可以放心地在网上发布的。
、页面数量对pagerank的影响
先看例子。阻尼系数为0.75,PR(X)/C(X)=10,则
PR(A) = 0.25 + 0.75 (10 + PR(B) + PR(C))
PR(B) = PR(C) = 0.25 + 0.75 (PR(A) / 2)
得:
PR(A) = 260/14
PR(B) = 101/14
PR(C) = 101/14
PR(A)+PR(B)+PR(C)=33;
增加页面D;
PR(A) = 0.25 + 0.75 (10 + PR(B) + PR(C) + PR(D))
PR(B) = PR(C) = PR(D) = 0.25 + 0.75 (PR(A) / 3)
得
PR(A) = 266/14
PR(B) = 70/14
PR(C) = 70/14
PR(D) = 70/14
PR(A)+PR(B)+PR(C)+PR(D)=34
增加页面后,所有页面的级别值之和增加了1,A页略有增加,而B、C则用大幅下降。
再看右边的例子,假定同上。
PR(A) = 0.25 + 0.75 (10 + PR(C))
PR(B) = 0.25 + 0.75 × PR(A)
PR(C) = 0.25 + 0.75 × PR(B)
得:
PR(A) = 517/37 = 13.97
PR(B) = 397/37 = 10.73
PR(C) = 307/37 = 8.30
增加页面D:
PR(A) = 0.25 + 0.75 (10 + PR(D))
PR(B) = 0.25 + 0.75 × PR(A)
PR(C) = 0.25 + 0.75 × PR(B)
PR(D) = 0.25 + 0.75 × PR(C)
得:
PR(A) = 419/35 = 11.97
PR(B) = 323/35 = 9.23
PR(C) = 251/35 = 7.17
PR(D) = 197/35 = 5.63
增加页面后,所有页面级别增加了1,但每个页面的级别值减少了,这是由于新加页面分享了入链代来的值。从这个结果看,增加页面减少了已有页面的级别值,露了google算法青睐小站点的特点。当然,大站点也会因内容丰富而吸引其它站点的出链而得以级别值增加。
返回顶端
4、针对搜索引擎优化的级别分布
先看两个列子,阻尼系数为0.5,PR(X)/C(X)=10;
BC之间无链接时:
PR(A) = 0.5 + 0.5 (10 + PR(B) + PR (C))
PR(B) = 0.5 + 0.5 (PR(A) / 2)
PR(C) = 0.5 + 0.5 (PR(A) / 2)
得
PR(A) = 8
PR(B) = 2.5
PR(C) = 2.5
BC之间互相链接时:
PR(A) = 0.5 + 0.5 (10 + PR(B) / 2 + PR(C) / 2)
PR(B) = 0.5 + 0.5 (PR(A) / 2 + PR(C) / 2)
PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B) / 2)
得:
PR(A) = 7
PR(B) = 3
PR(C) = 3
当BC 间互链时,虽然减少了A的级别,但BC都增加了。这符合优化站点所有页面而非只主页的优化思路,因为只有每个页面的级别都提高了,当有检索词命中这些页面 时,它们才能排在前面。这种优化的方法也很明显了,就是尽可能地在所有页面间平均分布入链的贡献,各低级页面要增加互链。
返回顶端
5、出链连接技巧
只要不影响易用性,尽可能地将所有出链集中在一个或几个低级页面中,可以有效地降低出链对页面级别计算的负面影响。看列子:阻尼系数为0.5,PR(X)/C(X)=10;
BCD都有出链时:
PR(A) = 0.5 + 0.5 (PR(B) / 2 + PR(C) / 2 + PR(D) / 2)
PR(B) = PR(C) = PR(D) = 0.5 + 0.5 (PR(A) / 3)
得:
PR(A) = 1
PR(B) = 2/3
PR(C) = 2/3
PR(D) = 2/3
出链集中于D时:
PR(A) = 0.5 + 0.5 (PR(B) + PR(C) + PR(D) / 4)
PR(B) = PR(C) = PR(D) = 0.5 + 0.5 (PR(A) / 3)
得:
PR(A) = 17/13
PR(B) = 28/39
PR(C) = 28/39
PR(D) = 28/39
从结果看,出链集中后,ABCD各页面的级别都上升了。
返回顶端
6、交换连接的特性
链接交换增加了实施交换的页面的级别,却减少了其它页面的级别。如图,阻尼系数为0.5,PR(X)/C(X)=10;
交换前,
PR(A) = 4/3
PR(B) = 5/6
PR(C) = 5/6
PR(D) = 4/3
PR(E) = 5/6
PR(F) = 5/6
交换后;
PR(A) = 0.5 + 0.5 (PR(B) + PR(C) + PR(D) / 3)
PR(B) = PR(C) = 0.5 + 0.5 (PR(A) / 3)
PR(D) = 0.5 + 0.5 (PR(E) + PR(F) + PR(A) / 3)
PR(E) = PR(F) = 0.5 + 0.5 (PR(D) / 3)
得
PR(A) = 3/2
PR(B) = 3/4
PR(C) = 3/4
PR(D) = 3/2
PR(E) = 3/4
PR(F) = 3/4
这情况恰好与增加站内互链的效果相反。由此,当需要对主页进行针对某一关键词的优化时,才取交换链接是可取的。
例中级别值的重新分布,更基本的前提是两个站点中参考交换的页面互相为对方提供的级别值是相等的。如果一个站的某个页面级别高或少出链,则这个站所有页 面的级别会降低。这儿一个重要的影响因素是站点页面的数量。当一个站点的页面更多时,有更多的入链级别值被分布到站点的其它页面中,因而参考交换的页面不 能提供更多贡献给对方。
Google的PageRank算法学习三
1、其他有关PageRank的观点
很 多针对搜索引擎做网站优化的专家,认为google给一些特殊站点以特定的级别而不是按前述算法进行计算,这些网站的级别很有可能来在Yahoo或ODP (Open Directory Project)。Lawrence Page在他们的专利说明中,提到随机冲浪模型中,用记不愿继续点击时,很有可能借助Yahoo的目录或ODP到另一个站点去。
由于前述的算法,无论初始的级别值如何,经过足够次数的迭代最终结果都是一样的,所以对这些特殊站点可能采用下述的公式。
PR(A) = E(A) (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
从另一个角度来看,如果给页面赋一个跟其实际级别相近的初始值,可以明显减少迭代次数。
返回顶端
2、影响页面级别的其它因素
在Lawrence Page和Sergey Brin关于PageRank的论文发表以后,除了web的链接结构以外,还有没有别的因素被加到PageRank的算法当中曾经有过广泛地讨论。 Lawrence Page本人在PageRank的专利说明中曾指出以下潜在的影响因素:链接的能见度,链接在文档中的位置,web页面间的距离,出链页面的重要性,页面 的不过时。这此因素的增加,可以更好用随机冲浪模型模拟人类利用web的行为。
不管上述附加因素有没有在实际计算PageRank时使用,如何实现这些附加因素仍要讨论。
首先算法公式需要改进.
PR(A) = (1-d) + d (PR(T1)×L(T1,A) + … + PR(Tn)×L(Tn,A))
此处,L(T1,A)是入链的评价值,由几个因素构成,只需要在迭代前计算一次,减少了对数据库的查询次数,虽然每次迭代的查询结果会有不同。
Lawrence Page在PageRank的专利说明中指出链接评价的两个因素是链接的可见性和在文档中的位置。链接评价取代了PR(A)/C(A),指出了对一特定的页面的链接,每个链接被点击的概率是不同的。
此处,每一链接有两个属性值,X表示可见度,如果没有被重点强调(如粗体、斜体等)为1否则为2,Y表链接在文档中的位置,如果在文档下半部为1否则为3。则有
X(A,B) × Y(A,B) = 1 × 3 = 3
X(A,C) × Y(A,C) = 1 × 1 = 1
X(B,A) × Y(B,A) = 2 × 3 = 6
X(B,C) × Y(B,C) = 2 × 1 = 2
X(C,A) × Y(C,A) = 2 × 3 = 6
X(C,B) × Y(C,B) = 2 × 1 = 2
易得:
Z(A) = X(A,B) × Y(A,B) + X(A,C) × Y(A,C) = 4
Z(B) = X(B,A) × Y(B,A) + X(B,C) × Y(B,C) = 8
Z(C) = X(C,A) × Y(C,A) + X(C,B) × Y(C,B) = 8
链接评价公式为:(页面T1指向T2)
L(T1,T2) = X(T1,T2) × Y(T1,T2) / Z(T1)
有:
L(A,B) = 0.75
L(A,C) = 0.25
L(B,A) = 0.75
L(B,C) = 0.25
L(C,A) = 0.75
L(C,B) = 0.25
最后利用改进的公式计算页面级别:
PR(A) = 0.5 + 0.5 (0.75 PR(B) + 0.75 PR(C))
PR(B) = 0.5 + 0.5 (0.75 PR(A) + 0.25 PR(C))
PR(C) = 0.5 + 0.5 (0.25 PR(A) + 0.25 PR(B))
得:
PR(A) = 819/693
PR(B) = 721/693
PR(C) = 539/693
为了防止人为的级别优化,页面的距离被用来影响链接的评价。站内链接的权重小于站间链接的权重。页面的距离可能由页面是否在一个站内、一个服务器及物理距离等决定。
另一个影响页面重要性的能参数,是页面的不过时性(up-to-dateness),意指有越多的新建的页面指向某一个页面,则这个页面内容过时的可能性越小。
为增加这些因素的影响,要对公式进行修订如下:
L(Ti,A) = K(Ti,A) × K1(Ti) × … × Km(Ti)
其中,K(Ti,A)表示链接可见度及位置的权重,Kn(Ti)是第n个因素对页面Ti的影响。看列子:此处,从C引出的链接的重要性是其它的4倍。
K(A) = 0.5
K(B) = 0.5
K(C) = 2
计算级别值:
PR(A) = 0.5 + 0.5 × 2 PR(C)
PR(B) = 0.5 + 0.5 × 0.5 × 0.5 PR(A)
PR(C) = 0.5 + 0.5 (0.5 PR(B) + 0.5 × 0.5 PR(A))
得:
PR(A) = 4/3
PR(B) = 2/3
PR(C) = 5/6
此时,所有页面的级别之和不等于页面数量。
返回顶端
3、基于主题或标题的搜索评级
因google没有采用,略去不看。
返回顶端
4、Google的PR0惩罚
Google对采用了搜索优化的网站的一种惩罚就是,把这个站的所有或很多网页的网页级别定为0,典型的表现就是原先不为0忽然变为0的情况。当然,PR为0不一定是受到了惩罚,可能只是因为没有重要页面链到它。
一个Google的员工在WebmasterWorld’s Google News论坛上一再提醒网站管理员,一定不要”链接到坏邻居”。Raph Levien提出了一种技术分析链接结构获取页面的负面特征,与”PageRank”相似但目标相反,名之为”BadRank”。
BadRank基于”链到坏邻居”,对BadRank有影响显然是出链,因为对PageRank的算法加以改动,即会适合BadRank的计算。
BR(A) = E(A) (1-d) + d (BR(T1)/C(T1) + … + BR(Tn)/C(Tn))
, 其中,BR(A) 是页面A的BadRank, BR(Ti)页面Ti的BadRank,页面A有链接到Ti,C(Ti)页面Ti的入链数,d是阻尼系数,E(A)表示当前页面有没有被垃圾网页过滤系统 检测到。当E(A)为0时,这个公式不再有意义,它只是变成了另一种分析链接结构的方法而已。所有页面的E(A)之和等页面总数。看例子,令E(A)= 100,其它的为1,d=0.85,则有
Page
BadRank
A
22.39
B/C
17.39
D/E/F/G
12.21
可见页面A的BadRank被分布到每个页面中了。
上例中,如果所有页面的BadRank都为1,阻尼系数为0.85,页面G链到一个页面X,E(X)=10,且这个链接是X的唯一的入链。则有
Page
BadRank
A
4.82
B
7.50
C
14.50
D
4.22
E
4.22
F
11.22
G
17.18
在这种情况下,所有页面的BadRank都有增加,A增加得比较少。
常见这样的网站,主页的pagerank在2-4之间,而其它页面为0,这是可能由于受到了Google的惩罚,或者可能只是低层页面有链接到”坏邻居”。(真是这样吗?我的网站就如所述。可怕)。
如果将BadRank和PageRank结合,有多方法,一是相减,一是相除,一是BadRank到了一定值就PageRank=0,等等。其实,两者 如何结合并不重要。但是其后果却值得重视。一种情况是,一个页面的PageRank很高,它的BadRank也不低但相对于其PageRank却可以忽 略,那么如果一个链向这个页面但PageRank不高的页面将会深受其害了。另一种情况更严重,无论有多少入链帮助增加PageRank,一个到”坏邻居 “的出链就可能导致PR0。对于后一种情况,Google的Matt Cutt发言说,一个到”坏邻居”的链接并不会造成伤害,但如果有20,就是个问题了。对于一高一低两个PageRank的页面,都连到一个”坏邻居”, 低PageRank的页面受到的伤害会更厉害,只喜欢Google能区别这种情况,否则出链就只有坏处而不见什么好处了。
上述关于PRO的内容,都是关于BadRank的思考,但是对链接结构进行同PageRank相似的分析来确定BadRank似乎是Google的唯一的思路。
浅谈HTTP协议1.2.3.4,转自协议网
浅谈HTTP协议(一)–结构
Internet是由各个协议连接起来的,而我们现在使用最广的莫过于HTTP协议了,也就是超文本传输协议,与FTP(文件传输协议)不同,由于主要用于超文本传输,因此HTTP协议显得更简单一点。今天我们来介绍一下HTTP协议的基本格式。
在这里,我们所谈及的HTTP协议以HTTP/1.1为标准,并且使用NetVampirePro4.0来取得与HTTP服务器的通信Log,您也可以使用其它的HTTP下载工具来取得通信Log。
在HTTP协议中,服务端是指提供HTTP服务的部分,客户端是指你使用的浏览器或者下载工具等等。在通讯时,由客户端发出请求连接,服务端建立连接; 然后,客户端发出HTTP请求(Request),服务端返回响应信息(Respond),由此完成一个HTTP操作。我们来通过一个例子来了解这个过 程:(以下是NetVampire进行的一次连接,以下红色字体为作者添加)
P01-5-2616:10:43Connectingtogo2.163.com… //连接服务器
P01-5-2616:10:44Connectedtogo2.163.com[61.129.65.148] //解析IP地址,以下为HTTP操作
S01-5-2616:10:44GET/~minift/epretty/pretty.zipHTTP/1.1 //请求行(RequestLine),表示使用GET方式取得文件,使用HTTP/1.1协议
//以下为请求头部(RequestHead)
S01-5-2616:10:44Connection:close //表示非持续性连接
S01-5-2616:10:44Host:go2.163.com //主机名称
S01-5-2616:10:44Accept:*/* //接受的数据类型
S01-5-2616:10:44Pragma:no-cache //参数(与以前的服务器兼容)
S01-5-2616:10:44Cache-Control:no-cache //不使用缓存
S01-5-2616:10:44Referer:http://go2.163.com/~minift/epretty //从该网址转来
S01-5-2616:10:44User-Agent:Mozilla/4.04[en](Win95;I;Nav) //客户端标识
S01-5-2616:10:44Cookie:AdId=ACDDAAAAAAA
S01-5-2616:10:44 //以下为Respond
R01-5-2616:10:47HTTP/1.0200OK //响应行(RespondLine),服务器使用HTTP/1.0协议,状态值(StatusCode)为200,状态为OK,表示文件可以读取
R01-5-2616:10:47Date:Sat,26May200108:15:54GMT //现在的时间,用格林威治时间表示
R01-5-2616:10:47Server:Apache/1.3.14(Unix)mod_layout/2.9.9 //服务器类型
R01-5-2616:10:47Last-Modified:Fri,04May200102:42:56GMT //文件最后更新时间
R01-5-2616:10:47ETag:”e614cf-37965-3af21730″
R01-5-2616:10:47Accept-Ranges:bytes //接受的范围单位
R01-5-2616:10:47Content-Length:227685 //文件长度
R01-5-2616:10:47Content-Type:application/zip //MIME类型
R01-5-2616:10:47X-Cache:MISSfromshca8
R01-5-2616:10:47X-Cache-Lookup:MISSfromshca8:80
R01-5-2616:10:47Connection:close //表示文件传输完毕就关闭连接。
R01-5-2616:10:47 //以下为文件传输
P01-5-2616:10:47Datatransferstarted
下面来讲解使用的格式(LRCF=@13@10,即回车,SP=SPACE,即空格)
Request:
协议方式SP文件URISP协议版本LRCF(请求行)
(以下为头部)
头部类型:头部值LRCF
头部类型:头部值LRCF
头部类型:头部值LRCF
……
LRCF表示头部结束
(如果有体部,以下为体部)
Respond:
协议版本SP状态值SP状态描述LRCF(响应行)
(以下为头部)
头部类型:头部值LRCF
头部类型:头部值LRCF
头部类型:头部值LRCF
……
LRCF表示头部结束
(如果有体部,以下为体部)
由上可见,请求与相应的格式只有部分不同,是很容易理解的,现在你应该基本了解HTTP协议了吧,也能看懂那些通信Log了吧,下一次我们讲专门讲解在响应行中的状态值含义及一些特殊情况。
浅谈HTTP协议(二)–返回值
在一个协议中,最重要的是判断协议是否进行的成功,而在HTTP中是根据响应状态值来确定的,今天就来介绍一些状态码的含义。
200OK
这是最普遍的吧,也就是表示协议一切正常,凡是2开头的代码表示的都是成功进行中。
404NotFound
这也是最普遍的吧,其实大多数错误就是所要求的资源无法得到,通常表示文件不存在。
403Forbidden
表示服务器无法满足现在的请求,有可能是现在连接数太多等原因。
401Unauthorized
未认证的请求,通常浏览器接受到这个状态值,就会弹出一个对话框,要求你输入密码。
500InternalServerError
服务器内部错误,一般的原因是因为所执行的程序有错误,无法返回正确应答。
206PartialContent
部分的内容,这个状态码表示下面传递的是部分的内容,也是断点续传的标准返回码。
HTTP协议三–断点续传
断点续传是我们现在经常接触的概念,那么HTTP协议是如何支持断点续传的呢。我们先从一个例子来看看。
下面是一个断点续传的例子:(使用NetVampire得到)
I01-7-1219:19:23————————-Attempt1————————-
P01-7-1219:19:24Connectingto127.0.0.3…
P01-7-1219:19:24Connectedto127.0.0.3[127.0.0.3]
S01-7-1219:19:24GET/VS0515AI.EXEHTTP/1.1
S01-7-1219:19:24Connection:close
S01-7-1219:19:24Host:127.0.0.3
S01-7-1219:19:24Accept:*/*
S01-7-1219:19:24Pragma:no-cache
S01-7-1219:19:24Cache-Control:no-cache
S01-7-1219:19:24Referer:http://127.0.0.3/
S01-7-1219:19:24User-Agent:Mozilla/4.04[en](Win95;I;Nav)
S01-7-1219:19:24
R01-7-1219:19:24HTTP/1.1200OK
R01-7-1219:19:24Server:ZeroHttpServer/1.0
R01-7-1219:19:24Date:Thu,12Jul200111:19:24GMT
R01-7-1219:19:24Cache-Control:no-cache
R01-7-1219:19:24Last-Modified:Tue,30Jan200113:11:30GMT
R01-7-1219:19:24Content-Type:application/octet-stream
R01-7-1219:19:24Content-Length:15143086
R01-7-1219:19:24Connection:close
R01-7-1219:19:24
P01-7-1219:19:25Datatransferstarted
I01-7-1219:19:32JobStoppedbyuser
I01-7-1219:19:33Received5275648bytesin0:00:07(691435bytes/s)
I01-7-1219:19:40————————-Attempt2————————-
P01-7-1219:19:40Connectingto127.0.0.3…
P01-7-1219:19:40Connectedto127.0.0.3[127.0.0.3]
S01-7-1219:19:40GET/VS0515AI.EXEHTTP/1.1
S01-7-1219:19:40Connection:close
S01-7-1219:19:40Host:127.0.0.3
S01-7-1219:19:40Accept:*/*
S01-7-1219:19:40Pragma:no-cache
S01-7-1219:19:40Cache-Control:no-cache
S01-7-1219:19:40Referer:http://127.0.0.3/
S01-7-1219:19:40User-Agent:Mozilla/4.04[en](Win95;I;Nav)
S01-7-1219:19:40Range:bytes=5275648-
S01-7-1219:19:40
R01-7-1219:19:40HTTP/1.1206PartialContent
R01-7-1219:19:40Server:ZeroHttpServer/1.0
R01-7-1219:19:40Date:Thu,12Jul200111:19:40GMT
R01-7-1219:19:40Cache-Control:no-cache
R01-7-1219:19:40Last-Modified:Tue,30Jan200113:11:30GMT
R01-7-1219:19:40Content-Type:application/octet-stream
R01-7-1219:19:40Content-Range:bytes5275648-15143085/15143086
R01-7-1219:19:40Content-Length:9867438
R01-7-1219:19:40Connection:close
R01-7-1219:19:40
P01-7-1219:19:40Datatransferstarted
I01-7-1219:19:41JobStoppedbyuser
I01-7-1219:19:41Received1124756bytesin0:00:01(969617bytes/s)
第一次是普通的传输;第二次由于没有传完全,就发出了Range这个头部,从5275648字节开始传输(默认是按字节算),回应使用206状态值,表示现在开始部分传输,回复Content-Length头部,表示传输的部分,用字节记,然后就与普通传输没有区别了。
通过上面的例子,你应该了解HTTP断点续传的原理了吧。
HTTP协议四–关于Chunked编码
在有时服务器生成HTTP回应是无法确定消息大小的,这时用Content-Length就无法事先写入长度,而需要实时生成消息长度,这时服务器一般采用Chunked编码。
在进行Chunked编码传输时,在回复消息的头部有transfer-coding并定为Chunked,表示将用Chunked编码传输内容。采用以下方式编码:
Chunked-Body=*chunk
“0″CRLF
footer
CRLF
chunk=chunk-size[chunk-ext]CRLF
chunk-dataCRLF
hex-no-zero=
chunk-size=hex-no-zero*HEX
chunk-ext=*(“;”chunk-ext-name["="chunk-ext-value])
chunk-ext-name=token
chunk-ext-val=token|quoted-string
chunk-data=chunk-size(OCTET)
footer=*entity-header
编码使用若干个Chunk组成,由一个标明长度为0的chunk结束,每个Chunk有两部分组成,第一部分是该Chunk的长度和长度单位(一般不 写),第二部分就是指定长度的内容,每个部分用CRLF隔开。在最后一个长度为0的Chunk中的内容是称为footer的内容,是一些没有写的头部内 容。
下面给出一个Chunked的解码过程(RFC文档中有)
length:=0
readchunk-size,chunk-ext(ifany)andCRLF
while(chunk-size>0){
readchunk-dataandCRLF
appendchunk-datatoentity-body
length:=length+chunk-size
readchunk-sizeandCRLF
}
readentity-header
while(entity-headernotempty){
appendentity-headertoexistingheaderfields
readentity-header
}
Content-Length:=length
Remove”chunked”fromTransfer-Encoding
下一次将会讨论一些小问题,如POST方法的数据传输等。
最后,还有一点要说的是,好像NetAnt的一个版本不支持Chunked编码,会显示无法确定内容长度,或许是版本太低的缘故,如果你也遇到这种问题,可以改用NetVampire或其它支持Chunked编码的下载程序试试。
Google中site:的使用方法总结
语法格式:
site : 网址 关键词
或者 关键词 site : 网址
注意事项:
1、site:后边跟的冒号必须是英文的”:”,中文的全角冒号”:”无用
2、url前不能带http://
3、url后边不能带斜杠”/”,其实是哪里都不能带/
4、url中不要用www,除非你有特别目的,
用www会导致错过网站内的内容,因为很多网站的频道是没有www的。
其他说明:
1、关键词既可以在”site:”前,也可以在”site:”后,搜索结果是一样的
但是不管谁前谁后,关键词和”site:”之间必须空一格。 2、对于”site:”搜索,关键词一样可以是多个,多个关键词之间以空格隔开
3、支持与其他复杂搜索语法混用,各语法和关键词之间空一格
4、除了网站,还可以搜索网站的频道,但仅限于不用”/”的。
5、一个网站可能有多种语言,
所以选择”搜索所有网站”和”搜索中文(简体)网页”是有差别的
当然,如果指定的网站只有一种语言,怎么选择就都一样了
用途:
1、可用于限制网站类型,学术资料在edu、org中会更精练,政府相关的在gov中也许更容易找。
2、用了edu、org、net、gov之类的域名后缀,并不会搜索所有含这个后缀的网站。
只会搜索以这个后缀结尾的网站,带cn、us、si等各国家和地区域名后缀的edu.jp、
gov.us、org.it等是不搜的,所以你要另外搜
3、搜索某种语言或某个关键词在指定国家的网站
4、有的网站没有提供站内搜索,或者它的信息结构混乱,内容又多,不好找东西,
那么可以用”site:”对这个网站进行检索。
google的”site:”功能比多数网站自己的站内检索还要好用,如果你查的不是
动态数据库,而且对时效性要求不高的话。
5、搜索不欢迎你搜索和免费使用的网站、数据库的部分内容
6、用”site:”搜索死链接网站、已关闭网站内的信息

























Recent Comments