PageRank算法

基本思想:如果网页T存在一个指向网页A的连接,则表明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PRT/C(T)

其中PRT)为TPageRank值,C(T)T的出链数,则APageRank值为一系列类似于T的页面重要性得分值的累加。

优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。

不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的和主题性降低;另外,PageRank有很严重的对新网页的歧视。

分级聚类算法:

分级聚类通过连续不断地将最为相似的群组两两合并,来构造出一个群组的层级结构。在每次迭代的过程中,分级聚类算法会计算每两个群组间的距离,并将距离最近的两个群组合并成一个新的群组。这个过程一直重复下去,直到只剩一个群组时则完成分组。但是由于分级聚类每次都要计算群组间的距离,所以计算量比较大。

K-均值聚类算法:

K-均值聚类是一种完全不同于分级聚类的方法,它首先会随机确定k个中心位置,然后将各个数据项分配给最近的中心点。等到分配完成之后,聚类中心会发生变化,会转移到分配给该中心的所有节点的平均位置处。然后,整个分配过程重新开始。这样一直持续下去,直到分配过程不再发生变化为止。这有点类同于组合优化中的p-中值问题和p-中心问题。假设有n个数据项,我们要把这n个数据项进行聚类分组,目标是所有数据项到它分配的聚类中心的距离之和最小。那么如何聚类呢?这时候就是p不定的中值问题,我们可以采取遗传算法、变邻域搜索算法等方法去解决。聚类的应用有博客的分组归类、电子商务中对客户的共同特征进行分析等。

蚁群算法

说明:各个蚂蚁在没有事先告诉他们食物在什么地方的前提下开始寻找食物。当一只找到食物以后,它会向一种挥发性分泌物pheromone (称为信息素,该物质随着时间的推移会逐渐挥发消失,信息素浓度的大小表征路径的远近)来实现的,吸引其他的蚂蚁过来,这样越来越多的蚂蚁会找到食物。有些蚂蚁并没有象其它蚂蚁一样总重复同样的路,他们会另辟蹊径,如果另开辟的道路比原来的其他道路更短,那么,渐渐地,更多的蚂蚁被吸引到这条较短的路上来。最后,经过一段时间运行,可能会出现一条最短的路径被大多数蚂蚁重复着。[

蚁群算法(ant colony optimization, ACO),又称,是一种用来在图中寻找优化路径的机率型算法。它由Marco Dorigo1992年在他的中提出,其灵感来源于蚂蚁在寻找食物过程中发现路径的行为。蚁群算法是一种模拟进化算法,初步的研究表明该算法具有许多优良的性质。针对参数优化设计问题,将蚁群算法设计的结果与遗传算法设计的结果进行了比较,数值仿真结果表明,蚁群算法具有一种新的模拟进化优化方法的有效性和应用价值。

蚁群算法是通过正反馈、分布式协作来寻找最优路径的算法。这是一种基于寻优的启发式搜索算法。它充分利用了生物蚁群能通过个体间简单的信息传递,搜索从至食物间最短路径的集体寻优特征,以及该过程与求解之间的相似性。

粒子群算法

粒子群算法,也称Particle Swarm Optimization),缩写为PSO, 是近年来发展起来的一种新的(Evolu2tionary Algorithm - EA)。PSO 算法属于的一种,和相似,它也是从随机解出发,通过迭代寻找,它也是通过来评价解的品质,但它比遗传算法规则更为简单,它没有遗传算法的交叉”(Crossover) ”(Mutation) 操作,它通过追随当前搜索到的来寻找全局最优。这种算法以其实现容易、精度高、收敛快等优点引起了学术界的重视,并且在解决实际问题中展示了其优越性。

K-最近邻算法

K最近邻(k-Nearest NeighborKNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。