博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于Simhash的应用模板识别Perl_信息安全自留地_百度空间
阅读量:6174 次
发布时间:2019-06-21

本文共 744 字,大约阅读时间需要 2 分钟。

|文章出处: 

基于Simhash的应用模板识别Perl demo

对于同一应用模板生成不同的url,url可能的pathdir、filename、arguments的一项或者几项可能不同。同时

web页面的展示一眼看过去也差别较大。在url聚类的需求场合,需要能自动识别web/url的相似度。

 这里是利用simhash算法,通过对web页面的一些token的value进行统计分析。来综合判断两条url间的是

否为同一应用模板生成,也为web相似度。理论上,由同一模板生成的页面在token的数量、顺序、值上会存
在一定的规律

 

#!/usr/bin/perl

#Compare the similarity of two pages

#http://hi.baidu.com/_wang8

#2011.04.23

 #use warnings;

#use strict;

 use HTML::TokeParser;

use LWP::Simple;

#use Data::Dumper;

use URI;

use URI::Split qw(uri_split uri_join);

 

sub GetUrl

{

my $url = shift;

 

if($url !~ /^http/)

{

print "warning:error format url.\n";

next;

}

 my $content = LWP::Simple::get($url) or die "cannot request the url:$url\n";

utf8::decode($content);

 return $content;

}

 sub GetToken

{

my $content = shift;

转载地址:http://aimba.baihongyu.com/

你可能感兴趣的文章
Windows和Linux如何使用Java代码实现关闭进程
查看>>
0428继承性 const static
查看>>
第一课:从一个简单的平方根运算学习平方根---【重温数学】
查看>>
NET反射系统
查看>>
Oracle12C本地用户的创建和登录
查看>>
使用JS制作一个鼠标可拖的DIV(一)——鼠标拖动
查看>>
HDU problem 5635 LCP Array【思维】
查看>>
leetcode10. 正则表达式匹配
查看>>
redis常用命令--zsets
查看>>
springcloud--Feign(WebService客户端)
查看>>
网络攻击
查看>>
sorting, two pointers(cf div.3 1113)
查看>>
Scala并发编程【消息机制】
查看>>
win10下安装Oracle 11g 32位客户端遇到INS-13001环境不满足最低要求
查看>>
AngularJS-01.AngularJS,Module,Controller,scope
查看>>
【MySQL 安装过程1】顺利安装MySQL完整过程
查看>>
Inno Setup入门(二十)——Inno Setup类参考(6)
查看>>
图片自适应
查看>>
amd cmd
查看>>
Linux下的uml画图工具
查看>>