SPuerBRead HTMLSimilarity Save

网页相似度判断：根据网页结构判断页面相似性，可用于相似度计算、越权检测等(Determine page similarity based on HTML page structure)

Project README

HTMLSimilarity

根据网页结构判断页面相似性(Determine page similarity based on HTML page structure)

使用方法

from htmlsimilarity import get_html_similarity

is_similarity, value = get_html_similarity(html_doc1, html_doc2)

说明

输入参数：

HTML文档1
HTML文档2
降维后的维数，默认是5000

返回值：

是否相似
相似值（value<0.2时相似，value>0.2时不相似）

判断方法

根据网页的DOM树确定网页的模板特征向量，对模板特征向量计算网页结构相似性。

详细参考：李景阳, 张波. 网页结构相似性确定方法及装置:.

原理参考上述专利文章，对其判断相似性部分进行简单实现。

用途

判断越权时，需要对response进行对比，当后端返回渲染后HTML的情况下，无法直接判断是否出现了越权，利用常规的文本相似度对比如difflib，通过分词或最长公共子串等方法进行判断并不适用于用来判断越权，所以使用根据页面结构判断相似度，确定是否出现了越权。

Open Source Agenda is not affiliated with "SPuerBRead HTMLSimilarity" Project. README Source: SPuerBRead/HTMLSimilarity

Stars

269

Open Issues

Last Commit

4 years ago

Repository

SPuerBRead/HTMLSimilarity

Open Source Agenda Badge

<a href="https://www.opensourceagenda.com/projects/htmlsimilarity"><img src="https://www.opensourceagenda.com/projects/htmlsimilarity/reviews/badge.svg" alt="Open Source Agenda"></a>

Submit Review Review Your Favorite Project

Submit Resource Articles, Courses, Videos

Submit Article Submit a post to our blog

From the blog

Dec 11, 2022

How to Choose Which Programming Language to Learn First?

From the blog

Dec 11, 2022