从SQL SERVER中查重:要点在于正确的比对(sqlserver 查重)

从SQL Server中查重 查重是检查文本是否有相同单词或段落的过程,在很多应用中,特别是搜索引擎,内容公司,信息库等…

从SQL Server中查重

查重是检查文本是否有相同单词或段落的过程,在很多应用中,特别是搜索引擎,内容公司,信息库等中都有使用查重的情况。 SQL Server是微软的一款数据库管理系统,很多企业用SQL Server实现文本的查重功能,但是准确的比对要点可不是随便就能做到的,比对方法不对,比对度低,就会大量漏报重复文本,从而影响企业的利益。

查重比对要点在于精确度,下面介绍SQL Server中查重的要点:

1. 引入相似度比对。首先,要利用SQL Server中的相似度比对功能,比如可以利用Jaccard距离,把重复文本的比对精度提升到97%以上,以提高查重的效果。

2. 搭建查重系统的技术架构。接下来,为了实现查重的效果,要合理搭建整个系统的架构,多采用普通Web语言(php),并充分利用SQL Server2016 功能。

3. 细节比对策略。最后,实现比对精度达97%,利用SQL Server存储过程可以根据业务需要,细节比对文本中的内容,注意要排除字符的位置,以及一些乱码等影响比对的影响项。

下面给出一个SQL语句,根据Jaccard距离比对两个文本的相似度:

SELECT * FROM

(

SELECT

a.OutputString_ID,

a.TestString_ID,

1 – dbo.JaccardDistance(a.OutputString, b.TestString)/dbo.JaccardDistance(b.TestString, b.TestString) AS SimParity

FROM

OutputStringTable a,

TestStringTable b

WHERE

b.TestString_ID = a.OutputString_ID

) c

WHERE c.SimParity >= 0.97

通过以上示例,可以在SQL Server里实现比较精确、可靠的文本查重功能。

总之,从SQL Server中查重要点在于比较精确,要做到这点,可以建立技术架构,利用相似度比对,按需细节比对等多种方法,才能获得有效、完美的查重效果。

香港服务器首选港服(Server.HK),2H2G首月10元开通。
港服(Server.HK)(www.IDC.Net)提供简单好用,价格厚道的香港/美国云服务器和独立服务器。IDC+ISP+ICP资质。ARIN和APNIC会员。成熟技术团队15年行业经验。

为您推荐

港服(Server.HK)MongoDB教程:MongoDB 索引

MongoDB 索引 索引通常能够极大的提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件...

港服(Server.HK)PostgreSQL教程PostgreSQL 别名

PostgreSQL 别名 我们可以用 SQL 重命名一张表或者一个字段的名称,这个名称就叫着该表或该字段的别名。 创建...

港服(Server.HK)Memcached教程:Memcached stats 命令

Memcached stats 命令 Memcached stats 命令用于返回统计信息例如 PID(进程号)、版本号...

港服(Server.HK)Redis教程:Redis 数据类型

Redis 数据类型 Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集...

港服(Server.HK)Redis教程:Redis GEO

Redis GEO Redis GEO 主要用于存储地理位置信息,并对存储的信息进行操作,该功能在 Redis 3.2 ...
返回顶部