文本模糊匹配

发表于2022-07-24|更新于2022-07-25|数据分析

|浏览量:

文本模糊匹配主要是指对两段文本含义相近程度的计算，当我们需要处理的数据集比较多样或者是未标准化的脏数据时，通过模糊匹配主要实现的是去除重复值的操作。
高级的模糊匹配涉及到的是自然语言处理的一部分内容，这里所说的模糊匹配则是一种相对比较简单的匹配方式,例如两个相近的表达方式(‘underground’ ‘subway’),一些可能出现的拼写错误和较小的语法错误或句法偏移(‘apple’ ‘appel’)以及一些并列词语位置的颠倒之类的等等一些不会涉及到语义分析的一些内容。

Python中的fuzzywuzzy库为我们提供了上述所说的功能,这个库中有几种方法:

fuzz.ratio(str1,str2)：返回两个字符串的差异主要是一些拼写错误导致的可能(返回值为1-100)
fuzz.partial_ratio(str1,str2)：返回两个字符串表达相同含义可能(返回值1-100)，这种方法会对子字符串进行一个匹配，也可以对一些意思相近的词语进行一个更好的识别
token_sort_ratio：匹配时不考虑单词顺序
process ：有限选项中部分数据杂乱的匹配效果比较好

实际应用过程中选用哪种方法需要视情况而定，对于一些表述上有微小差别意思却有巨大差别的数据(‘does’,‘doesn’t’)，使用第一种方法进行匹配会得到相对比较低的得分，这也是我们需要注意的。

fuzz.ratio('小明','小明的女朋友')
# 50
fuzz.partial_ratio('小明','小明的女朋友')
# 100

文章作者: 爱编程的小明

文章链接: https://kebuaaa.github.io/%E6%96%87%E6%9C%AC%E6%A8%A1%E7%B3%8A%E5%8C%B9%E9%85%8D/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源小明的博客！

数据分析文本处理

相关推荐

将本文结合代码使用效果更佳哦❤️❤️ matplotlib is a desktop plotting package designed for creating (mostly twodimensional) publication-quality plots. The project was started by John Hunter in 2002 to enable a MATLAB-like plotting interface in Python. Over time, matplotlib has spawned a number of add-on toolkits for data visualization that use matplotlib for their underlying plotting. One of these is seaborn 中文pdf 老规矩，先放官方的文档,一大堆漂亮的demo袭来 plot创建在matplotlib中，所有plot都存在与Figure对象中，需要先利用matplotlib.pyplot.Fi...

numpy(numerical Python) 是 Python 数值计算最重要的基础包，大多数提供科学计算的包都是用 NumPy 的数组为构建基础。 NumPy 可以用于数值计算的一个重要原因是因为他能处理大数组的数据：在连续的内存块储存数据，独立于其他 Python 内置对象（C 语言编写的算法库，在 C 的基础上封装）可以在整个数组上执行复杂的计算，不需要 for loop 速查图片对应pdf.pdf 介绍基本用法 NumPy 最重要的一个特点就是 ndarray(n 维数组对象，一个快速而灵活的大数据集容器) Creating ndarray python 默认创建数组的数据类型是浮点数（方便科学计算） np.array(): 支持任何序列对象 np.zeros（） np.empty()创建一个数组，值可能为 0 有些情况下为垃圾值 np.arrange():类似于内置的 range 返回一个数组的数据类型类型转换–np.astype 可以在创建数组时指定数值类型，也可以通过 np.astype()来转换数据类型（该函数会重新创建一个新...

放一个目录做的的思维导图一场数模国赛下来发现对于pandas里的一些基础操作还不是很熟练，整个建模过程中用到了许多pandas中对DataFrame的索引，切片访问，分组交叉透视等功能，除此以外稍微高级一点的就是用了几次apply函数来对某一行的值进行一个计算输出，虽然知识描述统计这部分的内容，但是能明显的感觉到对于这些基本功能有些生疏。坦白来讲，pandas的描述统计相关的这些工作其实借助excel也能够实现，但是当考虑到可迁移性这些方面的内容时，使用编程语言的优越性也就自然而然地体现出来，当然，如果对相关的函数不能做到很熟悉的话，其实反而加大了工作量。简介 Pandas 是 Python 的核心数据分析支持库，提供了快速、灵活、明确的数据结构，旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具，其长远目标是成为最强大、最灵活、可以支持任何语言的开源数据分析工具。经过多年不懈的努力，Pandas 离这个目标已经越来越近了。虽然 pandas 采用了大量的 NumPy 编码风格，但二者最大的不同是 pa...

常用函数(备忘) 函数含义 install.packages() 装包 update.packages() 更新包 library() 加载包 object 在R中，一个object可以是任何可以赋值给变量的东西（数据结构、函数、甚至是graph），一个object有两个重要的东西叫mode和class，前者决定这个object的存储方式(numeric,character，logical)，后者决定函数如何处理这个object。虽然有object的概念，但是R本身仍然是一种自顶向下式的编程方式，大部分功能都是通过各式各样的函数来实现的。常用函数 dim()函数返回数据的维度 length()函数返回数据的长度 str()函数返回数据的结构 class()函数返回数据的类型 mode()函数返回数据的存储方式 names()函数返回数据的列名(Gives the names of components in an object) c(object,object)函数将多个向量合并为一个向量 cbind()按列combine rbind按行comb...

关系型数据库的命名是因为数据库展现了表单形式的不同类型数据之间的关系。 SQL 是结构化数据查询语言，是我们用来像数据管理系统（Data Management system）下达指令时用到的. Sqlite 是一个轻量的 DBMS。 SQL SQL 既不是一个 API 也不是一种协议，而是一种声明式语言，只需要告诉它做什么即可。它是关系型数据库的通用语言。SQL 查询是客户端发送给数据库服务器的文本字符串，指明需要执行的具体操作。 SQL is everywhere SQL enables us to pull data from many sources SQL 语句的三种类型： DDL（Data Definition Language，数据定义语言）：处理用户、数据库以及表单的创建、删除、约束和权限等 DML（Data Manipulation Language，数据操纵语言）用来查询或者变更表中的记录。 DCL（Data Control Language，数据控制语言）用来确认或者取消对数据库中的数据进行的变更。除此之外，还可以对 RDBM...

Seaborn库简介

将本文结合代码使用效果更佳哦❤️❤️ 速查 example gallery: Seaborn 库简介特点: Seaborn, a statistical graphics library created by Michael Waskom. Seaborn simplifies creating many common visualization types. Unlike when using matplotlib directly, it wasn’t necessary to specify attributes of the plot elements in terms of the color values or marker codes. Behind the scenes, seaborn handled the translation from values in the dataframe to arguments that matplotlib understands. This declarative approach lets you s...