当前位置:首页 > 科技  > 软件

使用Python进行文本分析-将PDF文件多进程批量处理为csv文件

来源: 责编: 时间:2023-11-14 09:10:11 221观看
导读在文本分析的过程中,将原始数据转换为TXT文件非常关键,主要出于以下几个方面的考虑:1.格式简单与统一:TXT文件是一种简单的文本格式,只包含纯文本信息,不包含任何格式或样式信息。这种简单和统一的格式有助于减少在文本分

在文本分析的过程中,将原始数据转换为TXT文件非常关键,主要出于以下几个方面的考虑:a6R28资讯网——每日最新资讯28at.com

a6R28资讯网——每日最新资讯28at.com

1.格式简单与统一:

  • TXT文件是一种简单的文本格式,只包含纯文本信息,不包含任何格式或样式信息。这种简单和统一的格式有助于减少在文本分析过程中可能出现的混淆或误解。
  • 其他格式的文档,如PDF或Word文档,可能包含图像、表格和其他非文本元素,还可能包含复杂的格式和样式,这些都可能干扰文本分析的过程。

2. 便于文本预处理:

  • • 文本分析通常需要对文本数据进行预处理,包括分词、去停用词、标准化等。TXT文件的简单结构使得这些预处理任务更容易执行。a6R28资讯网——每日最新资讯28at.com

  • • 与其他文件格式相比,TXT文件不包含任何复杂的格式或元数据,这有助于简化预处理步骤,减少可能出现的错误和问题。

3.兼容性:

  • • 大多数文本分析和自然语言处理(NLP)工具都能够直接处理TXT文件。将原始数据转换为TXT文件可以确保与这些工具的兼容性,从而简化分析流程。a6R28资讯网——每日最新资讯28at.com

  • • TXT文件是一种通用的文件格式,可以在不同的操作系统和软件环境中轻松处理,而不需要特定的转换或适配器。

4.节省资源:

  • • TXT文件通常比其他文件格式更小,这有助于节省存储空间和提高处理速度。较小的文件大小也意味着需要较少的计算资源来处理文本数据,从而提高分析效率。a6R28资讯网——每日最新资讯28at.com

  • • 简单的文本格式也意味着在处理时CPU和内存的消耗较低,这对于大规模文本分析任务来说是非常重要的。

5.便于文本挖掘和模式识别:

  • • 纯文本格式使得使用正则表达式和其他文本挖掘技术来识别和提取文本中的模式变得更为容易和直接。a6R28资讯网——每日最新资讯28at.com

  • • 纯文本数据也便于实现各种文本分析技术,如情感分析、主题建模和实体识别等。

6.可读性和可检查性:

  • • 人类可以直接读取和理解TXT文件,这对于检查、调试和理解文本分析的结果非常重要。

7.数据清洗:

  • • TXT文件的简单性使得更容易识别和处理缺失值、错误和其他数据质量问题,从而保证文本分析的准确性和可靠性。a6R28资讯网——每日最新资讯28at.com

将原始数据转换为TXT文件是实现有效和准确文本分析的一个基本步骤,它帮助简化和标准化文本分析流程,从而提高分析的效率和质量。以下代码可以用来将pdf文件转换为txt文件。a6R28资讯网——每日最新资讯28at.com

pdf2txt.py

#!/usr/bin/env python  # 该行命令告诉操作系统使用 Python 解释器执行此文件import sys  # 导入sys模块,用于处理与Python解释器和运行时环境有关的操作from pdfminer.pdfdocument import PDFDocument  # 从pdfminer模块导入PDFDocument类,用于表示PDF文档from pdfminer.pdfparser import PDFParser  # 从pdfminer模块导入PDFParser类,用于解析PDF文档from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  # 从pdfminer模块导入资源管理和页面解释类from pdfminer.pdfdevice import PDFDevice, TagExtractor  # 从pdfminer模块导入PDF设备和标签提取器类from pdfminer.pdfpage import PDFPage  # 从pdfminer模块导入PDFPage类,用于表示PDF页面from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter  # 从pdfminer模块导入转换器类,用于将PDF转换为其他格式from pdfminer.cmapdb import CMapDB  # 从pdfminer模块导入字符映射数据库类from pdfminer.layout import LAParams  # 从pdfminer模块导入布局分析参数类from pdfminer.image import ImageWriter  # 从pdfminer模块导入图像写入类# 定义主函数,argv是一个包含命令行参数的列表def main(argv):    import getopt  # 导入getopt模块,用于解析命令行参数    # 定义一个显示用法的内部函数    def usage():        print ('usage: %s [-P password] [-o output] [-t text|html|xml|tag]'               ' [-O output_dir] [-c encoding] [-s scale] [-R rotation]'               ' [-Y normal|loose|exact] [-p pagenos] [-m maxpages]'               ' [-S] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin]'               ' [-W word_margin] [-F boxes_flow] [-d] input.pdf ...' % argv[0])        return 100  # 返回一个错误代码    try:        # 使用getopt解析命令行参数        (opts, args) = getopt.getopt(argv[1:], 'dP:o:t:O:c:s:R:Y:p:m:SCnAVM:W:L:F:')    except getopt.GetoptError:        return usage()  # 如果解析失败,则显示用法并退出    if not args: return usage()  # 如果没有提供非选项参数(例如输入文件),则显示用法并退出    # 初始化一些变量    debug = 0  # 调试级别    password = b''  # PDF密码    pagenos = set()  # 要处理的页码集    maxpages = 0  # 最大页数    outfile = None  # 输出文件名    outtype = None  # 输出类型    imagewriter = None  # 图像写入对象    rotation = 0  # 旋转角度    stripcontrol = False  # 是否剥离控制字符    layoutmode = 'normal'  # 布局模式    encoding = 'utf-8'  # 编码方式    pageno = 1  # 页面号    scale = 1  # 缩放因子    caching = True  # 是否缓存    showpageno = True  # 是否显示页面号    laparams = LAParams()  # 布局分析参数对象    for (k, v) in opts:  # 遍历选项和值        if k == '-d': debug += 1  # 设置调试级别        elif k == '-P': password = v.encode('ascii')  # 设置密码        elif k == '-o': outfile = v  # 设置输出文件名        elif k == '-t': outtype = v  # 设置输出类型        elif k == '-O': imagewriter = ImageWriter(v)  # 创建图像写入对象        elif k == '-c': encoding = v  # 设置编码方式        elif k == '-s': scale = float(v)  # 设置缩放因子        elif k == '-R': rotation = int(v)  # 设置旋转角度        elif k == '-Y': layoutmode = v  # 设置布局模式        elif k == '-p': pagenos.update(int(x)-1 for x in v.split(','))  # 更新页码集        elif k == '-m': maxpages = int(v)  # 设置最大页数        elif k == '-S': stripcontrol = True  # 启用剥离控制字符        elif k == '-C': caching = False  # 禁用缓存        elif k == '-n': laparams = None  # 禁用布局分析参数        elif k == '-A': laparams.all_texts = True  # 启用所有文本选项        elif k == '-V': laparams.detect_vertical = True  # 启用垂直检测选项        elif k == '-M': laparams.char_margin = float(v)  # 设置字符边距        elif k == '-W': laparams.word_margin = float(v)  # 设置单词边距        elif k == '-L': laparams.line_margin = float(v)  # 设置行边距        elif k == '-F': laparams.boxes_flow = float(v)  # 设置框流    # 设置调试级别    PDFDocument.debug = debug    PDFParser.debug = debug    CMapDB.debug = debug    PDFPageInterpreter.debug = debug    # 创建PDF资源管理器对象    rsrcmgr = PDFResourceManager(caching=caching)    # 根据输出类型和选项创建相应的PDF设备对象    if not outtype:        outtype = 'text'  # 默认为文本输出        if outfile:            if outfile.endswith('.htm') or outfile.endswith('.html'):                outtype = 'html'  # 如果输出文件名以.htm或.html结尾,则设置为html输出            elif outfile.endswith('.xml'):                outtype = 'xml'  # 如果输出文件名以.xml结尾,则设置为xml输出            elif outfile.endswith('.tag'):                outtype = 'tag'  # 如果输出文件名以.tag结尾,则设置为tag输出            elif outtype == 'tag':        device = TagExtractor(rsrcmgr, outfp)  # 如果输出类型为'tag',则创建TagExtractor对象    else:        return usage()  # 如果不识别的输出类型,则显示用法并退出    for fname in args:  # 遍历所有输入文件名        with open(fname, 'rb') as fp:  # 以二进制读模式打开文件            interpreter = PDFPageInterpreter(rsrcmgr, device)  # 创建PDF页面解释器对象            # 遍历PDF页面,获取页面对象            for page in PDFPage.get_pages(fp, pagenos,                                          maxpages=maxpages, password=password,                                          caching=caching, check_extractable=True):                page.rotate = (page.rotate+rotation) % 360  # 设置页面旋转角度                interpreter.process_page(page)  # 处理每个页面    device.close()  # 关闭设备对象,释放资源    outfp.close()  # 关闭输出文件,释放资源    return  # 从主函数返回# 检查此模块是否作为主模块运行if __name__ == '__main__':    sys.exit(main(sys.argv))  # 如果是,则调用main函数,并使用命令行参数列表作为参数

convertPDF.py

#!/usr/bin/env python3"""Script to convert PDFs to text files."""import  unicodedata, os, pdf2txt, datetimeimport multiprocessingdef convertPDFToText(i, ID, newDir, fileNamePDF):    print('Trying to convert: ' + str(i) + ', ' + ID)  # 输出正在尝试转换的文件信息    try:        pdf2txt.main(['-o', newDir + '/' + ID + '.txt', fileNamePDF])  # 调用pdf2txt.main来转换PDF为文本        print('Successfully converted: ' + ID)  # 转换成功时的输出    except Exception as e:        print('Failed to convert: ' + ID + f', Error: {e}')  # 转换失败时的输出def process_pdfs(pdf_list):    with multiprocessing.Pool(20) as pool:  # 创建一个包含20个进程的进程池        pool.starmap(convertPDFToText, pdf_list)  # 使用starmap来并行处理pdf_list中的每个元素,每个元素都是一个元组,它将被解包为convertPDFToText的参数if __name__ == '__main__':    directory = '../../Data/PDF/work'    os.chdir(directory)  # 更改当前工作目录至PDF文件目录    # 指定保存转换后文件的目录    newDir = '../TXT/work'    # os.makedirs(newDir)  # 创建新目录(如果需要的话)    print('Placing converted files in: ' + newDir)  # 输出转换后文件将被放置的目录    pdf_list = []  # 创建一个空列表,用于保存将传递给convertPDFToText的参数元组    i = 0  # 初始化计数器    for fileNamePDF in os.listdir('./'):  # 遍历当前目录中的所有文件        i += 1  # 计数器递增        if fileNamePDF.find(".pdf") == -1:  # 如果文件不是PDF,跳过            continue        ID = fileNamePDF[:-4]  # 从文件名中获取ID(去掉.pdf后缀)        if os.path.isfile('../TXT/' + ID + '.txt'):  # 如果已经存在对应的文本文件,跳过            continue        pdf_list.append((i, ID, newDir, fileNamePDF))  # 将参数元组添加到pdf_list中    process_pdfs(pdf_list)  # 调用process_pdfs函数,传递pdf_list以并行处理PDF文件


a6R28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-24322-0.html使用Python进行文本分析-将PDF文件多进程批量处理为csv文件

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: Golang 中的 Context 包

下一篇: 解决Docker网络冲突的方法

标签:
  • 热门焦点
  • 官方承诺:K60至尊版将会首批升级MIUI 15

    官方承诺:K60至尊版将会首批升级MIUI 15

    全新的MIUI 15今天也有了消息,在官宣了K60至尊版将会搭载天玑9200+处理器和独显芯片X7的同时,Redmi给出了官方承诺,K60至尊重大更新首批升级,会首批推送MIUI 15。也就是说虽然
  • 直屏旗舰来了 iQOO 12和K70 Pro同台竞技

    直屏旗舰来了 iQOO 12和K70 Pro同台竞技

    旗舰机基本上使用的都是双曲面屏幕,这就让很多喜欢直屏的爱好者在苦等一款直屏旗舰,这次,你们等到了。据博主数码闲聊站带来的最新爆料称,Redmi下代旗舰K70 Pro和iQOO 12两款手
  • JavaScript 混淆及反混淆代码工具

    JavaScript 混淆及反混淆代码工具

    介绍在我们开始学习反混淆之前,我们首先要了解一下代码混淆。如果不了解代码是如何混淆的,我们可能无法成功对代码进行反混淆,尤其是使用自定义混淆器对其进行混淆时。什么是混
  • 分布式系统中的CAP理论,面试必问,你理解了嘛?

    分布式系统中的CAP理论,面试必问,你理解了嘛?

    对于刚刚接触分布式系统的小伙伴们来说,一提起分布式系统,就感觉高大上,深不可测。而且看了很多书和视频还是一脸懵逼。这篇文章主要使用大白话的方式,带你理解一下分布式系统
  • 如何使用JavaScript创建一只图像放大镜?

    如何使用JavaScript创建一只图像放大镜?

    译者 | 布加迪审校 | 重楼如果您曾经浏览过购物网站,可能遇到过图像放大功能。它可以让您放大图像的特定区域,以便浏览。结合这个小小的重要功能可以大大改善您网站的用户体验
  • 只需五步,使用start.spring.io快速入门Spring编程

    只需五步,使用start.spring.io快速入门Spring编程

    步骤1打开https://start.spring.io/,按照屏幕截图中的内容创建项目,添加 Spring Web 依赖项,并单击“生成”按钮下载 .zip 文件,为下一步做准备。请在进入步骤2之前进行解压。图
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 网传小米汽车开始筛选交付中心 建筑面积不低于3000平方米

    网传小米汽车开始筛选交付中心 建筑面积不低于3000平方米

    7月7日消息,近日有微博网友@长三角行健者爆料称,据经销商集团反馈,小米汽车目前已经开始了交付中心的筛选工作,要求候选场地至少有120个车位,建筑不能低
  • 华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    华为和江淮汽车合作开发百万元问界MPV?双方回应来了

    8月1日消息,郭明錤今天在社交平台发文称,华为正在和江淮汽车合作,开发售价在100万元的问界MPV,预计在2024年第2季度量产,销量目标为上市首年交付5万辆。
Top
Baidu
map