如何批量提取word文件中的表格

发布日期：2024-08-24 15:08 点击次数：103

表格在word文档中常见的文档元素之一。操作word文件时有时需要提取文件中多个表格的内容到一个新的文件，甚至有时还会要提取题注信息。

今天，给大家分享两种批量提取文档中表格的两种方法，分别是VBA法和Python法两种。

一、VBA法提取word中的表格1. 代码实现

VBA（Visual Basic for Applications）操作Word文件时，可以执行包括创建、打开、保存、修改文本和格式等多种任务。今天，我们使用VBA来批量提取当前文件中的表格，在每个表格中间添加一个空行。实现代码如下：

Sub ExtractTablesAndPreviousRowToNewFile() Dim docSource As Document Dim docTarget As Document Dim tbl As Table Dim rng As Range Dim outputPath As String Dim fileName As String ' 设置输出文件名和路径 fileName = 'output.docx' outputPath = ActiveDocument.Path & '\' & fileName ' 当前文档设置为源文档 Set docSource = ActiveDocument ' 创建一个新文档作为目标文档 Set docTarget = Documents.Add For Each tbl In docSource.Tables ' 复制表格 tbl.Range.Copy docTarget.Content.InsertParagraphAfter docTarget.Content.Paragraphs.Last.Range.Paste ' 在表格后添加一个空行 docTarget.Content.InsertParagraphAfter docTarget.Content.Paragraphs.Last.Range.InsertParagraphAfter Next tbl ' 删除目标文档中的第一个空段落 If docTarget.Paragraphs.Count > 0 Then docTarget.Paragraphs(1).Range.Delete End If ' 保存新文档到指定路径 docTarget.SaveAs2 fileName:=outputPath, FileFormat:=wdFormatXMLDocument docTarget.Close MsgBox '表格及其上方一行内容已经成功提取到 ' & outputPath, vbInformationEnd Sub2. 代码分析

以上代码首先激活当前文档作为源文档，然后创建一个新文档output.docx用来放置提取的表格和题注。它会遍历源文档中的所有表格，对于每个表格，尝试复制表格本身到目标文档中。

每个表格后面，还会插入一个空行以保持文件中多个表格间清晰的视觉分隔。

3. 使用方法

首先，在Word中打开你想提取表格的文档，然后按下 Alt + F11 打开VBA编辑器。在【项目】窗格中，选择你的文档，然后插入一个新的模块（右键点击你的文档名称，选择【插入】 > 【模块】）。将以上VBA代码复制并粘贴到新模块中。关闭VBA编辑器，然后运行宏（在Word中，可以通过【视图】 > 【宏】> 【查看宏】，选择这个宏，然后点击【运行】即可。

二、Python法

Python在office办公自动化方面有非常广泛的用途，它有专门的库来处理office中的各个组件，而且这些都是开源免费使用的。操作word文件就要用到python-docx这个库，在编写程序之前要安装新版的Python程序，然后在cmd下面用pip install python-docx来安装这个库，也可以在thonny这个轻量版的集成开发环境中安装python-docx用于操作word文件。

1.代码实现

我们首先从docx中导入Document模块，然后读取指定的word文件，提取表格及其内容到一个新的文件当中并保存。实现代码如下：

 from docx import Documentimport osdef extract_tables(doc_path, output_path):    # 加载原始文档    doc = Document(doc_path)    new_doc = Document()    # 提取表格并添加到新文档    for i, table in enumerate(doc.tables):        t = new_doc.add_table(rows=1, cols=len(table.columns))        t.style = 'Table Grid'  # 使用内置的表格样式，这样会自动添加框线        # 复制表头        for j, cell in enumerate(table.rows[0].cells):            t.cell(0, j).text = cell.text        # 复制其他行        for row in table.rows[1:]:            new_row = t.add_row()            for j, cell in enumerate(row.cells):                new_row.cells[j].text = cell.text        # 除了最后一个表格外，在每个表格后添加一个空行（空段落）        if i < len(doc.tables) - 1:            new_doc.add_paragraph()    # 保存新文档    new_doc.save(output_path)# 使用示例extract_tables('example.docx', 'output.docx')

2. 代码分析

以上代码把example.docx文件中的所有表格提取到了output.docx文件中，同时使用了表格的内置样式，给新生成的表格自动添加框线，基本实现表格文本内容的提取，但是表格中的字体颜色、大小和边框样式均无法提取。同时这里也没有提取题注，这时我们需要对代码进一步修改，以使其可以提取表格上方的题注。

本代码把表格上方居中的文字默认识别为表格的题注，提取表格内容时会一并提取出来。

from docx import Documentfrom docx.enum.text import WD_ALIGN_PARAGRAPHimport osdef extract_tables_with_titles(doc_path, output_path): # 加载原始文档 doc = Document(doc_path) new_doc = Document() # 提取表格并添加到新文档 for i, table in enumerate(doc.tables): # 尝试定位并复制表格上方的居中文字 # 查找表格前的段落 para = table._element.getprevious() if para is not None and para.tag.endswith('p'): # 检查该段落的格式是否为居中 p = para.getparent() para_obj = [p for p in doc.paragraphs if p._element == para][0] if para_obj.alignment == WD_ALIGN_PARAGRAPH.CENTER: # 添加居中的段落到新文档 new_para = new_doc.add_paragraph(para_obj.text) new_para.alignment = WD_ALIGN_PARAGRAPH.CENTER # 添加表格 t = new_doc.add_table(rows=1, cols=len(table.columns)) t.style = 'Table Grid' # 使用内置的表格样式，这样会自动添加框线 # 复制表头 for j, cell in enumerate(table.rows[0].cells): t.cell(0, j).text = cell.text # 复制其他行 for row in table.rows[1:]: new_row = t.add_row() for j, cell in enumerate(row.cells): new_row.cells[j].text = cell.text # 除了最后一个表格外，在每个表格后添加一个空行（空段落） if i < len(doc.tables) - 1: new_doc.add_paragraph() # 保存新文档 new_doc.save(output_path)# 使用示例extract_tables_with_titles('example.docx', 'output.docx')

以上代码在原有代码基础上增加了题注内容的提取，通过调用extract_tables_with_titles这个函数，批量把example.docx文件中的表格和题录提取出来，并放到了output.docx当中，并且每个表格之间会有一个空行。

三、演示视频

本人录制了相关视频，供大家参考使用。

图片

四、学后反思

利用VBA和Python均可以实现表格内容提取的功能，但是对于文字和表格的样式无法完整提取。后期会进一步探索如何把表格内容和样式完整拷贝出来，但是由于涉及字体等特殊格式，提取样式会有一定的难度。

上面两种方法的优势在于可以批量、高效地提取表格内容，但是无法提取样式，因此在提取复杂表格时可能会报错。

以上代码默认是把表格批量提取到当前目录，VBA代码应用的是当前的word文件，而python则要求提取的文件名为example.docx，如果想批量提取多个文件中的表格则还需要添加for循环来遍历所有的word文件。

好啦今儿分享到这里，祝大家好运！喜欢的同鞋请转发、点赞！扫描下方二维码，加入微信交流群~ 本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

热点资讯

	游戏《四海兄弟：故乡》宣布开发完成进入压盘阶段，8月8日发售_Steam…
	中国太保发布200亿元私募基金，险资“入市潮”升级…
	这个五一，北京有多好玩？…
	光明网评论员：一场科博会，看见中国何来“科技范儿”…
	31万圆你硬派越野梦, 2018款丰田普拉多, 带你翻山越岭!…