启明办公

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 77|回复: 0

python操作word方法

[复制链接]

2

主题

6

帖子

9

积分

新手上路

Rank: 1

积分
9
发表于 2022-12-31 17:40:29 | 显示全部楼层 |阅读模式
目录
一、概述:python操作word方法.... 1
二、Win32com安装.... 2
三、基础:对Word对象模型的简单理解.... 4
ef="https://zhuhttp://anlan.zhihu.com/write#_Toc100949412">四、展示: 手动录宏,python自动化.... 11
ef="https://http://zhuanlan.zhihu.com/write#_Toc100949413">五、实验: 多试多感觉.... 13
一、概述:python操作word方法
今天由于工作需要,想在不同的word页面显示不同的页眉页脚,在网上查了一下,代码解绍python操作word的文件的确不少,但好多没有验证,试了一些,没能成功,大致分两种情况,g一种:Python 有针对 .docx 后缀文件的第三方库如 python-docx、pydocx等等,第二种:使用 win32com 模块。 相对而言 Python使用 win32com 模块相对底层些,功能上强大些。能实现一些自己想实现的功能。Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页。所以,看网上好多代码在读取页数是不能得现的。文中会有如何取得页的代码。本文主要讲解python中操作word的思路。总结下这次过程中踩过的坑,让同行们少浪费一些时间,如果只是简单的常用操作,python-docx这个模块可能更方便点。
二、Win32com安装
win32com 模块主要为 Python 提供调用 windows 底层组件对 word 、Excel、PPT 等进行操作的功能,只能在 Windows 环境下使用,并且需要安装 office 相关软件才行(WPS也行)。
使用win32com需要安装pypiwin32
pip install pypiwin32
1. 如何新建文档
from win32com.client import Dispatch
app = Dispatch('Word.Application')
# 新建word文档
doc = app.Documents.Add()
按F5运行,发现什么效果都没有, 这是因为Word被隐藏了。
2. 如何显示Word
app.Visible = True
运行后,熟悉的Word界面出现。现在来输入文字。
3. 如何输入
我们在Word中输入文字时,一般会先使用鼠标点击需要输入文字的位置,这个过程是获得了光标焦点。
当我们需要替换某些文字时,首先会选中某些文字,然后再输入、被选择的文字呈现出灰色的背景,表示被选中了。光标焦点和选择范围在Word中,都是Selection。什么都没选择的光标焦点,和选择了整片文章的选择范围,代表了Selection的最小和最大范围。
这也是为什么整个Word中只能有一个Selection的原因。因为光标或者选择范围就只能有一个。理解Selection很重要。
# 运行下句代码后,s获得新建文档的光标焦点,也就是图中的回车符前
s = app.Selection
# 用“Hello, World!“替换s代表的范围的文本
s.Text = 'Hello, world!'
此时,s的范围为'Hello, world!'这句话的选择区域。Selection是Word对象模型中的类,此处的s是它的对象(实例)。
4. 如何查看选择区域是什么
s.Text可以查看或者设置s选择区域的文本。Word对象模型中很多对象都有默认属性,Text就是Selection的默认属性,类似python的__str__方法。运行s()调用s的默认属性,此处等于于运行了s.Text。
三、基础:对Word对象模型的简单理解
Word中最重要的类(对象)有以下几个。
1. Application对象:Word应用。Application包含了菜单栏、工具栏、命令以及所有文档等。
# 如何获得
app = win32com.client.Dispatch('Word.Application')
2. Document对象:文档。可以有多个Document,就像Word可以打开多个文档。
使用下列代码新建文档或者打开文档
# 如何获得
# 新建文档
doc = app.Documents.Add()
# 打开已有文档
doc = app.Documents.Open('你的Word文件路径')
3. Selection对象:选区:代表当前窗口的选区。它可以是文档中的选择(高亮)区域,也可以是插入点(如果没有什么被选中)。同一时间只能激活一个Selection。
· 如何获得
s = app.Selection
在Word中,按下Alt+F11打开宏编辑器



然后点击视图菜单,按下F2打开对象浏览器



输入selection并回车,发现成员一列中完全匹配Selection的只有4个类,这表示只有这些类的Selection属性可以返回Selection对象(如图)。



Application我们前面介绍过,其它的类可以用同样的方法查询如何获得。
· 如何使用Selection输入
# 替换当前选择
s.Text = 'Hello, world!'
# 输入
s.TypeText('Hello, world!')
# 把当前选择复制到剪贴板
s.Copy()
# 粘贴剪贴板中的内容
s.Paste()
Text和TypeText的不同在于完成后的选区:
Text:输入的文本(前例中选区为'Hello, world!');
TypeText:文本后的插入点(前例中选区为!后的插入点)。
· 如何变更Selection
# 使用Start,End指定字符范围
s.Start = 0
s.End = n
# s从第0个字符(第1个字符前的插入点)到第n个字符。
# 汉字是每字为1字符
# 相当于按下Delete键
s.Delete()
# 相当于按下Ctrl+A
s.WholeStory()
# 向左移动
s.MoveLeft()
# 向右移动2个字符,第1个参数是移动单位WdUnits(具体见文档),1代表字符
s.MoveRight(1, 2)
按页移动selection:
移动至第五页首字符
doc.Application.ActiveDocument.Range().GoTo(1, 1,5).Select()
4. Range对象:连续区域。Range表示一个连续区域。Range由Start和End位置定义,用来区分文档的不同部分。Range是独立于Selection的。不管Selection是否改变,都可以定义和操作Range。文档中可以定义多个Range。这个连续区域同样可以小到一个插入点,大到整个文档。Selection有Range属性,而Range没有Selection属性。当使用Range(Start, End)方法来指定文档的特定范围时。文档的第一个字符位置为0,最后一个字符的位置和文档的字符总数相等。不提供参数时代表选择所有范围。
· 如何获得
r = doc.Range()
# 或
r = s.Range()
Word中有很多对象的Range属性都能返回Range对象,请在Word-宏编辑器-对象浏览器中自己查询。
· 如何使用
Range的很多属性和方法和Selection是类似的,具体看文档。
Range.Collapse(Object) 方法
https://docs.microsoft.com/zh-cn/dotnet/api/microsoft.office.interop.word.range.collapse?view=word-pia
该方法我理解为,收缩选区,可以进行移动鼠标,进行selection的移动,可以实现好多好玩的办公自动化。
5. Font对象:字体。包含对象的字体属性(字体名称、字号、颜色等)。
· 如何获得
font = s.Font
# 或
font = r.Font
同样,其余获得方法可在Word-宏编辑器-对象浏览器中查询。
· 如何使用
# 字体设置为仿宋,电脑上必须安装有该字体
font.Name = '仿宋'
# 字号设置为三号
font.Size = 16
6. ParagraphFormat对象:段落格式。用来设置段落格式,包括对齐、缩进、行距、边框底纹等。
· 如何获得
pf = s.ParagraphFormat
# 或
pf = r.ParagraphFormat
同样,其余获得方法可在Word-宏编辑器-对象浏览器中查询。
· 如何使用
# 左、中、右 对齐分别为0, 1, 2,其他对齐方式见.NET 文档中的ParagraphFormat
pf.Alignment = 0
# 单倍、1.5倍、双倍行距分别为0, 1, 2,其他见ParagraphFormat文档
pf.LineSpacingRule = 0
# 指定段落的左缩进值为21磅。
pf.LeftIndent = 21
7. PageSetup对象:页面设置。代表所有的页面设置属性,包括左边距,底边距,纸张大小等等。
· 如何获得
ps = doc.PageSetup
# 或
ps = s.PageSetup
# 或
ps = r.PageSetup
· 如何使用
# 上边距79磅
ps.TopMargin = 79
# 页面大小,A3、A4分别为6,7
ps.PageSize = 7
8. Styles对象:样式集。Styles包含指定文档中内置和用户定义的所有样式,它返回一个样式集。其中的每个样式的属性包括字体、 字形、 段落间距等。如常见的正文、页眉、标题1样式。
· 如何获得
# 只能通过文档获得
styles = doc.Styles
· 如何使用
# 返回正文样式
normal = styles(-1)
# 修改正文样式的字体字号
normal.Font.Name = '仿宋'
normal.Font.Size = 16
Styles的返回参数,标题1、标题2、标题3分别为-2、-3、-4,页眉为-32,标题为-63,其他见Styles文档
注意(-1)的语法,在与word交互中,获取集合(列表)中的元素并不是python中的[1],而是(1)。
而且括号中可能包含-127之类的,python中不会用到的序号,具体请看文档
四、展示: 手动录宏,python自动化
这部分主要是展示通过这种方法能做什么功能,原理上,手动实现的一切,通过编程都可以实现,这有两个部分的设置,一是页面设置、二是页码设置
from win32com.client import Dispatch #需要安装的是pypiwin32模块
app=Dispatch('Word.Application')
doc = app.Documents.Open('你的word文档路径')
# 页面设置
cm_to_points = 28.35 # 1厘米为28.35磅
# 国家公文格式标准要求是上边距版心3.7cm
# 但是如果简单的把上边距设置为3.7cm
# 则因为文本的第一行本身有行距
# 会导致实际版心离上边缘较远,上下边距设置为3.3cm
# 是经过实验的,可以看看公文标准的图示
# 版心指的是文字与边缘距离
doc.PageSetup.TopMargin = 3.3*cm_to_points
# 上边距3.3厘米
doc.PageSetup.BottomMargin = 3.3*cm_to_points
# 下边距3.3厘米
doc.PageSetup.LeftMargin = 2.8*cm_to_points
# 左边距2.8厘米
doc.PageSetup.RightMargin = 2.6*cm_to_points
# 右边距2.6厘米
# 设置正常样式的字体
# 是为了后面指定行和字符网格时
# 按照这个字体标准进行
doc.Styles(-1).Font.Name = '仿宋'
# word中的“正常”样式字体为仿宋
doc.Styles(-1).Font.NameFarEast = '仿宋'
# word中的“正常”样式字体为仿宋
doc.Styles(-1).Font.NameAscii = '仿宋'
# word中的“正常”样式字体为仿宋
doc.Styles(-1).Font.NameOther = '仿宋'
# word中的“正常”样式字体为仿宋
doc.Styles(-1).Font.Size = 16
# word中的“正常”样式字号为三号
doc.PageSetup.LayoutMode = 1
# 指定行和字符网格
doc.PageSetup.CharsLine = 28
# 每行28个字
doc.PageSetup.LinesPage = 22
# 每页22行,会自动设置行间距
# 页码设置
doc.PageSetup.FooterDistance = 2.8*cm_to_points
# 页码距下边缘2.8厘米
doc.PageSetup.DifferentFirstPageHeaderFooter = 0
# 首页页码相同
doc.PageSetup.OddAndEvenPagesHeaderFooter = 0
# 页脚奇偶页相同
w = doc.windows(1)
# 获得文档的第一个窗口
w.view.seekview = 4
# 获得页眉页脚视图
s = w.selection
# 获取窗口的选择对象
s.headerfooter.pagenumbers.startingnumber = startingnumber
# 设置起始页码
s.headerfooter.pagenumbers.NumberStyle = 0
# 设置页码样式为单纯的阿拉伯数字
s.WholeStory()
# 扩选到整个部分(会选中整个页眉页脚)
s.Delete()
#按下删除键,这两句是为了清除原来的页码
s.headerfooter.pagenumbers.Add(4)
# 添加页面外侧页码
s.MoveLeft(1, 2)
# 移动到页码左边,移动了两个字符距离
s.TypeText('— ')
# 给页码左边加上一字线,注意不是减号
s.MoveRight()
#移动到页码末尾,移动了一个字符距离
# 默认参数是1(字符)
s.TypeText(' —')
s.WholeStory()
# 扩选到整个页眉页脚部分,此处是必要的
# 否则s只是在输入一字线后的一个光标,没有选择区域
s.Font.Name = '宋体'
s.Font.Size = 14
#页码字号为四号
s.paragraphformat.rightindent = 21
#页码向左缩进1字符(21磅)
s.paragraphformat.leftindent = 21
# 页码向右缩进1字符(21磅)
doc.Styles('页眉').ParagraphFormat.Borders(-3).LineStyle = 0
# 页眉无底边框横线
五、实验: 多试多感觉
因为有很多功能,在文档中难以直接找到,需要使用如下步骤解决。这些步骤是本文的核心,任何一个人都可以通过这些步骤实现word中的任何功能。使用word的视图选项卡中的宏 -> 录制宏,把想实现的步骤手动操作录制成宏后 -> 停止录制,在宏编辑器里查看VBA代码,从而了解大概使用什么方法。有些新功能宏可能不支持,但通过.NET API的文档还是能解决
我们以评论中的修改背景颜色为例。
1、通过宏录制,了解编程实现的大体步骤和方法
首先我们得知道手动如何实现该功能。
我们首先在网上查找如何在word2016中修改背景颜色,查得需要通过设计选项卡中的背景颜色。如果需要打印出这种颜色,还需要勾选word选项中的打印背景颜色。
接着我们手动操作,并录制宏
在word中的开发工具选项卡,点击录制宏,弹出录制宏窗口如下



我们点击确定,依次在设计选项卡修改页面颜色为绿色,点击开发工具选项卡中的停止录制宏。
现在宏就录制好了,我们去看看都有什么内容。
按下Alt+F8,打开宏窗口,选择刚才录制的宏,点击编辑按钮。
在宏编辑器中可以看到我们所做的修改。
Sub 宏1()
'
' 宏1 宏
'
'
ActiveDocument.Background.Fill.ForeColor.RGB = RGB(146, 208, 80)
ActiveDocument.Background.Fill.Visible = msoTrue
ActiveDocument.Background.Fill.Solid
Options.PrintBackgrounds = True
End Sub
这里的ActiveDocument实际上就是第三部分中介绍的Document,实际上大多数的对象都是由第三部分中介绍的几个基本顶级对象延伸出来的。
2. 如果不知道从哪获得实现该功能的对象,则可以使用word宏编辑器的对象浏览器(F2键),具体见前文Selection部分
如果实在不知道的话,可以在打开的宏编辑器中,按下F2,弹出对象浏览器如下。
我们在左上角的搜索栏中,输入Background,查找Background的顶级类是什么
如图所示,只有Document和ChartFont。
因为宏录制出的是VBA,而.NET文档又是C#,我们想使用的又是python,所以可能存在一定的转换。但幸运地是win32com在设计之初,就考虑到多语言的应用,所以win32com在多个语言下所用的接口几乎一样,都是类型。这样我们就能很轻松地从VBA转换到C#,再到python。
3. 在线.NET查看Document的方法。https://docs.microsoft.com/zh-cn/dotnet/api/microsoft.office.interop.word.range.collapse?view=word-pia
我们在搜索处,输入,
第一个就是我们想要的类。实际上最常用的几个类,都是以下划线开头的这几个,已经列在列表的最前面了。本例中使用_Document类(同Document)即可。



在python中通过win32com修改Visible,以及类似的以Enum(枚举值)为值的属性时,不能直接使用msoTrue,也不能使用python中的True和False,而是应该查询该枚举值的具体情况,如上图中使用-1、0这些值,而1是暂不支持的。
但是属性值是Boolean(布尔值),则可以直接使用python的True和False,甚至1、0这些值
所以在python中,这句代码应该为
Document.Background.Fill.Visible = -1
options也可以在宏编辑器的对象浏览器里找到,是属于Word的属性,Word对象即Application对象。
有时候发现录制的宏中有Array类型,这实际就是Python的list类型
结语:
希望能对您有所帮助,感谢你能帮我点点,给点动力,共同进步!同时感谢网上大家辛苦分享与探讨。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|天恒办公

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表