首页 > 其他 > 详细

一键抓出PPT中的所有文字【保存为txt,docx】

时间:2021-04-12 12:34:31      阅读:18      评论:0      收藏:0      [点我收藏+]
#提取所有文本字符
from pptx import Presentation
data = []
prs = Presentation(‘data\课件.pptx‘)
for slide in prs.slides: #遍历每页PPT
for shape in slide.shapes: #遍历PPT中的每个形状
if shape.has_text_frame: #判断该是否包含文本,保证有文本才提取
for paragraph in shape.text_frame.paragraphs: #按文本框中的段落提取
data.append(paragraph.text) #提取一个段落的文本,就存到列表data中


#写入文本文件
TxtFile = open(‘data\课件.txt‘, ‘w‘,encoding=‘utf-8‘)
for i in data:
TxtFile.write(i+‘\n‘) #写入并换行,以保证正确分段
TxtFile.close() #保存


#写入word文件
import docx
doc=docx.Document()#创建一个word文件对象
for i in data:
doc.add_paragraph(i) #增加一个段落,并将列表中的一个字符串写入word文件
doc.save(‘data\课件.docx‘)#保存


print("已转换完成")

一键抓出PPT中的所有文字【保存为txt,docx】

原文:https://www.cnblogs.com/tanchao/p/14647209.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!