发布:2021/3/3 17:01:16作者:管理员 来源:本站 浏览次数:2598
spire.office文档处理组件(spire office组件源码)是一款能帮助开发人员创建、读取、转换、打印word文件和写入设计库的开发工具,因为是独立的.NET组件,不用安装到word等办公软件上就能使用,但它能将微软文档创建功能集成到开发者的应用程序中,可以说是一个非常可靠的MS Word 的API。
一、文本提取
通常我们在做一些文档索引或者文档解析的时候,需要得到文档的纯文本内容,这样便于对不同格式的文档进行通用的处理。最常见的就是将文档内容作为索引提交的搜索引擎,从而实现对不同格式文档的搜索。
通过Spire.Office的Doc和Pdf组件能比较方便的抽取文档的文本,需要用到以下两个组件
Spire.Pdf
demo界面
抽取Word文档
以下代码是加载一个文件流,这个示例是读取上传的文件流,然后遍历文档的每个section,再遍历每个section下的Paragraph,读取里面的文本,得到最终的文档文本内容。
下图是用于提取的doc文档以及提取后纯文本内容
(word原文) (抽取后的原文)
抽取Pdf文档
类似于Word文档抽取,代码直观明了,加载文件流,然后遍历每一页,提取文本。
下图是用于提取的pdf文档以及提取后纯文本内容
(pdf原文) (抽取后的文本)
二、导出Excel数据
导出Excel也是开发中经常遇到的烂大街功能,初期使用过response直接写csv文件,之后用上了专业的组件比如NPOI,现在用Spire.Xls组件来看看效果如何。
demo界面,为了方便演示,直接让用户提交数据库连接字符串和查询语句,然后导出Excel文件
关键代码
大概步骤就是,创建一个Workbook,然后将从数据库得到的DataTable插入到shee中,几行代码比较便捷的得到包含数据的Excel文件
导出的文件效果
导出Excel文档效果(基于[AdventureWorks2014].[Production].[Product]表)
由于用的是评估版,所以导出的Excel最后一个sheet是一些试用提示信息
三、生成文档
文档生成通常用于动态从数据库读取一些变化的数据,然后套用某个模板将数据填入,最终生成看起来一个有模有样的文档,通常是那种八股文。曾经做个简历导出,就是用的类似的方式,实现将同一份数据导出成不同的文档格式。
这里使用Spire.Doc和Spire.Pdf两大组件,实现创建word和pdf文档的功能
demo界面,通过输入文档标题,文档名,若干个文档段落生成文档
关键代码
实现过程有点类似于文本抽取的逆向操作
创建Word文档
依次设置标题以及各个段落的内容
生成文档效果,由于是评估版,还是被硬生生的插入了一段提示,并且生成的word文档不能编辑(付费后应该是可以编辑的)
创建Pdf文档
创建过程类似于使用canvas画板,生成一个简单文档还不算复杂
生成文档效果,同样也是毫无违和感的被插入了评估版的提示。这里看到使用的是英文内容,因为目前测试评估版输入中文生成文档会显示为乱码,还没找到设置编码的方式
© Copyright 2014 - 2024 柏港建站平台 ejk5.com. 渝ICP备16000791号-4