C# 使用 iTextSharp 将 PDF 转换成 TXT 文本

             var pdfReader = new PdfReader("xxx.pdf");

             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create));

             int pageCount = pdfReader.NumberOfPages;
for (int pg = ; pg <= pageCount; pg++)
{
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);
value = value.Replace(" ", "");
Console.WriteLine(value);
output.Write(value);
} output.Flush();
output.Close();
Console.Write("处理完毕");
Console.ReadLine();

该方法读出的汉字不会乱码。

上一篇:C# Linq To DataTable 分组统计 DEMO


下一篇:Python 将pdf转换成txt(不处理图片)