c#抽取pdf文档标题（1）

2023-07-26 11:08:40

首先看看我的项目结构：

从上面的结果图中，我们可以看出，主要用了两个库：itextsharp.dll 和 pdfbox-1.8.9.dll，dll文件夹存放引用的库，handles文件夹存放抽取的处理代码，lib文件夹中，相当于数据库中的DBHelp类的作用。model文件夹就不用介绍了，大家都知道。

我们从大的逻辑开始介绍，TitleHandle类中有一个方法：

从此方法可以看出，它接收两个参数：block和isTrainModel，返回 HandleResult类型。

我们先来看看Block的定义：

块由行构成，我们再看看Line的定义：

行由单词构成，再来看Word定义：

它其实是一个词的集合，WordMeta是一个单词的信息，它下面还有一层结构 WordInfo类，这个类是最基础的类，它代表了pdf文档中一个字符信息，底层基础决定上层建筑：

   public class WordInfo

     {

         /// <summary>

         /// x坐标

         /// </summary>

         public float X { set; get; }

         /// <summary>

         /// y坐标

         /// </summary>

         public float Y { set; get; }

         public int XSize { set; get; }

         public int YSize { get; set; }

         public float XDirAdj { set; get; }

         public float YDirAdj { set; get; }

         /// <summary>

         /// 字号

         /// </summary>

         public float FontSize { set; get; }

         public float Xscale { set; get; }

         public float Yscale { set; get; }

         /// <summary>

         /// 高度

         /// </summary>

         public float Height { set; get; }

         /// <summary>

         /// 空格大小

         /// </summary>

         public float Space { set; get; }

         /// <summary>

         /// 宽度

         /// </summary>

         public float Width { set; get; }

         /// <summary>

         /// 子字体

         /// </summary>

         public string Subfont { set; get; }

         /// <summary>

         /// 基本字体

         /// </summary>

         public string Basefont { set; get; }

         /// <summary>

         /// 是否加粗

         /// </summary>

         public bool IsBold { set; get; }

         /// <summary>

         /// 是否倾斜

         /// </summary>

         public bool IsItalic { set; get; }

         /// <summary>

         /// 单词

         /// </summary>

         public string Word { set; get; }

         public override string ToString()

         {

             return "String[" + this.XDirAdj + ","

                  + this.YDirAdj

                  + " fs=" + this.FontSize

                  + " xscale=" + this.Xscale

                  + " isBold=" + this.IsBold

                  + " space=" + this.Space

                  + " isItalic=" + this.IsItalic

                  + "xSize" + this.XSize

                  + "ySize" + this.YSize

                  + " width=" + this.Width + "]"

                  + this.Word;

         }

         /// <summary>

         /// 计算当前字符和lastChunk的距离

         /// </summary>

         /// <param name="lastChunk"></param>

         /// <returns></returns>

         public float DistanceFromEndOf(WordInfo lastChunk)

         {

             return this.X - lastChunk.X - lastChunk.Width;

         }

     }

这个类包括了字符的位置，大小，粗细等等信息。这些信息是基础当中的基础，因此非常重要，给我们判断一个块是否是标题，提供了依据，相当于国之宪法。

从我解剖出来的结构看，解析出pdf标题，关键有两点：

第一，如何正确地划分块，把具有相同格式的多行文字划分到一个块中，这样就形成了一个块的字典集合，也就是Block类中的字典类型：Dictionary<int, List<WordMeta>>。

分块也有难点，有很多上标和下标的句子，也有很多非常相似的块，可能分错。比如标题的块和作者的块，文字格式如果非常接近的话，就很容易把作者和标题划分到同一个块中，这给后面的工作带来了麻烦，以至于提取了错误的标题。

第二，如何从众多的块中筛选出标题。

此处也采取了很多筛选策略。

1、根据块长度，淘汰字符长度太短的。

2、根据块位置，淘汰位置太偏的。

3、评分机制，根据块的特征信息，计算出一个0-1之间的数值来，然后选取第一名和第二名的块。

4、在第一名和第二名之间选择。根据它们的位置，字符长度，分值，块的高度，块所包含的单词数等来判断。

码农公寓

相关文章