如何判断PDF文本是否已旋转

问题描述

我正在尝试使用iText7从PDF提取文本。我正在使用IEventListener来获取页面的所有部分,尽管某些文本已旋转。我可以找到有关如何将旋转的文本插入PDF的示例,但找不到关于如何分辨给定的文本段是否旋转的任何信息。

任何人都可以帮忙吗?

public void EventOccurred(IEventData data,EventType type)
{
    PdfPart part = null;

    switch (type)
    {
        case EventType.BEGIN_TEXT:
            break;
        case EventType.RENDER_TEXT:
            part = new PdfTextPart(PageNumber,data as TextRenderInfo);
            Parts.Add(part);
            break;
        case EventType.END_TEXT:
            break;
        case EventType.RENDER_IMAGE:
            var imageData = data as ImageRenderInfo;
            //this.HandleImage(imageData);
            break;
        case EventType.RENDER_PATH:
            part = new PdfLinePart(PageNumber,data as PathRenderInfo);
            Parts.Add(part);
            break;
        case EventType.CLIP_PATH_CHANGED:
            break;
        default:
            break;
    }
}
public PdfTextPart(Int32 pageNumber,TextRenderInfo info) : base(pageNumber)
{
    Text = info.GetText();

    var font = info.GetFont().GetFontProgram().GetFontNames();
    Font = font.GetFontName();

    if (font.IsItalic()) { this.IsItalic = true; }
    if (font.IsBold()) { this.IsBold = true; }
    if (font.IsUnderline()) { this.IsUnderline = true; }
}

解决方法

TextRenderInfo有一个基线。该基线是LineSegment,因此具有起点和终点。现在,您只需要确定这两个点之间的线的角度即可。

TextRenderInfo info

LineSegment baseline = info.GetBaseline();
Vector startPoint = baseline.GetStartPoint();
Vector endPoint = baseline.GetEndPoint();
Vector direction = endLocation.Subtract(startLocation);
double angle = Math.Atan2(direction.Get(Vector.I2),direction.Get(Vector.I1));

结果显然是弧度的。

您可能还需要考虑页面旋转(如果我没记错的话),该页面旋转没有计算到以上坐标中。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...