国产普通话刺激视频在线播放,国产乱人视频在线观看播放器,国产一级淫片a免费播放口

国产凹凸在线-国产拗女一区二区三区-国产白白视-国产白领-国产白拍-国产白丝jk被疯狂输-国产白丝喷-国产白丝在线

LEADTOOLS如何將PDF轉(zhuǎn)換為C＃、VB和Java中的文本？

翻譯|使用教程|編輯：楊鵬連|2021-04-09 11:41:05.543|閱讀 230 次

概述：本文介紹了有關(guān)如何開始使用C＃，VB和Java從PDF閱讀文本的一些概述。

LEADTOOLS Recognition Imaging SDK是精選的LEADTOOLS SDK功能集，旨在在企業(yè)級(jí)文檔自動(dòng)化解決方案中構(gòu)建端到端文檔成像應(yīng)用程序，這些解決方案需要OCR，MICR，OMR，條形碼，表單識(shí)別和處理，PDF，打印捕獲，檔案，注釋和圖像查看功能。這套功能強(qiáng)大的工具利用LEAD屢獲殊榮的圖像處理技術(shù)，智能識(shí)別可用于識(shí)別和提取任何類型的掃描或傳真形式圖像數(shù)據(jù)的文檔功能。

點(diǎn)擊下載LEADTOOLS 試用版

雖然PDF文件既靈活又可移植，但不幸的是它們并不總是可搜索的。實(shí)際上，一個(gè)非常普遍的要求是能夠解析PDF中的文本。幸運(yùn)的是， LEADTOOLS OCR Engine使得從PDF文件中提取可搜索文本變得輕而易舉。LEAD的AI增強(qiáng)引擎可以接受任何PDF（無論是否可搜索），并在必要時(shí)使用OCR從中提取文本。提取后，LEADTOOLS可以將該信息保存到文本文件，可搜索的PDF文件或其他150多種受支持的文檔格式中。

下面概述了有關(guān)如何開始使用C＃，VB和Java從PDF閱讀文本的一些概述。

C＃–從PDF獲取文本

以下是C?？刂婆_(tái)應(yīng)用程序的概述，該應(yīng)用程序?qū)?duì)輸入文件進(jìn)行OCR并將文本打印到控制臺(tái)。

public void DocumentPageGetTextExample()
{
 var options = new LoadDocumentOptions();
 using (var document = DocumentFactory.LoadFromFile(Path.Combine(LEAD_VARS.ImagesDir, "input.pdf"), options))
 {
  var ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD);
  var rasterCodecs = new RasterCodecs();
  var documentWriter = new DocumentWriter();
  ocrEngine.Startup(rasterCodecs, documentWriter, null, LEAD_VARS.OcrLEADRuntimeDir);

  document.Text.OcrEngine = ocrEngine;

  // get text
  var page = document.Pages[0];
  var pageText = page.GetText();
  if (pageText != null)
  {
   pageText.BuildText();
   var text = pageText.Text;

   Console.WriteLine(text);
  }
  else
  {
   Console.WriteLine("Failed!");
  }
 }
}

static class LEAD_VARS
{
 public const string ImagesDir = @"C:\Input_File_Path\";
 public const string OcrLEADRuntimeDir = @"C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime";
}

Visual Basic –從PDF獲取文本

以下VB代碼將對(duì)輸入文件進(jìn)行OCR并將文本打印到控制臺(tái)。

Public Shared Sub DocumentPageGetTextExample()
 Dim options As New LoadDocumentOptions()
 Using document As Leadtools.Document.LEADDocument = DocumentFactory.LoadFromFile(Path.Combine(DocumentPath.Path, "input.pdf"), options)
  Dim ocrEngine As IOcrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD)
  Dim rasterCodecs As New RasterCodecs()
  Dim documentWriter As New DocumentWriter()
  ocrEngine.Startup(rasterCodecs, documentWriter, Nothing, LEAD_VARS.OcrLEADRuntimeDir)

  document.Text.OcrEngine = ocrEngine

  ' get text
  Dim page As Leadtools.Document.DocumentPage = document.Pages(0)
  Dim pageText As DocumentPageText = page.GetText()
  If Not pageText Is Nothing Then
   pageText.BuildText()
   Dim text As String = pageText.Text

   Console.WriteLine(text)
  Else
   Console.WriteLine("Failed!")
  End If
 End Using
End Sub

Public NotInheritable Class LEAD_VARS
 Public Const OcrLEADRuntimeDir As String = "C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime"
End Class

Java –從PDF獲取文本

LEADTOOLS引擎能夠?qū)⑻崛〉奈谋敬鎯?chǔ)為 150種支持的文件格式中的一種。這是Java實(shí)現(xiàn)的示例。

static void ConvertToDocument(String inputFile, DocumentConverter docConverter, OcrEngine ocrEngine)
{
 DocumentWriter docWriter = new DocumentWriter();
 ocrEngine.startup(new RasterCodecs(), docWriter, null, null);

 String outputFile = "C:\\OutputFilePath\\searchablePDF.pdf";

 docConverter.setDocumentWriterInstance(docWriter);
 docConverter.setOcrEngineInstance(ocrEngine, true);
 DocumentConverterJobData jobData = DocumentConverterJobs.createJobData(inputFile, outputFile, DocumentFormat.PDF);
 jobData.setJobName("DocumentConversion");

 DocumentConverterJob job = docConverter.getJobs().createJob(jobData);
 docConverter.getJobs().runJob(job);

 if (job.getErrors().size() > 0)
  for (DocumentConverterJobError error : job.getErrors())
   System.out.println("\nError during conversion: " + error.getError().getMessage());
 else
  System.out.println("Successfully converted file to " + outputFile);
}

您是否看到我們之前的文章“ 如何將PDF轉(zhuǎn)換為DOC / DOCX”？請(qǐng)繼續(xù)關(guān)注更多轉(zhuǎn)換示例，以了解LEADTOOLS文檔轉(zhuǎn)換器如何輕松地將其轉(zhuǎn)換為將PDF文件轉(zhuǎn)換為其他文檔文件或圖像并再次返回的任何工作流程。在此期間需要幫助嗎？請(qǐng)聯(lián)系我們的支持團(tuán)隊(duì)以獲取免費(fèi)的技術(shù)支持！

試用版下載>>>

查看LEADTOOLS詳細(xì)介紹>>

LEADTOOLS 使用教程>>>

想要購買LEADTOOLS正版授權(quán)，或了解更多產(chǎn)品信息請(qǐng)點(diǎn)擊

標(biāo)簽：

本站文章除注明轉(zhuǎn)載外，均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載，但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接，如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn

文章轉(zhuǎn)載自：

上一篇：BI工具 Qlik 教程：創(chuàng)建詞匯下一篇：VS2019/MFC編程入門：樹形控件Tree Control 上

相關(guān)產(chǎn)品

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號(hào)：10780

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請(qǐng)來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Imaging Pro Developer Toolkit

20多年的老牌圖像處理控件，支持TWAIN掃描、200多種圖像效果、150多種圖像格式…

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號(hào)：10781

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請(qǐng)來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Suite Developer Toolkit

LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點(diǎn)的精選組合，這套強(qiáng)大的工具利用了LEAD行業(yè)領(lǐng)先的圖像處理技術(shù)來智能地識(shí)別文檔的特征，而根據(jù)文檔的特征可以識(shí)別掃描的或傳真的任何類型的表格圖像。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號(hào)：10782

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請(qǐng)來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Imaging Developer Toolkit

多語言的文檔圖像處理控件，支持光符識(shí)別處理、條形碼掃描識(shí)別等。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源