翻譯|使用教程|編輯:楊鵬連|2021-04-09 11:41:05.543|閱讀 230 次
概述:本文介紹了有關(guān)如何開始使用C#,VB和Java從PDF閱讀文本的一些概述。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLS Recognition Imaging SDK是精選的LEADTOOLS SDK功能集,旨在在企業(yè)級(jí)文檔自動(dòng)化解決方案中構(gòu)建端到端文檔成像應(yīng)用程序,這些解決方案需要OCR,MICR,OMR,條形碼,表單識(shí)別和處理,PDF,打印捕獲 ,檔案,注釋和圖像查看功能。 這套功能強(qiáng)大的工具利用LEAD屢獲殊榮的圖像處理技術(shù),智能識(shí)別可用于識(shí)別和提取任何類型的掃描或傳真形式圖像數(shù)據(jù)的文檔功能。
雖然PDF文件既靈活又可移植,但不幸的是它們并不總是可搜索的。實(shí)際上,一個(gè)非常普遍的要求是能夠解析PDF中的文本。幸運(yùn)的是, LEADTOOLS OCR Engine使得從PDF文件中提取可搜索文本變得輕而易舉。LEAD的AI增強(qiáng)引擎可以接受任何PDF(無論是否可搜索),并在必要時(shí)使用OCR從中提取文本。提取后,LEADTOOLS可以將該信息保存到文本文件,可搜索的PDF文件或 其他150多種受支持的文檔格式中。
下面概述了有關(guān)如何開始使用C#,VB和Java從PDF閱讀文本的一些概述。
C#–從PDF獲取文本
以下是C??刂婆_(tái)應(yīng)用程序的概述,該應(yīng)用程序?qū)?duì)輸入文件進(jìn)行OCR并將文本打印到控制臺(tái)。
public void DocumentPageGetTextExample() { var options = new LoadDocumentOptions(); using (var document = DocumentFactory.LoadFromFile(Path.Combine(LEAD_VARS.ImagesDir, "input.pdf"), options)) { var ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD); var rasterCodecs = new RasterCodecs(); var documentWriter = new DocumentWriter(); ocrEngine.Startup(rasterCodecs, documentWriter, null, LEAD_VARS.OcrLEADRuntimeDir); document.Text.OcrEngine = ocrEngine; // get text var page = document.Pages[0]; var pageText = page.GetText(); if (pageText != null) { pageText.BuildText(); var text = pageText.Text; Console.WriteLine(text); } else { Console.WriteLine("Failed!"); } } } static class LEAD_VARS { public const string ImagesDir = @"C:\Input_File_Path\"; public const string OcrLEADRuntimeDir = @"C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime"; }Visual Basic –從PDF獲取文本
以下VB代碼將對(duì)輸入文件進(jìn)行OCR并將文本打印到控制臺(tái)。
Public Shared Sub DocumentPageGetTextExample() Dim options As New LoadDocumentOptions() Using document As Leadtools.Document.LEADDocument = DocumentFactory.LoadFromFile(Path.Combine(DocumentPath.Path, "input.pdf"), options) Dim ocrEngine As IOcrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD) Dim rasterCodecs As New RasterCodecs() Dim documentWriter As New DocumentWriter() ocrEngine.Startup(rasterCodecs, documentWriter, Nothing, LEAD_VARS.OcrLEADRuntimeDir) document.Text.OcrEngine = ocrEngine ' get text Dim page As Leadtools.Document.DocumentPage = document.Pages(0) Dim pageText As DocumentPageText = page.GetText() If Not pageText Is Nothing Then pageText.BuildText() Dim text As String = pageText.Text Console.WriteLine(text) Else Console.WriteLine("Failed!") End If End Using End Sub Public NotInheritable Class LEAD_VARS Public Const OcrLEADRuntimeDir As String = "C:\LEADTOOLS21\Bin\Common\OcrLEADRuntime" End ClassJava –從PDF獲取文本
LEADTOOLS引擎能夠?qū)⑻崛〉奈谋敬鎯?chǔ)為 150種支持的文件格式中的一種。這是Java實(shí)現(xiàn)的示例。
static void ConvertToDocument(String inputFile, DocumentConverter docConverter, OcrEngine ocrEngine) { DocumentWriter docWriter = new DocumentWriter(); ocrEngine.startup(new RasterCodecs(), docWriter, null, null); String outputFile = "C:\\OutputFilePath\\searchablePDF.pdf"; docConverter.setDocumentWriterInstance(docWriter); docConverter.setOcrEngineInstance(ocrEngine, true); DocumentConverterJobData jobData = DocumentConverterJobs.createJobData(inputFile, outputFile, DocumentFormat.PDF); jobData.setJobName("DocumentConversion"); DocumentConverterJob job = docConverter.getJobs().createJob(jobData); docConverter.getJobs().runJob(job); if (job.getErrors().size() > 0) for (DocumentConverterJobError error : job.getErrors()) System.out.println("\nError during conversion: " + error.getError().getMessage()); else System.out.println("Successfully converted file to " + outputFile); }您是否看到我們之前的文章“ 如何將PDF轉(zhuǎn)換為DOC / DOCX”?請(qǐng)繼續(xù)關(guān)注更多轉(zhuǎn)換示例,以了解LEADTOOLS文檔轉(zhuǎn)換器如何輕松地將其轉(zhuǎn)換為將PDF文件轉(zhuǎn)換為其他文檔文件或圖像并再次返回的任何工作流程。在此期間需要幫助嗎? 請(qǐng)聯(lián)系我們的支持團(tuán)隊(duì)以獲取免費(fèi)的技術(shù)支持!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自: