翻譯|使用教程|編輯:鮑佳佳|2021-04-21 11:21:36.547|閱讀 222 次
概述:LEADTOOLS Document Imaging SDK具有廣泛的成像技術(shù),非常適合任何eDiscovery應(yīng)用程序。最簡(jiǎn)單的單一服務(wù)專家,端到端商業(yè)ECM,以及介于兩者之間的所有內(nèi)容,將找到在其應(yīng)用程序中添加世界一流的成像技術(shù)所需的一切。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
LEADTOOLs技術(shù)交流群現(xiàn)已開(kāi)通,QQ搜索群號(hào):731259648加入!
EADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK功能的綜合集合。它旨在建立終端到終端的文檔圖像應(yīng)用,用于企業(yè)級(jí)文檔自動(dòng)化解決方案,要求有捕捉,OCR,OMR,表單識(shí)別和處理,PDF,打印捕獲,歸檔,注釋和顯示功能。LEADTOOLS是一套功能強(qiáng)大的工具,利用業(yè)界領(lǐng)先的圖像處理技術(shù),能夠智能識(shí)別文件,可以用來(lái)識(shí)別任何類型的掃描或傳真形式的圖像。
下載EADTOOLS Document Imaging Suite SDK
LEADTOOLS Document Imaging SDKs擁有廣泛的成像技術(shù),完全適用于任何eDiscovery應(yīng)用程序。最簡(jiǎn)單的單一服務(wù)專家,端到端的商業(yè)ECM,以及介于兩者之間的一切,都能找到在其應(yīng)用中添加世界級(jí)成像技術(shù)所需的一切。
就像EDRM作為一個(gè)一般的指南和過(guò)程,其步驟可以跳過(guò)或重新審視一樣,下面概述的成像技術(shù)也不是一套強(qiáng)制性的功能。在大多數(shù)情況下,這些技術(shù)的順序遵循企業(yè)級(jí)ECM的典型使用流程,但可以修改和重組,以符合任何開(kāi)發(fā)團(tuán)隊(duì)的目標(biāo)和創(chuàng)造力。
掃描
一個(gè)ECM和eDiscovery應(yīng)用程序最關(guān)鍵的元素之一就是將紙質(zhì)文件數(shù)字化的能力。沒(méi)有什么能比掃描更有效地獲得高質(zhì)量的紙質(zhì)文件的數(shù)字副本了。即使這是一個(gè)公司為法庭做的全部準(zhǔn)備,由于簡(jiǎn)化了電子文件的運(yùn)輸和共享,掃描也能大量節(jié)省時(shí)間和資金。一個(gè)U盤就可以取代成百上千磅的文件,從一個(gè)辦公室運(yùn)到另一個(gè)辦公室,然后再運(yùn)到法庭上。
LEADTOOLS包括一些高級(jí)的類,可以非常容易地從任何帶有TWAIN驅(qū)動(dòng)程序或SANE后端的掃描儀中獲取圖像。請(qǐng)看下面的片段,它提示用戶選擇一個(gè)TWAIN源,然后將獲取的圖像加載到查看器中。
private void GetImageFromTwainSource() { _twainSession.SelectSource(string.Empty); _twainSession.AcquirePage += new EventHandler<TwainAcquirePageEventArgs>( twainSession_AcquirePage); _twainSession.Acquire(TwainUserInterfaceFlags.Show); } private void twainSession_AcquirePage(object sender, TwainAcquirePageEventArgs e) { imageViewer.Image = e.Image; }
文件清理和預(yù)處理
在考慮一個(gè)成像SDK時(shí),另一個(gè)非常重要的功能是其清理掃描圖像的能力。清理圖像有兩個(gè)主要的好處,每一個(gè)都對(duì)整個(gè)電子取證過(guò)程有巨大的涓滴影響
首先,可能是最明顯的,就是文件本身更容易閱讀。這對(duì)人眼來(lái)說(shuō)是好事,但對(duì)電腦來(lái)說(shuō)更是好事。小寫(xiě)字母L、大寫(xiě)字母L和數(shù)字1之間只有幾個(gè)像素的差距。人眼仍然可以閱讀帶有刪除線的文字,或者由紙張上的折痕造成的線條,但即使是最好的OCR引擎也會(huì)返回亂碼。
第二,是存儲(chǔ)空間。許多壓縮算法通過(guò)比較相鄰的像素來(lái)完成其工作。這對(duì)于構(gòu)成大多數(shù)掃描文件的黑白圖像來(lái)說(shuō)尤其如此。執(zhí)行圖像清理功能,去除灰塵斑點(diǎn)、孔洞、線條、邊框等,對(duì)單一顏色組成的塊的運(yùn)行長(zhǎng)度和大小有深遠(yuǎn)影響,允許非常高的壓縮率,高達(dá)92%以上的臟圖像的壓縮尺寸。
光學(xué)字符識(shí)別
光學(xué)字符識(shí)別是任何想要加強(qiáng)電子取證游戲的公司的必備工具。雖然掃描和清理圖像可以完成工作并涵蓋法律基礎(chǔ),但OCR提供了一個(gè)競(jìng)爭(zhēng)優(yōu)勢(shì),是進(jìn)入許多其他技術(shù)的主要墊腳石。
以前的靜態(tài)圖像在轉(zhuǎn)換為PDF、Microsoft Word或任何其他可搜索的文本格式時(shí)可以變得生動(dòng)。能夠搜索數(shù)字存儲(chǔ)文件的內(nèi)容是eDiscovery中的一項(xiàng)重要資產(chǎn),特別是在處理、審查和分析階段。LEADTOOLS可以創(chuàng)建圖像覆蓋文本的PDF,這在eDiscovery中非常有用,因?yàn)樵摳袷皆谖谋緦由媳A袅嗽紙D像,使其既可搜索,又與原始圖像幾乎沒(méi)有變化。即使TIFF仍然是ECM中的首選文件格式,OCR也可以為這些靜態(tài)圖像注入元數(shù)據(jù),在需要時(shí)可以進(jìn)行搜索或編制索引以方便參考。
LEADTOOLS使OCR變得異常簡(jiǎn)單。將磁盤上的源文件轉(zhuǎn)換為可搜索的PDF,只需三行代碼即可完成
IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.LEAD, false); ocrEngine.Startup(null, null, null, null); ocrEngine.AutoRecognizeManager.Run(@"C:?InputFile.tif", @"C:?OutputFile.pdf", DocumentFormat.Pdf, null, null);
形式
表格識(shí)別是OCR的一個(gè)專門實(shí)現(xiàn),它被精細(xì)地調(diào)整為從文件中提取特定的信息,而不是捕捉整個(gè)文件。一個(gè)組織可能有各種各樣的表格,從就業(yè)時(shí)提交的稅表到發(fā)給客戶的發(fā)票和賬單。就其本質(zhì)而言,表格有很多重復(fù)的信息,也許唯一相關(guān)的數(shù)據(jù)是由申請(qǐng)人、客戶、雇員等填寫(xiě)的。因此,在ECM中對(duì)這些表格進(jìn)行歸檔的最有效和最有用的方法是從這些字段中提取數(shù)據(jù),并在數(shù)據(jù)庫(kù)中建立索引或?qū)⑵浔4鏋樵獢?shù)據(jù)。
LEADTOOLS能夠處理表格的分類和處理。在分類時(shí),LEADTOOLS會(huì)將傳入的文件與主模板庫(kù)(即空白的、未填寫(xiě)的表格版本)進(jìn)行比較。然后,一旦發(fā)現(xiàn)匹配,它將執(zhí)行區(qū)域性O(shè)CR,從填寫(xiě)的表格中提取數(shù)據(jù)。
PDF格式
Adobe可攜式文件格式是迄今為止最流行的文件存儲(chǔ)格式,而且有充分的理由。PDF易于閱讀,可搜索,充滿元數(shù)據(jù),并且可以使用注釋和標(biāo)記。它的使用是如此普遍,以至于任何由于需要某種閱讀器或插件而對(duì)能夠加載文件的擔(dān)憂在很大程度上是沒(méi)有意義的。綜上所述,除了前面提到的通過(guò)OCR初步創(chuàng)建PDF之外,為什么eDiscovery應(yīng)用程序開(kāi)發(fā)者應(yīng)該使用LEADTOOLS呢?
LEADTOOLS包括一個(gè)完整的PDF SDK,它能完成的任務(wù)遠(yuǎn)遠(yuǎn)超過(guò)通過(guò)OCR創(chuàng)建一個(gè)可搜索的PDF。在eDiscovery過(guò)程中,可搜索的文本可能是PDF的最大優(yōu)勢(shì),但不幸的是,該功能通常只限于查看器的應(yīng)用。在有數(shù)千份文件需要分析的情況下,打開(kāi)每個(gè)文件既乏味又容易出錯(cuò)。LEADTOOLS允許開(kāi)發(fā)者解析PDF文件結(jié)構(gòu)中的文本、元數(shù)據(jù)、注釋、超鏈接等,使其有可能在一小部分時(shí)間內(nèi)搜索整個(gè)文件夾或磁盤驅(qū)動(dòng)器中的PDF文件以獲取相關(guān)的ESI。
文檔轉(zhuǎn)換器和文檔查看器
文件轉(zhuǎn)換是電子發(fā)現(xiàn)過(guò)程中一個(gè)非常普遍的需求,因?yàn)槊總€(gè)案件都是不同的,每個(gè)客戶和訴訟律師都會(huì)達(dá)成各種共享文件的條款。一個(gè)ECM可能會(huì)將所有文件存儲(chǔ)為PDF格式,但商定的生產(chǎn)格式可能是DOC。
在電子發(fā)現(xiàn)過(guò)程中,文件轉(zhuǎn)換是一個(gè)非常普遍的需求,因?yàn)槊總€(gè)案件都是不同的,每個(gè)客戶和訴訟律師都會(huì)達(dá)成各種共享文件的條款。一個(gè)ECM可能把所有的東西都存儲(chǔ)為PDF,但商定的生產(chǎn)格式可能是DOC。
LEADTOOLS包括一個(gè)文檔轉(zhuǎn)換器庫(kù),它可以在各種文檔格式之間進(jìn)行轉(zhuǎn)換,包括PDF、PDF/A、DOC/DOCX、XLS/XLSX和PPT/PPTX,而不需要OCR。這種獨(dú)特的區(qū)別對(duì)電子發(fā)現(xiàn)來(lái)說(shuō)是一個(gè)巨大的好處,因?yàn)樗鼭M足了保存的要求,同時(shí)也簡(jiǎn)化了處理、審查、分析和生產(chǎn)。文件轉(zhuǎn)換器還可以接受150多種非文件格式,如TIFF、JPEG、PNG和BMP,并使用OCR將這些圖像轉(zhuǎn)換為PDF圖像文本,使其成為一個(gè)完美的、程序員友好的文件規(guī)范化工具。
與文檔轉(zhuǎn)換器密切相關(guān)的是文檔查看器。從表面上看,文檔查看器可用于.NET和JavaScript,實(shí)現(xiàn)了像Acrobat Professional這樣的豐富的PDF查看應(yīng)用程序所包含的許多功能:搜索和選擇文本,跟蹤書(shū)簽,添加和編輯注釋,以及高質(zhì)量的、基于矢量的縮放,以便在任何比例系數(shù)下平滑渲染。當(dāng)文檔查看器與文檔轉(zhuǎn)換器結(jié)合時(shí),它才真正與眾不同。它們一起提供即時(shí)的文檔規(guī)范化,可以查看、搜索和注釋150多種文檔和圖像格式。基于云的存儲(chǔ)和查看在許多法庭上的接受度越來(lái)越高,而LEADTOOLS JavaScript Document Viewer是一個(gè)完美的選擇,它可以查看幾乎所有原生格式的文檔,并具有與基于文本的PDF相同的功能。
注釋和標(biāo)記
注釋和標(biāo)記可以顯示在EDRM的許多階段。注釋存在于圖像或文檔頂部的一層中,可以為文檔注入其他信息,并鼓勵(lì)協(xié)作和交流。便簽,箭頭和突出顯示可以引起人們對(duì)文檔重要部分的注意。
法律行業(yè)最重要的注釋可能是貝茨郵票,修訂和加密。貝茨郵票在法庭上有很長(zhǎng)的歷史,可以依次對(duì)紙質(zhì)文件進(jìn)行身份識(shí)別。數(shù)字ESI沒(méi)什么不同,并且LEADTOOLS批注使導(dǎo)入文檔到ECM或轉(zhuǎn)移到用于生產(chǎn)的新存儲(chǔ)磁盤中時(shí),可以輕松地在文檔上覆蓋連續(xù)的數(shù)字。修訂使用黑色矩形掩蓋了不應(yīng)在法庭上泄露的敏感信息。帶有注釋的數(shù)字修訂是有益的,因為它不需要對(duì)原始ESI進(jìn)行任何更改。甚至可以使用密碼撤消注釋注釋,從而根據(jù)用戶的訪問(wèn)層提供不同數(shù)量的信息。加密對(duì)象的作用類似于編輯,
虛擬打印機(jī)
在某些情況下,ESI難以處理,因?yàn)樗詢H在舊版應(yīng)用程序或定制開(kāi)發(fā)的系統(tǒng)中可用的格式保存。值得慶幸的是,絕大多數(shù)應(yīng)用程序都具有某種形式的打印功能,但是許多法律團(tuán)隊(duì)并未利用此功能來(lái)發(fā)揮其優(yōu)勢(shì)。虛擬打印(也稱為打印到文件的驅(qū)動(dòng)程序)是一種經(jīng)常被忽略的解決方案,它有助于防止打印到紙張的麻煩,然后使用掃描儀將其導(dǎo)入可接受的電子格式。
LEADTOOLS虛擬打印機(jī)可通過(guò)捕獲任何應(yīng)用程序中的打印作業(yè)并將其轉(zhuǎn)換為L(zhǎng)EADTOOLS支持的格式(包括可搜索的PDF,DOC和TIFF)來(lái)提供獨(dú)特的全面解決方案。虛擬打印機(jī)還支持添加注釋,從而允許開(kāi)發(fā)人員通過(guò)將文檔歸一化為適當(dāng)?shù)腅SI并在整個(gè)過(guò)程中加蓋戳記來(lái)創(chuàng)建可同時(shí)解決多個(gè)目標(biāo)的工作流。
結(jié)論
對(duì)于軟件開(kāi)發(fā)人員而言,電子數(shù)據(jù)展示是一個(gè)巨大的市場(chǎng),在法律程序的任何時(shí)候都充滿了機(jī)會(huì)。大小企業(yè)都有不同的要求,從預(yù)防和組織措施,發(fā)現(xiàn)和分析ESI,從書(shū)面形式創(chuàng)建ESI一直到在法庭上陳述其案件。LEADTOOLS Document Imaging SDK憑借對(duì)掃描,文檔清理,OCR,表單識(shí)別,PDF,文檔轉(zhuǎn)換和查看,注釋和虛擬打印的出色支持,可以滿足法律行業(yè)的軟件開(kāi)發(fā)人員經(jīng)常需要實(shí)施的所有要求。
LEADTOOLS憑借其用于文檔,醫(yī)學(xué),多媒體和光柵成像的全面工具包家族,提供了令人難以置信的價(jià)值。有關(guān)LEAD Technologies如何對(duì)應(yīng)用程序進(jìn)行映像處理并提高ROI的更多信息,請(qǐng)下載免費(fèi)評(píng)估版,或者聯(lián)系我們的。
*****************************************************************************************
LEADTOOLs技術(shù)交流群現(xiàn)已開(kāi)通,QQ搜索群號(hào):731259648或者掃描下方二維碼即可加入!
有任何疑問(wèn)點(diǎn)擊【】

本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自: