金現代OCR平臺|全套OCR組件,速度更快,精度更高!
小到一張發票、一個證件,大到會議資料、合同文書,其信息的提取與處理曾是一項費時耗力的任務。如今,只需用攝像頭掃一掃就能輕松識別并保存。這一切的背后,都離不開光學字符識別技術(OCR)強大的支持。
OCR識別示意
近年來,隨著人工智能的不斷發展,OCR技術持續完善和優化,為生活帶來諸多便利。但對于企業而言,OCR技術在實際應用中依然面臨挑戰:
l 除了發票、卡證等常見場景外,還有大量非標準版式的需求。
l 手寫體、印章、模糊等因素會影響識別效果。
l 在處理敏感信息時,數據安全性需要得到保障。
金現代OCR平臺應運而生,兼具標準化和定制化、高精度、低成本快捷交付的能力,已從研發端落地實際生產應用,賦能企業數字化發展。
全套OCR組件,一站式快捷調用
金現代OCR平臺提供涵蓋文件解析、圖像校正、目標檢測、文字及表格識別等的全套OCR組件,支持基于基礎能力快速開發多樣化的上層應用,支持通過API接口等快捷調用,可以覆蓋企業絕大多數使用場景。
01文檔識別:可以對文檔中的掃描圖片、插圖、水印、簽字、印章等進行識別和解析。可實現文檔信息的定位與抽取,從而輔助業務數據的快速錄入、抽取、比對,實現審核過程的降本增效。
文檔提取關鍵信息示意
02卡證識別:精準識別身份證、名片、工作證、駕駛證、會員卡、銀行卡及營業執照等二十余種證件信息,基本涵蓋常見的所有證件類型。
卡證識別示意
03票據識別:快速識別財務發票、火車票、航空客票等多樣票據數據。借助票據識別能力可以對員工報銷中提交的常見票據進行信息的快速抽取,提升報銷審核效率。
票據識別示意
04設備識別:支持準確讀取設備儀表數據,可實現生僻字符識別,小字符識別,圖像糾偏,實現設備的自動取數,提升自動化水平。
設備識別示意
05圖紙識別:支持對DWG、PDF、圖片等不同格式的圖紙進行識別和解析。支持基于圖紙專用模型進行識別,將識別準確率從傳統模式識別下的30%提升至95%。
傳統模式識別和圖紙專用模型識別效果對比
06表格識別:支持各類表格內容的識別,對于無框線表格可根據字符位置的分布轉換成表格;框線不完整表格可根據直線關系自動補全;跨頁表格可根據相似度將兩個表格合并。
實驗報告表格內容識別示意
07印章識別:可使用目標檢測算法實現印章位置的檢測以及是否遮擋文字,再通過圖像處理技術和Unet算法去除文檔中的印章,避免對后續OCR的影響。
印章識別示意
多種優勢支撐,能力持續升維
高精度識別:平臺具備對噪點的強抵抗能力,支持對上傳文件進行去污、去黑邊、糾偏、旋轉等圖像處理功能,常見印刷體的識別準確率可以達到95%以上。
高并發支持:平臺支持100~1000并發,通過集群部署、負載均衡、異步接口調用等技術,確保在高并發場景下依然穩定高效。在主流的GPU服務器支持下,單頁A4圖片或PDF的識別效率不低于1張/秒。
高安全性:支持私有化部署,保證企業數據安全。
國產化支持:支持與X86、ARM架構服務器,銀河麒麟、中科方德、華為歐拉、中興新支點等國產系統進行適配。
模型自主訓練:支持多種模型的自主訓練,如文字識別模型(CRNN、SVTR等),文字檢測模型(DBNet、PSENet等)、目標檢測類模型(yolov5、yoloe+等)、圖像分類模型(VGG、ResNet等)。通過模型量化剪枝、知識蒸餾等技術手段,進一步優化模型性能,識別效率與準確性更高。
未來,我們將繼續探索人工智能技術,對OCR平臺進行持續優化和升級,推動技術創新與應用落地,為企業客戶提供更智能、更高效的解決方案。
- 上一篇 AI編程:機遇與挑戰并存
- 下一篇 干部管理-領導便攜式辦公新場景