我在一家公司做檔案管理,去年底接到一個任務:把公司十年來的紙質合同全部掃描成電子版存檔。
合同加起來有好幾箱,我和同事花了一個多星期才全部掃完。掃描儀是自動進紙的那種,一摞紙放進去自動掃。效率倒是挺高,但有個問題——掃出來的圖片里混了大量的空白頁。
合同一般是雙面打印的,但有些頁面背面是空白的。還有些合同之間夾著空白的分隔紙。掃描儀不管有沒有內容,正反面都掃,所以空白頁特別多。
粗略估計,兩千多頁掃描件里,至少有三四百頁是空白的。
第一次手動挑
一開始我用Windows的圖片查看器一張張翻。看到空白的就標記,最后統一刪除。
翻了一個多小時,才看了不到五百張。眼睛已經開始花了,而且越看越不確定——有些頁面只有頁眉頁腳,算不算空白?有些頁面有一個很小的頁碼,算不算空白?
最崩潰的是,翻到后面注意力下降,好幾次差點把有內容的頁面誤刪了。
那天下午我花了整整四個多小時,才把兩千多張圖片挑完。挑完之后還不放心,又抽查了一遍。
后來又來了一批
過了兩個月,又來了一批需要掃描的材料。這次量更大,估計有三千多頁。
想到上次的經歷,我實在不想再手動挑了。就在網上搜有沒有什么工具能自動識別空白頁。
搜到一個叫「批量識別白紙圖片工具」的東西。
試了一下
我先拿上次已經手動挑過的那批圖片做測試。把兩千多張圖片放到一個文件夾里,選好保存目錄,檢測模式選"綜合檢測",點開始。
大概一分鐘不到,全部處理完了。保存目錄下出現了兩個文件夾:"白紙文件"和"非白紙文件"。
我打開"白紙文件"文件夾看了一下,里面確實都是空白頁。然后打開"非白紙文件"文件夾,隨機翻了幾十張,都是有內容的頁面。
為了驗證準確率,我把軟件識別出來的白紙數量和我上次手動挑出來的數量對比了一下,基本一致。有幾張我上次猶豫過的(只有頁眉的頁面),軟件判定為非白紙,這個判斷我覺得更合理。
處理新一批材料
驗證完之后,我就放心地用它處理新一批三千多頁的掃描件了。
這次我勾選了"遍歷子目錄"和"保持原路徑結構",因為掃描件是按部門分文件夾存的。處理完之后,"白紙文件"和"非白紙文件"兩個文件夾里都保持了原來的部門目錄結構,很方便后續整理。
三千多張圖片,處理時間不到兩分鐘。我抽查了一下結果,準確率很高。
調過一次閾值
有一批比較老的材料,紙張發黃了,掃描出來的空白頁不是純白色而是偏黃的。默認設置下,這些偏黃的空白頁沒有被識別出來。
我把亮度閾值從0.95調低到0.90,重新跑了一遍,這些偏黃的空白頁就被正確識別了。
所以如果遇到掃描質量不太好的材料,可以適當調低閾值。
![]()
現在的工作流程
每次掃描完材料,我都會先跑一遍這個工具,把空白頁自動篩選出來。然后快速瀏覽一下"白紙文件"文件夾確認沒有誤判,再把空白頁刪掉。
整個過程從以前的幾個小時壓縮到了幾分鐘。而且因為是軟件自動判斷,不會因為注意力下降而漏掉或誤刪。
做檔案管理或者經常處理掃描件的朋友,如果也被空白頁的問題困擾,可以試試用工具自動篩選。手動一張張翻真的太費時間了,而且容易出錯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.