網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

古舊地圖的信息化

2026-01-20 17:49:34　來源: 江西地名研究

江西舉報(bào)

分享至

江西地名研究

關(guān)注我們，獲取更多地名資訊

摘要：近年人文社會(huì)科學(xué)研究中古舊地圖的使用規(guī)模和數(shù)字化處理需求不斷增加，古舊地圖的信息化迫在眉睫。文章以“數(shù)字歷史黃河”（DHYR）·圖形資料庫建設(shè)為例，介紹DHYR中圖形史料的RDF編目方案和古舊地圖地名信息自動(dòng)化；通過清代基層水利單元“汛”“堡”重建黃河變遷事件研究案例，分析古舊地圖以及古舊地圖信息化方案在人文社會(huì)科學(xué)研究中的意義。RDF是用于描述知識(shí)圖譜實(shí)體及其關(guān)系的數(shù)據(jù)模型，能減少歷史地理信息化數(shù)據(jù)孤島現(xiàn)象，在DHYR中設(shè)計(jì)針對(duì)古舊地圖的編目方案和描述詞表；采用U-Net架構(gòu)模型進(jìn)行古舊地圖地名OCR識(shí)別，展現(xiàn)深度學(xué)習(xí)方法在古舊地圖信息自動(dòng)化提取中的能力，提高歷史地名提取的效率和準(zhǔn)確率。

關(guān)鍵詞：地名古舊地圖黃河信息化

前言

古舊地圖是人文社會(huì)科學(xué)研究的重要史料，在光學(xué)字符識(shí)別（OCR）、地理信息系統(tǒng)（GIS）、數(shù)據(jù)庫技術(shù)等數(shù)據(jù)庫信息化手段支持下，可以最大限度挖掘古舊地圖中的地理信息，提升古舊地圖的使用效率。歷史地理學(xué)界針對(duì)古舊地圖的信息化處理已經(jīng)進(jìn)行多項(xiàng)實(shí)踐，如張萍等基于多種古舊地圖對(duì)西北“絲綢之路”交通路線和古代城市定位、韓昭慶研究康熙《皇輿全覽圖》投影方式、潘威等對(duì)近代灌渠體系的重建和分析，皆實(shí)踐了GIS手段在古舊地圖處理中的運(yùn)用。不過，歷史地理學(xué)界將古舊地圖的信息化操作局限于GIS環(huán)境下的人工矢量化處理，限定了對(duì)古舊地圖的進(jìn)一步研究和更廣泛使用。解決以上問題的方法是讓歷史地理信息化與圖情、計(jì)算機(jī)科學(xué)、信息管理等學(xué)科領(lǐng)域深度融合，在持續(xù)推動(dòng)GIS在歷史地理學(xué)中應(yīng)用的同時(shí)，充分利用大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)、圖形計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)。通過加強(qiáng)對(duì)古舊地圖的管理、處理、使用和分析等多項(xiàng)技能，為歷史地理學(xué)、地圖學(xué)史和數(shù)字人文發(fā)展提供更多可能性。而要落實(shí)這一目標(biāo)，首先應(yīng)解決古舊地圖文獻(xiàn)的數(shù)字化管理和圖幅內(nèi)容的自動(dòng)化提取。對(duì)古舊地圖的管理既是對(duì)圖幅作為文獻(xiàn)的數(shù)字化和編目，也是對(duì)圖幅內(nèi)容的提取和數(shù)據(jù)化。

在歷史地理學(xué)研究中，使用古舊地圖需要信息化管理和圖幅內(nèi)容的信息化提取，兩者實(shí)際為一有機(jī)整體。研究者首先需要建立古舊地圖資料庫，采用信息化手段管理大量古舊地圖文檔，在此基礎(chǔ)上采用OCR等手段實(shí)現(xiàn)古舊地圖信息提取的自動(dòng)化，之后方才進(jìn)入具體研究環(huán)節(jié)，即專題數(shù)據(jù)的使用層面。因此，古舊地圖的信息化管理以及圖幅內(nèi)容的自動(dòng)化提取是科研工作中的重要環(huán)節(jié)。實(shí)現(xiàn)這一目標(biāo)，必須引入圖情知識(shí)體系（本文所用“圖情知識(shí)體系”一詞為圖書情報(bào)學(xué)的理論與技術(shù)體系總和，是筆者作為歷史地理學(xué)工作者對(duì)圖情學(xué)路徑的一種概括），尤其是圖情學(xué)界所采用的RDF編目、語義網(wǎng)和近年來大力提倡的OCR技術(shù)等，對(duì)推動(dòng)歷史地理信息化具有重要意義。本文以清代河工圖的信息化處理方法為例，通過“數(shù)字歷史黃河”（DHYR）中的圖形資料庫的設(shè)計(jì)與實(shí)現(xiàn)，展現(xiàn)OCR、語義網(wǎng)技術(shù)、深度學(xué)習(xí)技術(shù)在歷史地理信息化建設(shè)中的重要作用，特別是對(duì)古舊地圖管理和使用中的重要作用。

“數(shù)字歷史黃河”·圖形資料庫

1.1 資料介紹

“數(shù)字歷史黃河”（DHYR）是由河南大學(xué)、云南大學(xué)共建共享共有的黃河歷史變遷古舊地圖資料庫，目的是實(shí)現(xiàn)黃河歷史變遷的數(shù)據(jù)管理、多維展示和輔助分析。黃河流域古舊地圖數(shù)量眾多，中國(guó)國(guó)家圖書館等單位建有古舊地圖管理平臺(tái)，對(duì)其已經(jīng)收藏圖形，DHYR原則上不重復(fù)收錄，專門針對(duì)尚未得到系統(tǒng)收集、整理和電子化處理的古舊地圖，力求與其他單位藏圖互為補(bǔ)充。該系統(tǒng)的資料管理庫有專門的“圖形資料庫”（本文記為“DHYR·圖形資料庫”），其中收錄有清代河工圖、民國(guó)地形圖、黃河流域規(guī)劃圖、晚清西方黃河調(diào)查圖、近代工程藍(lán)圖、手繪草圖等多種圖像。圖1列舉了被DHYR·圖形資料庫收錄的圖形史料，其中，圖1-1為1753年徐城北岸黃河支岔圖（局部）；圖1-2為1932年渭北引涇灌溉圖（局部）；圖1-3為1946年陜西省水利廳黃河規(guī)劃圖·洛河（局部）。DHYR覆蓋范圍為黃河流域的青、寧、甘、陜、豫、魯、蘇7省，內(nèi)容涉及黃河防洪工程、灌溉體系、交通布局、土地利用等，包括中、英、日等多種語言文字，已達(dá)2,100余幅，原圖收藏單位包括中國(guó)水利水電研究院、黃河水利委員會(huì)等重要機(jī)構(gòu)，以及地方水利、檔案、博物館等系統(tǒng)。需要說明的是，沿黃地區(qū)的地形圖除水利部門繪制外，還有大量為軍事部門繪制，這類非水利機(jī)構(gòu)暫時(shí)不收錄于DHYR內(nèi)。

1.2 設(shè)計(jì)思路

DHYR·圖形資料庫的界面設(shè)計(jì)風(fēng)格簡(jiǎn)潔（見圖2）。DHYR·圖形資料庫建設(shè)的主要思路包括：持續(xù)收集有關(guān)黃河的各類圖形史料；修復(fù)破損史料；對(duì)圖形進(jìn)行掃描，形成高精度電子文本；建設(shè)信息化管理方案，進(jìn)行高效管理；與平臺(tái)其他資料庫和數(shù)據(jù)庫實(shí)現(xiàn)鏈接；充分挖掘史料價(jià)值，推動(dòng)黃河變遷研究。之所以形成以上目的，主要在于這一工作面臨多種困難，包括：經(jīng)費(fèi)限制，本工作只能將經(jīng)費(fèi)用于收集與整理圖幅，突出內(nèi)容建設(shè)，降低平臺(tái)建設(shè)難度；管理能力不足，作為高校小型科研團(tuán)隊(duì)，缺乏公共圖書館那樣成熟的信息平臺(tái)管理能力，只能犧牲平臺(tái)功能，將其維持在團(tuán)隊(duì)能夠運(yùn)營(yíng)的水平上。實(shí)際上，這是許多高校中小型科研團(tuán)隊(duì)面臨的問題，這一問題造成大量的歷史地理專題數(shù)據(jù)庫無法持續(xù)運(yùn)營(yíng)。

DHYR·圖形資料庫在設(shè)計(jì)上采取較保守的策略，優(yōu)先保證資料庫的穩(wěn)定運(yùn)行，在這一前提下逐步嘗試新技術(shù)運(yùn)用。DHYR·圖形資料庫有四大功能模塊：（1）圖幅信息模塊：對(duì)圖形史料的基本信息進(jìn)行輸入、編輯；（2）查詢檢索模塊：按照?qǐng)D名、編碼、繪制者、管理者、時(shí)代等多種要素進(jìn)行圖幅檢索；（3）用戶管理模塊：登記、管理DHYR使用者信息；（4）數(shù)據(jù)維護(hù)模塊：對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、備份、還原操作。圖形資料庫是DHYR的組成部分，庫結(jié)構(gòu)采用HTML+CSS設(shè)計(jì)，后臺(tái)結(jié)構(gòu)采用SQL-Server。

1.3 編目方案

1.3.1 元數(shù)據(jù)方案和語義網(wǎng)技術(shù)

本團(tuán)隊(duì)在資料管理方式上，嘗試中國(guó)歷史地理學(xué)界內(nèi)尚未被關(guān)注和使用的一些新方法，最重要的嘗試是借鑒圖情領(lǐng)域的元數(shù)據(jù)方案方法和語義網(wǎng)技術(shù)，對(duì)圖形史料進(jìn)行編目和元數(shù)據(jù)記錄編碼。圖幅管理的重點(diǎn)在于編目方案設(shè)計(jì)，而歷史地理學(xué)界尚未重視標(biāo)準(zhǔn)化規(guī)范化的資源編目的重要性，導(dǎo)致嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象。DHYR·圖形資料采用圖情領(lǐng)域的元數(shù)據(jù)方案設(shè)計(jì)方法和語義網(wǎng)領(lǐng)域的RDF（Resource Description Framework）模型和編碼格式。RDF是W3C提出的用于描述知識(shí)單元及其相互關(guān)系的數(shù)據(jù)模型和數(shù)據(jù)編碼標(biāo)準(zhǔn)，是特色歷史文獻(xiàn)資源編目中的主流方法。RDF將元數(shù)據(jù)記錄抽象為主體（subject）、謂詞（predict）與客體（object）3個(gè)組成部分，利用標(biāo)準(zhǔn)化的數(shù)據(jù)編碼方案描述資料庫中數(shù)據(jù)記錄的每一個(gè)知識(shí)節(jié)點(diǎn)。統(tǒng)一采用這種標(biāo)準(zhǔn)化規(guī)范化的方法，不僅能夠?qū)崿F(xiàn)工作團(tuán)隊(duì)內(nèi)部和跨團(tuán)隊(duì)的數(shù)據(jù)共享，更易與圖書館系統(tǒng)中的編目數(shù)據(jù)進(jìn)行互操作和整合，將個(gè)人研究融入文化基礎(chǔ)設(shè)施體系，令歷史地理學(xué)專題數(shù)據(jù)具有更為廣闊的用戶群體，共同建設(shè)知識(shí)譜系。這是促進(jìn)歷史地理信息管理規(guī)范化、數(shù)據(jù)共享便捷化、豐富數(shù)據(jù)維度的重要舉措。DHYR在歷史地理學(xué)界率先針對(duì)圖形史料采用此方法，將單幅圖形本身作為主體（subject）、描述圖形元數(shù)據(jù)規(guī)范詞表中的元素作為謂語（predict）、元素值作為客體（object）。比如，《道光黃河六省河工埽壩全圖》的“題名（dc：title）”這一元素的編碼結(jié)果為：《道光河工埽壩全圖》實(shí)體dc：title“道光河工埽壩全圖”。

1.3.2 元素集（詞表）設(shè)計(jì)

在確定編目基本原則的基礎(chǔ)上，具體編目方案設(shè)計(jì)需要充分考慮古舊圖形記錄的獨(dú)特性，不能簡(jiǎn)單地將圖情管理系統(tǒng)中對(duì)現(xiàn)代正規(guī)出版物、檔案和一般古籍的編目方案套用至本工作。因此，需要制訂有針對(duì)性的元數(shù)據(jù)方案，設(shè)計(jì)專用于古舊地圖的元數(shù)據(jù)元素集（描述字段）。通過分析DHYR工作中已經(jīng)收集的古舊地圖，發(fā)現(xiàn)一些描述字段對(duì)描述圖形具有重要作用，見表1中的“描述字段”列，包括描述性元數(shù)據(jù)和管理性元數(shù)據(jù)，是設(shè)計(jì)元數(shù)據(jù)元素集的基礎(chǔ)。在此基礎(chǔ)上，借鑒國(guó)際通用的都柏林核心（DC）元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范，復(fù)用其中的部分元素，并自定義一部分元素，還復(fù)用少量上海圖書館本體詞表中的部分屬性。隨著今后工作的進(jìn)展，這一方案將進(jìn)行更新、擴(kuò)展和修正。

表1是對(duì)DHYR中古舊圖形進(jìn)行描述的字段構(gòu)成及其定義。通過這些字段，能清晰描述古舊圖形的時(shí)空信息、繪制信息和平臺(tái)管理信息。

（1）“空間范圍”字段采用經(jīng)緯度坐標(biāo)體現(xiàn)，這一做法可以在GIS環(huán)境中形成圖幅覆蓋范圍的空間可視化成果，更直觀地表現(xiàn)DHYR所收錄圖形史料的空間格局。

（2）“圖件標(biāo)識(shí)符”“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”等的編訂方式尚無行業(yè)標(biāo)準(zhǔn)，在歷史地理學(xué)界也無前期成果可供參考，因此參考地理學(xué)界內(nèi)普遍使用的“郵政編碼方法”。“圖件標(biāo)識(shí)符”采用7位整數(shù)進(jìn)行編碼，首2位表示圖幅的歷史階段，如清代用“12”代表；第3位代表圖幅類型，如傳統(tǒng)時(shí)代的河工圖用“1”代表；后4位代表此類型序號(hào)，由“0000”開始。“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”采用4位整數(shù)進(jìn)行編碼，首2位表示人員、機(jī)構(gòu)所處的歷史階段，后2位序號(hào)由“00”開始。“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”分別是“水利人物數(shù)據(jù)庫”中的人物標(biāo)識(shí)碼與“水利機(jī)構(gòu)數(shù)據(jù)庫”的機(jī)構(gòu)標(biāo)識(shí)碼，通過標(biāo)識(shí)碼可以實(shí)現(xiàn)跨庫鏈接。

基于深度學(xué)習(xí)的

古舊地圖地名識(shí)別

在完成古舊地圖管理信息化的基礎(chǔ)上，需要重視古舊地圖圖幅內(nèi)容的自動(dòng)提取。OCR（Optical Character Recognition）是圖形識(shí)別的一種，主流的OCR系統(tǒng)使用深度神經(jīng)網(wǎng)絡(luò)，能夠?qū)崿F(xiàn)高精度的文檔內(nèi)容識(shí)別。

2.1 研制的必要性

在OCR系統(tǒng)支持下，歷史文獻(xiàn)識(shí)別的精度不斷提升，數(shù)字化進(jìn)程大大加快，但通用OCR系統(tǒng)中的文檔分析與圖形識(shí)別方法難以直接應(yīng)用到古舊地圖的處理之中，是因?yàn)楣排f地圖清晰度、幅面整潔度等要素差異巨大。比如，手繪古舊地圖中，道路、邊界線、文本等不同的地理要素互相疊加，而手寫手繪也導(dǎo)致樣式存在隨機(jī)性誤差，因而古舊地圖中地名的識(shí)別難度更大。古舊地圖中地理要素的定位和提取非常重要，傳統(tǒng)上由人工進(jìn)行，近年借助機(jī)器學(xué)習(xí)等手段訓(xùn)練計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)提取圖幅內(nèi)容的需求日益增多，一些研究涉及從多種地圖中提取地理信息和文本信息的方法。地理信息系統(tǒng)中的地名解析（Geoparsing或Toponym Resolution）是找出非結(jié)構(gòu)化文本中提到的地名并將轉(zhuǎn)換為對(duì)應(yīng)的經(jīng)緯度坐標(biāo)的過程。非結(jié)構(gòu)話文本中自動(dòng)檢測(cè)識(shí)別地名是自然語言處理（Natural Language Processing，NLP）中的命名實(shí)體識(shí)別（Named Entity Recognition，NER）。本研究與文本中地名解析目標(biāo)一致，都是從文本中提取地名：筆者的處理對(duì)象是圖片，即掃描地圖，使用OCR方法提取文本；后者的處理對(duì)象是已經(jīng)數(shù)字化的文本，使用訓(xùn)練機(jī)器從中識(shí)別出表示地名的短語。筆者的工作與文本中地名解析的任務(wù)部分重疊：筆者從古舊地圖中識(shí)別出的文本默認(rèn)都是地名，但識(shí)別文本中的地名是文本中地名解析的核心工作，其方法能為本研究提供思路；相同的部分是都需要將識(shí)別的地名（通過OCR或NER得到）進(jìn)行歧義消除（Disambiguation），確保提取的文本單元是合法的地名，OCR提取的文本內(nèi)容如何組合為正確的地名是本研究需要解決的關(guān)鍵問題。

2.2 深度學(xué)習(xí)與古舊地圖地名識(shí)別

利用機(jī)器學(xué)習(xí)方法從古舊地圖中識(shí)別地名需要大量的訓(xùn)練數(shù)據(jù)，因此數(shù)據(jù)標(biāo)注工作很關(guān)鍵。本研究采用逐步迭代的數(shù)據(jù)標(biāo)注方法，起初使用通用的OCR檢測(cè)和識(shí)別古舊地圖中的文本，然后人工對(duì)檢測(cè)出的文本區(qū)域以及識(shí)別的文本內(nèi)容進(jìn)行校對(duì)，在新數(shù)據(jù)集上訓(xùn)練新的地名文本檢測(cè)和識(shí)別模型，這樣每迭代一次模型的性能增強(qiáng)一次，經(jīng)過若干次迭代，系統(tǒng)就具備較高的地名檢測(cè)和識(shí)別準(zhǔn)確率。

古舊地圖中地名文本的檢測(cè)屬于對(duì)象檢測(cè)的一種，深度學(xué)習(xí)在該領(lǐng)域取得了成功。對(duì)象檢測(cè)主要分為“兩步法”（Two-Stage）和“一步法”（One-Stage）。“兩步法”對(duì)圖片進(jìn)行特征提取后，得到候選框，再進(jìn)行分類及回歸，代表算法是RCNN系列的目標(biāo)檢測(cè)算法。“一步法”是在提取的圖片的特征圖上進(jìn)行密集抽樣，產(chǎn)生大量的先驗(yàn)框，然后進(jìn)行分類和回歸，代表方法包括YOLO、SSD、RetinaNet。本研究使用一步法檢測(cè)中國(guó)古舊地圖中所有的單個(gè)漢字，訓(xùn)練針對(duì)不同大小漢字的檢測(cè)模型。U-Net在智能語義分割任務(wù)中表現(xiàn)突出，最初是在醫(yī)療影像處理中得到成功應(yīng)用，然后廣泛應(yīng)用于對(duì)象檢測(cè)和語義分割任務(wù)，本研究采用這種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行字符級(jí)文本檢測(cè)。

由于文本檢測(cè)是字符級(jí)的，因此文本識(shí)別模型采用字符級(jí)識(shí)別模型。在文本識(shí)別領(lǐng)域，主流的OCR系統(tǒng)采用行（列）級(jí)別的識(shí)別模型，主要采用CTC（Connectionist Temporal Classification）算法搭配卷積神經(jīng)網(wǎng)絡(luò)疊加循環(huán)卷積神經(jīng)網(wǎng)絡(luò)（RNN）對(duì)圖片中包含的文本序列進(jìn)行建模，一般而言文檔中的行和列相較于單個(gè)字符更易檢測(cè)。但是，地圖中的地名文本排列往往不像普通文獻(xiàn)那樣規(guī)則，而且有的地名字符間的距離較遠(yuǎn)，所以行列級(jí)別的識(shí)別在地圖文本識(shí)別中并不像在一般文獻(xiàn)識(shí)別那么有效，因此使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符級(jí)別的檢測(cè)和識(shí)別。

2.3 工作流程

檢測(cè)到的文字形成正確的地名需要將這些字符合并組成地名詞語，使用Min-Cost Flow算法，將檢測(cè)到的文字進(jìn)行適當(dāng)合并得到地名。圖片中的文本轉(zhuǎn)錄到計(jì)算機(jī)，主要包含兩個(gè)步驟：文本區(qū)域的檢測(cè)和文本的識(shí)別。前者從圖片中將包含文本的部分與圖片其余區(qū)域進(jìn)行分割；后者將切割出的文本圖片進(jìn)行識(shí)別，并將對(duì)應(yīng)的文本存儲(chǔ)到計(jì)算機(jī)。

本研究的古舊地圖文本自動(dòng)提取方法包括2項(xiàng)關(guān)鍵步驟：一是古舊地圖中地名文本的檢測(cè)與識(shí)別；二是合并檢測(cè)到的文本形成正確的地名。第一步實(shí)際上是OCR系統(tǒng)功能：檢測(cè)和識(shí)別圖片中文本。有些中文地圖中文字?jǐn)?shù)量密集，使用主流的OCR框架往往很難正確檢測(cè)出所有包含的文字，也很難一步到位地將所有文字根據(jù)視覺特點(diǎn)（如排列、距離）直接生成正確的地名（見圖3）。

本系統(tǒng)工作流程見圖4。第一步，采取字符級(jí)別的文本檢測(cè)，即檢測(cè)地圖中所有的字符，并使用字符識(shí)別模型識(shí)別出這些字符。第二步，首先根據(jù)檢測(cè)到的字符的視覺特點(diǎn)，如相對(duì)位置、大小，構(gòu)建一個(gè)K-NN的網(wǎng)絡(luò)。在網(wǎng)路中，每個(gè)檢測(cè)到的字符是一個(gè)節(jié)點(diǎn)，每個(gè)漢字代表的節(jié)點(diǎn)周圍距離它最近的K個(gè)其他漢字所對(duì)應(yīng)的節(jié)點(diǎn)之間，添加一條有向邊邊的權(quán)重是它們?cè)趫D片中檢測(cè)到的限界框（Bounding Boxes）中心之間的歐式距離，這里的權(quán)重在后面的算法中也稱為耗費(fèi)，在構(gòu)建的這個(gè)網(wǎng)絡(luò)上使用Min-Cost Flow Algorithm將符合條件的字符連綴起來形成地名候選。后續(xù)研究將嘗試使用與該古舊地圖同時(shí)代的地名詞典（Gazetteer）對(duì)候選地名進(jìn)行篩選和校對(duì)，從而獲得更準(zhǔn)確的歷史地名。

2.4 系統(tǒng)關(guān)鍵部件

（1）文本檢測(cè)部件。在古舊地圖的字符檢測(cè)任務(wù)中，采用U-Net架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型。該模型能夠進(jìn)行圖片的語義分割（Semantic Segmentation），在歷史文獻(xiàn)自動(dòng)處理領(lǐng)域得到廣泛應(yīng)用，其中包括古舊地圖中的文本識(shí)別。因?yàn)槟繕?biāo)是進(jìn)行字符級(jí)的識(shí)別，所以字符檢測(cè)模型的數(shù)據(jù)標(biāo)注采用單個(gè)字符的標(biāo)注，標(biāo)注的信息主要是字符的定界框（bounding boxes）。檢測(cè)出的單個(gè)字符輸入中文手寫體OCR系統(tǒng)進(jìn)行識(shí)別，該系統(tǒng)能夠?qū)?jiǎn)體、繁體中文進(jìn)行識(shí)別。

（2）文本識(shí)別部件。實(shí)施文本檢測(cè)的模塊需要記錄每個(gè)字符的坐標(biāo)和尺寸，一方面為后續(xù)查詢定位提供服務(wù)，另一方面為第二步的字符合成地名提供輔助信息。地圖中的文本標(biāo)注信息具有如下特點(diǎn)：一個(gè)地名用的字符大小一致，大小不一致的往往不屬于同一個(gè)地名；一個(gè)地名包含的字符往往聚在一起成為方向不定的一行（排列方向可能為多種傾斜角度）。本研究的方法是：首先根據(jù)第一步中獲得的每個(gè)字符的定界框（Bounding Box），將檢測(cè)到的字符進(jìn)行分層（位置與原圖中一樣），大小近似的在同一層次，以解決大小字符之間的干擾。將同一層的文本視為同一級(jí)別，利用地名文本的視覺特點(diǎn)組合成地名候選。

（3）中文地名合成部件。第二步類似于解析文本中包含的地名（Geoparsing），采用基于Min-cost Flow Algorithm的地名合成算法，從無結(jié)構(gòu)文本中識(shí)別出地名（自動(dòng)化的實(shí)現(xiàn)需要自然語言理解相關(guān)技術(shù)），處理的是提取到的詞條，默認(rèn)是地名。但OCR識(shí)別準(zhǔn)確率難以在各種情況下都能達(dá)到100%準(zhǔn)確率，古舊地圖中有些地名文本排列密度高、與背景疊加等原因使得提取到的詞條可能是錯(cuò)誤的。因此，提取到的地名需要一個(gè)去模糊化（Toponym Disambiguation）過程，即確定提取的地名所屬歷史時(shí)期和所屬高層政區(qū)。

古舊地圖信息化處理

與清代黃河變遷研究

基于元數(shù)據(jù)方案、語義網(wǎng)技術(shù)和深度學(xué)習(xí)的古舊地圖管理、處理方法能夠?qū)崿F(xiàn)古舊地圖中地理信息的高效挖掘。這些方法是否能在歷史地理學(xué)科研實(shí)踐中發(fā)揮作用呢？下文以清代黃河變遷研究為例，介紹該方法在歷史自然地理研究中的應(yīng)用前景。

3.1 清代黃河下游的“汛”“堡”名稱提取

清代黃河下游依靠“汛”“堡”等基層水利管理單元實(shí)現(xiàn)修防、賑災(zāi)、工程建設(shè)與管理、河銀征收、防盜等事務(wù)，是清代河政運(yùn)作的基礎(chǔ)。“汛”依托于黃河一側(cè)河岸的堤防進(jìn)行劃分，“堡”則是在“汛”之下由幾個(gè)河兵或河夫駐守的據(jù)點(diǎn)。“汛”“堡”等基層水利單元的提取和定位，可以為清代黃河變遷研究提供定位河務(wù)運(yùn)作的空間框架，能夠?qū)⒑鱼y收支、物料貿(mào)易網(wǎng)絡(luò)、河務(wù)官員流動(dòng)路徑、堤防修護(hù)與決口等多項(xiàng)河務(wù)環(huán)節(jié)置于具體的地理空間下重新認(rèn)識(shí)。但是，“汛”“堡”的整體狀況在文字性史料中并未得到全面記錄，僅有少數(shù)舉辦大型工程或發(fā)生決堤事件的“汛”“堡”名稱被記載。這一問題可以依靠清代河工圖解決。

利用DHYR·圖形資料庫，在規(guī)模龐大的清代河工圖中快速檢索到覆蓋下游全境、擁有“汛”-“堡”記錄的圖形史料。在史料搜尋方面，大致比傳統(tǒng)方法節(jié)省70%~80%的時(shí)間成本。以《道光黃河六省埽壩全圖》為例，利用本文提出的古舊地圖地名提取方法，訓(xùn)練計(jì)算機(jī)對(duì)圖幅中“汛”“堡”名稱進(jìn)行快速提取，形成格式化表格，能夠快速完成“汛”“堡”名錄的制作。如圖5所示，限界框（Bounding Boxes）標(biāo)定100%的“汛”“堡”名稱，為后期實(shí)現(xiàn)定位提供基礎(chǔ)。

圖5是依據(jù)此方法重建的豫東河段“汛”“堡”空間格局。與孫濤提出的黃河蘭考以下河段“汛”界數(shù)據(jù)共同構(gòu)成完整的“汛”“堡”空間數(shù)據(jù)。在此基礎(chǔ)上，根據(jù)文字性史料，可以判斷少數(shù)“堡”所在的經(jīng)緯度位置，如中牟下汛的九堡即今中牟縣九堡村，此河段一直是豫東河防重點(diǎn)，現(xiàn)代建有“九堡控導(dǎo)工程”。少數(shù)“堡”的經(jīng)緯度確定后，基本上可以在現(xiàn)代地圖上確定“汛”“堡”體系的基本格局，之后根據(jù)史料記錄和清代黃河下游形態(tài)、堤防格局推斷所有“堡”的位置，據(jù)此確定“汛”的范圍。

3.2 黃河重大變遷事件研究

19世紀(jì)以來，黃河下游最重要的變化即1855年（清咸豐五年）的“銅瓦廂改道”，黃河在今蘭考東壩頭一帶改道北流，奪大清河入渤海，結(jié)束了1128年以來形成的黃河“奪淮入黃海”局面，奠定了現(xiàn)代黃河下游基本格局。借助道光《豫省河工圖》（見圖6）及對(duì)其的信息化處理，可以重新認(rèn)識(shí)“銅瓦廂改道”的過程、原因和影響。

重新討論“銅瓦廂改道”，首先需要準(zhǔn)確認(rèn)識(shí)決口點(diǎn)位置，長(zhǎng)期以來，學(xué)界認(rèn)為此次大改道決口點(diǎn)為黃河蘭考段的銅瓦廂，但通過閱讀清代河工檔案，結(jié)合實(shí)地調(diào)查，本研究發(fā)現(xiàn)1855年決口點(diǎn)為蘭陽上汛三堡。從道光《豫省河工圖》中發(fā)現(xiàn)，道光年間銅瓦廂段黃河已經(jīng)緊逼河堤，銅瓦廂段形成托壩、挑水壩、雞嘴壩、格堤等復(fù)合工程構(gòu)成的復(fù)雜體系，其中緊鄰黃河北岸的挑壩和格堤體系才是銅瓦廂埽工所在，黃河北擺的現(xiàn)象在道光時(shí)期已經(jīng)非常明顯。因此，確定蘭陽上汛三堡所在位置非常重要。按前述操作方法，基于道光《豫省河工圖》，本研究確定蘭陽上汛三堡所在地（今蘭考東壩頭鎮(zhèn)東700米黃河河道內(nèi)）。決口點(diǎn)位置的重新認(rèn)識(shí)確定了決口點(diǎn)正是清代檔案中記錄的“蘭陽無工河段”，“銅瓦廂改道”的直接原因之一其實(shí)是清政府對(duì)“工”的布局出現(xiàn)問題，而非銅瓦廂本身工程出現(xiàn)問題。這一認(rèn)識(shí)使得學(xué)界能夠重新思考1949年以來得出的一些認(rèn)識(shí)，比如用銅瓦廂工程腐敗、太平天國(guó)戰(zhàn)爭(zhēng)導(dǎo)致清廷無暇顧及河務(wù)等解釋此次大改道的成因，而是回到清代河務(wù)制度本身，從制度結(jié)構(gòu)性不足角度重新認(rèn)識(shí)大改道的原因。“銅瓦廂改道”的重新認(rèn)識(shí)僅是一個(gè)例證，實(shí)際上，古舊地圖在歷史時(shí)期黃河變遷（改道、決口、擺動(dòng)以及管理方式）研究中的作用仍需更多案例進(jìn)行驗(yàn)證，進(jìn)而總結(jié)為歷史自然地理的系統(tǒng)性研究方法，革新歷史地理學(xué)的研究方法。

結(jié)論與展望

（1）古舊地圖的信息化包括管理信息化、內(nèi)容自動(dòng)化提取和專題數(shù)據(jù)利用3個(gè)環(huán)節(jié)。

（2）編目方案能提高古舊地圖的管理效率。DHYR建設(shè)嘗試采用RDF方案對(duì)平臺(tái)圖形資料庫進(jìn)行編目，這一方法實(shí)現(xiàn)了圖形資料信息的標(biāo)準(zhǔn)化，在提高信息檢索效率、實(shí)現(xiàn)跨庫鏈接以及不同知識(shí)體系融合方面發(fā)揮巨大作用，能解決歷史地理信息化中的數(shù)據(jù)孤島現(xiàn)象。

（3）基于深度學(xué)習(xí)的古舊地圖地名檢測(cè)和提取技術(shù)能夠快速、準(zhǔn)確地整理古舊地圖中的地名信息。本研究所采用的“U-Net架構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型”在處理古舊地圖中提高了信息采集的準(zhǔn)確率和完整性，效果良好。

（4）信息化手段能夠支持中小型學(xué)術(shù)團(tuán)隊(duì)進(jìn)行批量文獻(xiàn)處理、數(shù)據(jù)重建與分析，克服人力、財(cái)力限制，完成較復(fù)雜的大型跨學(xué)科研究任務(wù)。歷史地理學(xué)界有必要學(xué)習(xí)圖情知識(shí)體系，增強(qiáng)與圖情學(xué)界的交流。

作者：潘威張光偉夏翠娟孫濤

來源：《圖書館論壇》2021年第11期

選稿：耿曈

編輯：宋柄燃

校對(duì)：杜佳玲

審訂：汪鴻琴

責(zé)編：楊琪

（由于版面內(nèi)容有限，文章注釋內(nèi)容請(qǐng)參照原文）

微信掃碼加入

中國(guó)地名研究交流群

QQ掃碼加入

江西地名研究交流群

歡迎來稿！歡迎交流！

轉(zhuǎn)載請(qǐng)注明來源：“江西地名研究”微信公眾號(hào)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.