![]()
江西地名研究
關(guān)注我們,獲取更多地名資訊
摘要:近年人文社會(huì)科學(xué)研究中古舊地圖的使用規(guī)模和數(shù)字化處理需求不斷增加,古舊地圖的信息化迫在眉睫。文章以“數(shù)字歷史黃河”(DHYR)·圖形資料庫建設(shè)為例,介紹DHYR中圖形史料的RDF編目方案和古舊地圖地名信息自動(dòng)化;通過清代基層水利單元“汛”“堡”重建黃河變遷事件研究案例,分析古舊地圖以及古舊地圖信息化方案在人文社會(huì)科學(xué)研究中的意義。RDF是用于描述知識(shí)圖譜實(shí)體及其關(guān)系的數(shù)據(jù)模型,能減少歷史地理信息化數(shù)據(jù)孤島現(xiàn)象,在DHYR中設(shè)計(jì)針對(duì)古舊地圖的編目方案和描述詞表;采用U-Net架構(gòu)模型進(jìn)行古舊地圖地名OCR識(shí)別,展現(xiàn)深度學(xué)習(xí)方法在古舊地圖信息自動(dòng)化提取中的能力,提高歷史地名提取的效率和準(zhǔn)確率。
關(guān)鍵詞:地名 古舊地圖 黃河 信息化
0
前言
![]()
古舊地圖是人文社會(huì)科學(xué)研究的重要史料,在光學(xué)字符識(shí)別(OCR)、地理信息系統(tǒng)(GIS)、數(shù)據(jù)庫技術(shù)等數(shù)據(jù)庫信息化手段支持下,可以最大限度挖掘古舊地圖中的地理信息,提升古舊地圖的使用效率。歷史地理學(xué)界針對(duì)古舊地圖的信息化處理已經(jīng)進(jìn)行多項(xiàng)實(shí)踐,如張萍等基于多種古舊地圖對(duì)西北“絲綢之路”交通路線和古代城市定位、韓昭慶研究康熙《皇輿全覽圖》投影方式、潘威等對(duì)近代灌渠體系的重建和分析,皆實(shí)踐了GIS手段在古舊地圖處理中的運(yùn)用。不過,歷史地理學(xué)界將古舊地圖的信息化操作局限于GIS環(huán)境下的人工矢量化處理,限定了對(duì)古舊地圖的進(jìn)一步研究和更廣泛使用。解決以上問題的方法是讓歷史地理信息化與圖情、計(jì)算機(jī)科學(xué)、信息管理等學(xué)科領(lǐng)域深度融合,在持續(xù)推動(dòng)GIS在歷史地理學(xué)中應(yīng)用的同時(shí),充分利用大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫技術(shù)、圖形計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)。通過加強(qiáng)對(duì)古舊地圖的管理、處理、使用和分析等多項(xiàng)技能,為歷史地理學(xué)、地圖學(xué)史和數(shù)字人文發(fā)展提供更多可能性。而要落實(shí)這一目標(biāo),首先應(yīng)解決古舊地圖文獻(xiàn)的數(shù)字化管理和圖幅內(nèi)容的自動(dòng)化提取。對(duì)古舊地圖的管理既是對(duì)圖幅作為文獻(xiàn)的數(shù)字化和編目,也是對(duì)圖幅內(nèi)容的提取和數(shù)據(jù)化。
在歷史地理學(xué)研究中,使用古舊地圖需要信息化管理和圖幅內(nèi)容的信息化提取,兩者實(shí)際為一有機(jī)整體。研究者首先需要建立古舊地圖資料庫,采用信息化手段管理大量古舊地圖文檔,在此基礎(chǔ)上采用OCR等手段實(shí)現(xiàn)古舊地圖信息提取的自動(dòng)化,之后方才進(jìn)入具體研究環(huán)節(jié),即專題數(shù)據(jù)的使用層面。因此,古舊地圖的信息化管理以及圖幅內(nèi)容的自動(dòng)化提取是科研工作中的重要環(huán)節(jié)。實(shí)現(xiàn)這一目標(biāo),必須引入圖情知識(shí)體系(本文所用“圖情知識(shí)體系”一詞為圖書情報(bào)學(xué)的理論與技術(shù)體系總和,是筆者作為歷史地理學(xué)工作者對(duì)圖情學(xué)路徑的一種概括),尤其是圖情學(xué)界所采用的RDF編目、語義網(wǎng)和近年來大力提倡的OCR技術(shù)等,對(duì)推動(dòng)歷史地理信息化具有重要意義。本文以清代河工圖的信息化處理方法為例,通過“數(shù)字歷史黃河”(DHYR)中的圖形資料庫的設(shè)計(jì)與實(shí)現(xiàn),展現(xiàn)OCR、語義網(wǎng)技術(shù)、深度學(xué)習(xí)技術(shù)在歷史地理信息化建設(shè)中的重要作用,特別是對(duì)古舊地圖管理和使用中的重要作用。
![]()
1
“數(shù)字歷史黃河”·圖形資料庫
![]()
1.1 資料介紹
“數(shù)字歷史黃河”(DHYR)是由河南大學(xué)、云南大學(xué)共建共享共有的黃河歷史變遷古舊地圖資料庫,目的是實(shí)現(xiàn)黃河歷史變遷的數(shù)據(jù)管理、多維展示和輔助分析。黃河流域古舊地圖數(shù)量眾多,中國(guó)國(guó)家圖書館等單位建有古舊地圖管理平臺(tái),對(duì)其已經(jīng)收藏圖形,DHYR原則上不重復(fù)收錄,專門針對(duì)尚未得到系統(tǒng)收集、整理和電子化處理的古舊地圖,力求與其他單位藏圖互為補(bǔ)充。該系統(tǒng)的資料管理庫有專門的“圖形資料庫”(本文記為“DHYR·圖形資料庫”),其中收錄有清代河工圖、民國(guó)地形圖、黃河流域規(guī)劃圖、晚清西方黃河調(diào)查圖、近代工程藍(lán)圖、手繪草圖等多種圖像。圖1列舉了被DHYR·圖形資料庫收錄的圖形史料,其中,圖1-1為1753年徐城北岸黃河支岔圖(局部);圖1-2為1932年渭北引涇灌溉圖(局部);圖1-3為1946年陜西省水利廳黃河規(guī)劃圖·洛河(局部)。DHYR覆蓋范圍為黃河流域的青、寧、甘、陜、豫、魯、蘇7省,內(nèi)容涉及黃河防洪工程、灌溉體系、交通布局、土地利用等,包括中、英、日等多種語言文字,已達(dá)2,100余幅,原圖收藏單位包括中國(guó)水利水電研究院、黃河水利委員會(huì)等重要機(jī)構(gòu),以及地方水利、檔案、博物館等系統(tǒng)。需要說明的是,沿黃地區(qū)的地形圖除水利部門繪制外,還有大量為軍事部門繪制,這類非水利機(jī)構(gòu)暫時(shí)不收錄于DHYR內(nèi)。
![]()
1.2 設(shè)計(jì)思路
DHYR·圖形資料庫的界面設(shè)計(jì)風(fēng)格簡(jiǎn)潔(見圖2)。DHYR·圖形資料庫建設(shè)的主要思路包括:持續(xù)收集有關(guān)黃河的各類圖形史料;修復(fù)破損史料;對(duì)圖形進(jìn)行掃描,形成高精度電子文本;建設(shè)信息化管理方案,進(jìn)行高效管理;與平臺(tái)其他資料庫和數(shù)據(jù)庫實(shí)現(xiàn)鏈接;充分挖掘史料價(jià)值,推動(dòng)黃河變遷研究。之所以形成以上目的,主要在于這一工作面臨多種困難,包括:經(jīng)費(fèi)限制,本工作只能將經(jīng)費(fèi)用于收集與整理圖幅,突出內(nèi)容建設(shè),降低平臺(tái)建設(shè)難度;管理能力不足,作為高校小型科研團(tuán)隊(duì),缺乏公共圖書館那樣成熟的信息平臺(tái)管理能力,只能犧牲平臺(tái)功能,將其維持在團(tuán)隊(duì)能夠運(yùn)營(yíng)的水平上。實(shí)際上,這是許多高校中小型科研團(tuán)隊(duì)面臨的問題,這一問題造成大量的歷史地理專題數(shù)據(jù)庫無法持續(xù)運(yùn)營(yíng)。
![]()
DHYR·圖形資料庫在設(shè)計(jì)上采取較保守的策略,優(yōu)先保證資料庫的穩(wěn)定運(yùn)行,在這一前提下逐步嘗試新技術(shù)運(yùn)用。DHYR·圖形資料庫有四大功能模塊:(1)圖幅信息模塊:對(duì)圖形史料的基本信息進(jìn)行輸入、編輯;(2)查詢檢索模塊:按照?qǐng)D名、編碼、繪制者、管理者、時(shí)代等多種要素進(jìn)行圖幅檢索;(3)用戶管理模塊:登記、管理DHYR使用者信息;(4)數(shù)據(jù)維護(hù)模塊:對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)、備份、還原操作。圖形資料庫是DHYR的組成部分,庫結(jié)構(gòu)采用HTML+CSS設(shè)計(jì),后臺(tái)結(jié)構(gòu)采用SQL-Server。
1.3 編目方案
1.3.1 元數(shù)據(jù)方案和語義網(wǎng)技術(shù)
本團(tuán)隊(duì)在資料管理方式上,嘗試中國(guó)歷史地理學(xué)界內(nèi)尚未被關(guān)注和使用的一些新方法,最重要的嘗試是借鑒圖情領(lǐng)域的元數(shù)據(jù)方案方法和語義網(wǎng)技術(shù),對(duì)圖形史料進(jìn)行編目和元數(shù)據(jù)記錄編碼。圖幅管理的重點(diǎn)在于編目方案設(shè)計(jì),而歷史地理學(xué)界尚未重視標(biāo)準(zhǔn)化規(guī)范化的資源編目的重要性,導(dǎo)致嚴(yán)重的數(shù)據(jù)孤島現(xiàn)象。DHYR·圖形資料采用圖情領(lǐng)域的元數(shù)據(jù)方案設(shè)計(jì)方法和語義網(wǎng)領(lǐng)域的RDF(Resource Description Framework)模型和編碼格式。RDF是W3C提出的用于描述知識(shí)單元及其相互關(guān)系的數(shù)據(jù)模型和數(shù)據(jù)編碼標(biāo)準(zhǔn),是特色歷史文獻(xiàn)資源編目中的主流方法。RDF將元數(shù)據(jù)記錄抽象為主體(subject)、謂詞(predict)與客體(object)3個(gè)組成部分,利用標(biāo)準(zhǔn)化的數(shù)據(jù)編碼方案描述資料庫中數(shù)據(jù)記錄的每一個(gè)知識(shí)節(jié)點(diǎn)。統(tǒng)一采用這種標(biāo)準(zhǔn)化規(guī)范化的方法,不僅能夠?qū)崿F(xiàn)工作團(tuán)隊(duì)內(nèi)部和跨團(tuán)隊(duì)的數(shù)據(jù)共享,更易與圖書館系統(tǒng)中的編目數(shù)據(jù)進(jìn)行互操作和整合,將個(gè)人研究融入文化基礎(chǔ)設(shè)施體系,令歷史地理學(xué)專題數(shù)據(jù)具有更為廣闊的用戶群體,共同建設(shè)知識(shí)譜系。這是促進(jìn)歷史地理信息管理規(guī)范化、數(shù)據(jù)共享便捷化、豐富數(shù)據(jù)維度的重要舉措。DHYR在歷史地理學(xué)界率先針對(duì)圖形史料采用此方法,將單幅圖形本身作為主體(subject)、描述圖形元數(shù)據(jù)規(guī)范詞表中的元素作為謂語(predict)、元素值作為客體(object)。比如,《道光黃河六省河工埽壩全圖》的“題名(dc:title)”這一元素的編碼結(jié)果為:《道光河工埽壩全圖》實(shí)體dc:title“道光河工埽壩全圖”。
1.3.2 元素集(詞表)設(shè)計(jì)
在確定編目基本原則的基礎(chǔ)上,具體編目方案設(shè)計(jì)需要充分考慮古舊圖形記錄的獨(dú)特性,不能簡(jiǎn)單地將圖情管理系統(tǒng)中對(duì)現(xiàn)代正規(guī)出版物、檔案和一般古籍的編目方案套用至本工作。因此,需要制訂有針對(duì)性的元數(shù)據(jù)方案,設(shè)計(jì)專用于古舊地圖的元數(shù)據(jù)元素集(描述字段)。通過分析DHYR工作中已經(jīng)收集的古舊地圖,發(fā)現(xiàn)一些描述字段對(duì)描述圖形具有重要作用,見表1中的“描述字段”列,包括描述性元數(shù)據(jù)和管理性元數(shù)據(jù),是設(shè)計(jì)元數(shù)據(jù)元素集的基礎(chǔ)。在此基礎(chǔ)上,借鑒國(guó)際通用的都柏林核心(DC)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,復(fù)用其中的部分元素,并自定義一部分元素,還復(fù)用少量上海圖書館本體詞表中的部分屬性。隨著今后工作的進(jìn)展,這一方案將進(jìn)行更新、擴(kuò)展和修正。
![]()
![]()
表1是對(duì)DHYR中古舊圖形進(jìn)行描述的字段構(gòu)成及其定義。通過這些字段,能清晰描述古舊圖形的時(shí)空信息、繪制信息和平臺(tái)管理信息。
(1)“空間范圍”字段采用經(jīng)緯度坐標(biāo)體現(xiàn),這一做法可以在GIS環(huán)境中形成圖幅覆蓋范圍的空間可視化成果,更直觀地表現(xiàn)DHYR所收錄圖形史料的空間格局。
(2)“圖件標(biāo)識(shí)符”“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”等的編訂方式尚無行業(yè)標(biāo)準(zhǔn),在歷史地理學(xué)界也無前期成果可供參考,因此參考地理學(xué)界內(nèi)普遍使用的“郵政編碼方法”。“圖件標(biāo)識(shí)符”采用7位整數(shù)進(jìn)行編碼,首2位表示圖幅的歷史階段,如清代用“12”代表;第3位代表圖幅類型,如傳統(tǒng)時(shí)代的河工圖用“1”代表;后4位代表此類型序號(hào),由“0000”開始。“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”采用4位整數(shù)進(jìn)行編碼,首2位表示人員、機(jī)構(gòu)所處的歷史階段,后2位序號(hào)由“00”開始。“繪制人員標(biāo)識(shí)符”“繪制機(jī)構(gòu)標(biāo)識(shí)符”分別是“水利人物數(shù)據(jù)庫”中的人物標(biāo)識(shí)碼與“水利機(jī)構(gòu)數(shù)據(jù)庫”的機(jī)構(gòu)標(biāo)識(shí)碼,通過標(biāo)識(shí)碼可以實(shí)現(xiàn)跨庫鏈接。
2
基于深度學(xué)習(xí)的
古舊地圖地名識(shí)別
![]()
在完成古舊地圖管理信息化的基礎(chǔ)上,需要重視古舊地圖圖幅內(nèi)容的自動(dòng)提取。OCR(Optical Character Recognition)是圖形識(shí)別的一種,主流的OCR系統(tǒng)使用深度神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)高精度的文檔內(nèi)容識(shí)別。
2.1 研制的必要性
在OCR系統(tǒng)支持下,歷史文獻(xiàn)識(shí)別的精度不斷提升,數(shù)字化進(jìn)程大大加快,但通用OCR系統(tǒng)中的文檔分析與圖形識(shí)別方法難以直接應(yīng)用到古舊地圖的處理之中,是因?yàn)楣排f地圖清晰度、幅面整潔度等要素差異巨大。比如,手繪古舊地圖中,道路、邊界線、文本等不同的地理要素互相疊加,而手寫手繪也導(dǎo)致樣式存在隨機(jī)性誤差,因而古舊地圖中地名的識(shí)別難度更大。古舊地圖中地理要素的定位和提取非常重要,傳統(tǒng)上由人工進(jìn)行,近年借助機(jī)器學(xué)習(xí)等手段訓(xùn)練計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)提取圖幅內(nèi)容的需求日益增多,一些研究涉及從多種地圖中提取地理信息和文本信息的方法。地理信息系統(tǒng)中的地名解析(Geoparsing或Toponym Resolution)是找出非結(jié)構(gòu)化文本中提到的地名并將轉(zhuǎn)換為對(duì)應(yīng)的經(jīng)緯度坐標(biāo)的過程。非結(jié)構(gòu)話文本中自動(dòng)檢測(cè)識(shí)別地名是自然語言處理(Natural Language Processing,NLP)中的命名實(shí)體識(shí)別(Named Entity Recognition,NER)。本研究與文本中地名解析目標(biāo)一致,都是從文本中提取地名:筆者的處理對(duì)象是圖片,即掃描地圖,使用OCR方法提取文本;后者的處理對(duì)象是已經(jīng)數(shù)字化的文本,使用訓(xùn)練機(jī)器從中識(shí)別出表示地名的短語。筆者的工作與文本中地名解析的任務(wù)部分重疊:筆者從古舊地圖中識(shí)別出的文本默認(rèn)都是地名,但識(shí)別文本中的地名是文本中地名解析的核心工作,其方法能為本研究提供思路;相同的部分是都需要將識(shí)別的地名(通過OCR或NER得到)進(jìn)行歧義消除(Disambiguation),確保提取的文本單元是合法的地名,OCR提取的文本內(nèi)容如何組合為正確的地名是本研究需要解決的關(guān)鍵問題。
2.2 深度學(xué)習(xí)與古舊地圖地名識(shí)別
利用機(jī)器學(xué)習(xí)方法從古舊地圖中識(shí)別地名需要大量的訓(xùn)練數(shù)據(jù),因此數(shù)據(jù)標(biāo)注工作很關(guān)鍵。本研究采用逐步迭代的數(shù)據(jù)標(biāo)注方法,起初使用通用的OCR檢測(cè)和識(shí)別古舊地圖中的文本,然后人工對(duì)檢測(cè)出的文本區(qū)域以及識(shí)別的文本內(nèi)容進(jìn)行校對(duì),在新數(shù)據(jù)集上訓(xùn)練新的地名文本檢測(cè)和識(shí)別模型,這樣每迭代一次模型的性能增強(qiáng)一次,經(jīng)過若干次迭代,系統(tǒng)就具備較高的地名檢測(cè)和識(shí)別準(zhǔn)確率。
古舊地圖中地名文本的檢測(cè)屬于對(duì)象檢測(cè)的一種,深度學(xué)習(xí)在該領(lǐng)域取得了成功。對(duì)象檢測(cè)主要分為“兩步法”(Two-Stage)和“一步法”(One-Stage)。“兩步法”對(duì)圖片進(jìn)行特征提取后,得到候選框,再進(jìn)行分類及回歸,代表算法是RCNN系列的目標(biāo)檢測(cè)算法。“一步法”是在提取的圖片的特征圖上進(jìn)行密集抽樣,產(chǎn)生大量的先驗(yàn)框,然后進(jìn)行分類和回歸,代表方法包括YOLO、SSD、RetinaNet。本研究使用一步法檢測(cè)中國(guó)古舊地圖中所有的單個(gè)漢字,訓(xùn)練針對(duì)不同大小漢字的檢測(cè)模型。U-Net在智能語義分割任務(wù)中表現(xiàn)突出,最初是在醫(yī)療影像處理中得到成功應(yīng)用,然后廣泛應(yīng)用于對(duì)象檢測(cè)和語義分割任務(wù),本研究采用這種結(jié)構(gòu)的網(wǎng)絡(luò)進(jìn)行字符級(jí)文本檢測(cè)。
由于文本檢測(cè)是字符級(jí)的,因此文本識(shí)別模型采用字符級(jí)識(shí)別模型。在文本識(shí)別領(lǐng)域,主流的OCR系統(tǒng)采用行(列)級(jí)別的識(shí)別模型,主要采用CTC(Connectionist Temporal Classification)算法搭配卷積神經(jīng)網(wǎng)絡(luò)疊加循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)圖片中包含的文本序列進(jìn)行建模,一般而言文檔中的行和列相較于單個(gè)字符更易檢測(cè)。但是,地圖中的地名文本排列往往不像普通文獻(xiàn)那樣規(guī)則,而且有的地名字符間的距離較遠(yuǎn),所以行列級(jí)別的識(shí)別在地圖文本識(shí)別中并不像在一般文獻(xiàn)識(shí)別那么有效,因此使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行字符級(jí)別的檢測(cè)和識(shí)別。
2.3 工作流程
檢測(cè)到的文字形成正確的地名需要將這些字符合并組成地名詞語,使用Min-Cost Flow算法,將檢測(cè)到的文字進(jìn)行適當(dāng)合并得到地名。圖片中的文本轉(zhuǎn)錄到計(jì)算機(jī),主要包含兩個(gè)步驟:文本區(qū)域的檢測(cè)和文本的識(shí)別。前者從圖片中將包含文本的部分與圖片其余區(qū)域進(jìn)行分割;后者將切割出的文本圖片進(jìn)行識(shí)別,并將對(duì)應(yīng)的文本存儲(chǔ)到計(jì)算機(jī)。
本研究的古舊地圖文本自動(dòng)提取方法包括2項(xiàng)關(guān)鍵步驟:一是古舊地圖中地名文本的檢測(cè)與識(shí)別;二是合并檢測(cè)到的文本形成正確的地名。第一步實(shí)際上是OCR系統(tǒng)功能:檢測(cè)和識(shí)別圖片中文本。有些中文地圖中文字?jǐn)?shù)量密集,使用主流的OCR框架往往很難正確檢測(cè)出所有包含的文字,也很難一步到位地將所有文字根據(jù)視覺特點(diǎn)(如排列、距離)直接生成正確的地名(見圖3)。
![]()
本系統(tǒng)工作流程見圖4。第一步,采取字符級(jí)別的文本檢測(cè),即檢測(cè)地圖中所有的字符,并使用字符識(shí)別模型識(shí)別出這些字符。第二步,首先根據(jù)檢測(cè)到的字符的視覺特點(diǎn),如相對(duì)位置、大小,構(gòu)建一個(gè)K-NN的網(wǎng)絡(luò)。在網(wǎng)路中,每個(gè)檢測(cè)到的字符是一個(gè)節(jié)點(diǎn),每個(gè)漢字代表的節(jié)點(diǎn)周圍距離它最近的K個(gè)其他漢字所對(duì)應(yīng)的節(jié)點(diǎn)之間,添加一條有向邊邊的權(quán)重是它們?cè)趫D片中檢測(cè)到的限界框(Bounding Boxes)中心之間的歐式距離,這里的權(quán)重在后面的算法中也稱為耗費(fèi),在構(gòu)建的這個(gè)網(wǎng)絡(luò)上使用Min-Cost Flow Algorithm將符合條件的字符連綴起來形成地名候選。后續(xù)研究將嘗試使用與該古舊地圖同時(shí)代的地名詞典(Gazetteer)對(duì)候選地名進(jìn)行篩選和校對(duì),從而獲得更準(zhǔn)確的歷史地名。
![]()
2.4 系統(tǒng)關(guān)鍵部件
(1)文本檢測(cè)部件。在古舊地圖的字符檢測(cè)任務(wù)中,采用U-Net架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型。該模型能夠進(jìn)行圖片的語義分割(Semantic Segmentation),在歷史文獻(xiàn)自動(dòng)處理領(lǐng)域得到廣泛應(yīng)用,其中包括古舊地圖中的文本識(shí)別。因?yàn)槟繕?biāo)是進(jìn)行字符級(jí)的識(shí)別,所以字符檢測(cè)模型的數(shù)據(jù)標(biāo)注采用單個(gè)字符的標(biāo)注,標(biāo)注的信息主要是字符的定界框(bounding boxes)。檢測(cè)出的單個(gè)字符輸入中文手寫體OCR系統(tǒng)進(jìn)行識(shí)別,該系統(tǒng)能夠?qū)?jiǎn)體、繁體中文進(jìn)行識(shí)別。
(2)文本識(shí)別部件。實(shí)施文本檢測(cè)的模塊需要記錄每個(gè)字符的坐標(biāo)和尺寸,一方面為后續(xù)查詢定位提供服務(wù),另一方面為第二步的字符合成地名提供輔助信息。地圖中的文本標(biāo)注信息具有如下特點(diǎn):一個(gè)地名用的字符大小一致,大小不一致的往往不屬于同一個(gè)地名;一個(gè)地名包含的字符往往聚在一起成為方向不定的一行(排列方向可能為多種傾斜角度)。本研究的方法是:首先根據(jù)第一步中獲得的每個(gè)字符的定界框(Bounding Box),將檢測(cè)到的字符進(jìn)行分層(位置與原圖中一樣),大小近似的在同一層次,以解決大小字符之間的干擾。將同一層的文本視為同一級(jí)別,利用地名文本的視覺特點(diǎn)組合成地名候選。
(3)中文地名合成部件。第二步類似于解析文本中包含的地名(Geoparsing),采用基于Min-cost Flow Algorithm的地名合成算法,從無結(jié)構(gòu)文本中識(shí)別出地名(自動(dòng)化的實(shí)現(xiàn)需要自然語言理解相關(guān)技術(shù)),處理的是提取到的詞條,默認(rèn)是地名。但OCR識(shí)別準(zhǔn)確率難以在各種情況下都能達(dá)到100%準(zhǔn)確率,古舊地圖中有些地名文本排列密度高、與背景疊加等原因使得提取到的詞條可能是錯(cuò)誤的。因此,提取到的地名需要一個(gè)去模糊化(Toponym Disambiguation)過程,即確定提取的地名所屬歷史時(shí)期和所屬高層政區(qū)。
3
古舊地圖信息化處理
與清代黃河變遷研究
![]()
基于元數(shù)據(jù)方案、語義網(wǎng)技術(shù)和深度學(xué)習(xí)的古舊地圖管理、處理方法能夠?qū)崿F(xiàn)古舊地圖中地理信息的高效挖掘。這些方法是否能在歷史地理學(xué)科研實(shí)踐中發(fā)揮作用呢?下文以清代黃河變遷研究為例,介紹該方法在歷史自然地理研究中的應(yīng)用前景。
3.1 清代黃河下游的“汛”“堡”名稱提取
清代黃河下游依靠“汛”“堡”等基層水利管理單元實(shí)現(xiàn)修防、賑災(zāi)、工程建設(shè)與管理、河銀征收、防盜等事務(wù),是清代河政運(yùn)作的基礎(chǔ)。“汛”依托于黃河一側(cè)河岸的堤防進(jìn)行劃分,“堡”則是在“汛”之下由幾個(gè)河兵或河夫駐守的據(jù)點(diǎn)。“汛”“堡”等基層水利單元的提取和定位,可以為清代黃河變遷研究提供定位河務(wù)運(yùn)作的空間框架,能夠?qū)⒑鱼y收支、物料貿(mào)易網(wǎng)絡(luò)、河務(wù)官員流動(dòng)路徑、堤防修護(hù)與決口等多項(xiàng)河務(wù)環(huán)節(jié)置于具體的地理空間下重新認(rèn)識(shí)。但是,“汛”“堡”的整體狀況在文字性史料中并未得到全面記錄,僅有少數(shù)舉辦大型工程或發(fā)生決堤事件的“汛”“堡”名稱被記載。這一問題可以依靠清代河工圖解決。
利用DHYR·圖形資料庫,在規(guī)模龐大的清代河工圖中快速檢索到覆蓋下游全境、擁有“汛”-“堡”記錄的圖形史料。在史料搜尋方面,大致比傳統(tǒng)方法節(jié)省70%~80%的時(shí)間成本。以《道光黃河六省埽壩全圖》為例,利用本文提出的古舊地圖地名提取方法,訓(xùn)練計(jì)算機(jī)對(duì)圖幅中“汛”“堡”名稱進(jìn)行快速提取,形成格式化表格,能夠快速完成“汛”“堡”名錄的制作。如圖5所示,限界框(Bounding Boxes)標(biāo)定100%的“汛”“堡”名稱,為后期實(shí)現(xiàn)定位提供基礎(chǔ)。
![]()
圖5是依據(jù)此方法重建的豫東河段“汛”“堡”空間格局。與孫濤提出的黃河蘭考以下河段“汛”界數(shù)據(jù)共同構(gòu)成完整的“汛”“堡”空間數(shù)據(jù)。在此基礎(chǔ)上,根據(jù)文字性史料,可以判斷少數(shù)“堡”所在的經(jīng)緯度位置,如中牟下汛的九堡即今中牟縣九堡村,此河段一直是豫東河防重點(diǎn),現(xiàn)代建有“九堡控導(dǎo)工程”。少數(shù)“堡”的經(jīng)緯度確定后,基本上可以在現(xiàn)代地圖上確定“汛”“堡”體系的基本格局,之后根據(jù)史料記錄和清代黃河下游形態(tài)、堤防格局推斷所有“堡”的位置,據(jù)此確定“汛”的范圍。
3.2 黃河重大變遷事件研究
19世紀(jì)以來,黃河下游最重要的變化即1855年(清咸豐五年)的“銅瓦廂改道”,黃河在今蘭考東壩頭一帶改道北流,奪大清河入渤海,結(jié)束了1128年以來形成的黃河“奪淮入黃海”局面,奠定了現(xiàn)代黃河下游基本格局。借助道光《豫省河工圖》(見圖6)及對(duì)其的信息化處理,可以重新認(rèn)識(shí)“銅瓦廂改道”的過程、原因和影響。
![]()
重新討論“銅瓦廂改道”,首先需要準(zhǔn)確認(rèn)識(shí)決口點(diǎn)位置,長(zhǎng)期以來,學(xué)界認(rèn)為此次大改道決口點(diǎn)為黃河蘭考段的銅瓦廂,但通過閱讀清代河工檔案,結(jié)合實(shí)地調(diào)查,本研究發(fā)現(xiàn)1855年決口點(diǎn)為蘭陽上汛三堡。從道光《豫省河工圖》中發(fā)現(xiàn),道光年間銅瓦廂段黃河已經(jīng)緊逼河堤,銅瓦廂段形成托壩、挑水壩、雞嘴壩、格堤等復(fù)合工程構(gòu)成的復(fù)雜體系,其中緊鄰黃河北岸的挑壩和格堤體系才是銅瓦廂埽工所在,黃河北擺的現(xiàn)象在道光時(shí)期已經(jīng)非常明顯。因此,確定蘭陽上汛三堡所在位置非常重要。按前述操作方法,基于道光《豫省河工圖》,本研究確定蘭陽上汛三堡所在地(今蘭考東壩頭鎮(zhèn)東700米黃河河道內(nèi))。決口點(diǎn)位置的重新認(rèn)識(shí)確定了決口點(diǎn)正是清代檔案中記錄的“蘭陽無工河段”,“銅瓦廂改道”的直接原因之一其實(shí)是清政府對(duì)“工”的布局出現(xiàn)問題,而非銅瓦廂本身工程出現(xiàn)問題。這一認(rèn)識(shí)使得學(xué)界能夠重新思考1949年以來得出的一些認(rèn)識(shí),比如用銅瓦廂工程腐敗、太平天國(guó)戰(zhàn)爭(zhēng)導(dǎo)致清廷無暇顧及河務(wù)等解釋此次大改道的成因,而是回到清代河務(wù)制度本身,從制度結(jié)構(gòu)性不足角度重新認(rèn)識(shí)大改道的原因。“銅瓦廂改道”的重新認(rèn)識(shí)僅是一個(gè)例證,實(shí)際上,古舊地圖在歷史時(shí)期黃河變遷(改道、決口、擺動(dòng)以及管理方式)研究中的作用仍需更多案例進(jìn)行驗(yàn)證,進(jìn)而總結(jié)為歷史自然地理的系統(tǒng)性研究方法,革新歷史地理學(xué)的研究方法。
4
結(jié)論與展望
![]()
(1)古舊地圖的信息化包括管理信息化、內(nèi)容自動(dòng)化提取和專題數(shù)據(jù)利用3個(gè)環(huán)節(jié)。
(2)編目方案能提高古舊地圖的管理效率。DHYR建設(shè)嘗試采用RDF方案對(duì)平臺(tái)圖形資料庫進(jìn)行編目,這一方法實(shí)現(xiàn)了圖形資料信息的標(biāo)準(zhǔn)化,在提高信息檢索效率、實(shí)現(xiàn)跨庫鏈接以及不同知識(shí)體系融合方面發(fā)揮巨大作用,能解決歷史地理信息化中的數(shù)據(jù)孤島現(xiàn)象。
(3)基于深度學(xué)習(xí)的古舊地圖地名檢測(cè)和提取技術(shù)能夠快速、準(zhǔn)確地整理古舊地圖中的地名信息。本研究所采用的“U-Net架構(gòu)深度神經(jīng)網(wǎng)絡(luò)模型”在處理古舊地圖中提高了信息采集的準(zhǔn)確率和完整性,效果良好。
(4)信息化手段能夠支持中小型學(xué)術(shù)團(tuán)隊(duì)進(jìn)行批量文獻(xiàn)處理、數(shù)據(jù)重建與分析,克服人力、財(cái)力限制,完成較復(fù)雜的大型跨學(xué)科研究任務(wù)。歷史地理學(xué)界有必要學(xué)習(xí)圖情知識(shí)體系,增強(qiáng)與圖情學(xué)界的交流。
作者:潘威 張光偉 夏翠娟 孫濤
來源:《圖書館論壇》2021年第11期
選稿:耿 曈
編輯:宋柄燃
校對(duì):杜佳玲
審訂:汪鴻琴
責(zé)編:楊 琪
(由于版面內(nèi)容有限,文章注釋內(nèi)容請(qǐng)參照原文)
![]()
![]()
微信掃碼加入
中國(guó)地名研究交流群
QQ掃碼加入
江西地名研究交流群
歡迎來稿!歡迎交流!
轉(zhuǎn)載請(qǐng)注明來源:“江西地名研究”微信公眾號(hào)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.