如果隨便給你一張照片,僅憑這張照片本身讓你辨別照片是在什么地方拍攝的,即使對于一個(gè)經(jīng)驗(yàn)豐富的旅行達(dá)人而言,這都是非常困難的。如果這張照片是著名的地標(biāo)性建筑,例如埃菲爾鐵塔、埃及金字塔或是尼亞加拉大瀑布等地方,你可以一眼就能猜出照片是在哪里拍的。如果照片里面沒有任何能說明地方和位置的線索,或是照片是在室內(nèi)拍的,或照片里是一種寵物或食物,這時(shí)要再想猜出照片是在什么地方拍的,這就變得困難得多了。
不過人類還是能想盡各種辦法來完成這項(xiàng)任務(wù)的。他們可以借助照片里的各種信息來猜出拍照的地點(diǎn),比如照片里可能出現(xiàn)的語言,植被類型、建筑風(fēng)格、服裝風(fēng)格、車輛靠左行駛還是靠右行駛,等等。這些都是人們的經(jīng)驗(yàn)積累。如果讓機(jī)器來完成同樣的猜拍照地點(diǎn)的任務(wù),很多人可能會(huì)覺得機(jī)器比人類更難完成這項(xiàng)任務(wù)。
然而Google的計(jì)算機(jī)視覺專家Tobias Weyand和James Philbin與Ilya Kostrikov等工程師卻開發(fā)和訓(xùn)練了一個(gè)深度學(xué)習(xí)機(jī)器,它可以通過分析照片上的像素確定照片的拍攝地點(diǎn)。在辨別照片的拍攝地點(diǎn)方面,這個(gè)新的機(jī)器的表現(xiàn)竟然超過了人類,更讓人不可思議的是,對于那些沒有地理物質(zhì)線索的寵物、食物等照片,它竟然也能辨別出照片的拍攝地點(diǎn)。
這個(gè)機(jī)器究竟是怎么做到的呢?其實(shí)方法也不難,至少在機(jī)器學(xué)習(xí)世界是不難的。Weyand和他的團(tuán)隊(duì)成員將全世界劃分成一個(gè)網(wǎng)格,這個(gè)網(wǎng)格由超過26000個(gè)不同大小的方塊組成,每個(gè)方塊的大小由在該地點(diǎn)拍攝的照片的數(shù)量決定的,而其中每一個(gè)方塊都代表著一個(gè)具體的地理區(qū)域。所以在拍攝的照片多的大城市,方塊的密度和大小要多余那些偏遠(yuǎn)的地區(qū)。Google的團(tuán)隊(duì)忽略掉了海洋和兩極地區(qū),因?yàn)槟切┑胤胶苌儆腥伺恼铡?/p>
接下來,Google的這個(gè)開發(fā)團(tuán)隊(duì)利用從互聯(lián)網(wǎng)上的搜集到的各個(gè)地方的照片建立了一個(gè)數(shù)據(jù)庫,再利用地理位置數(shù)據(jù)將不同的照片歸入相應(yīng)的網(wǎng)格方塊中。整個(gè)數(shù)據(jù)集是非常大的,它一共包含了1.26億張照片和所對應(yīng)的拍攝地理位置數(shù)據(jù)。
Weyand和他的團(tuán)隊(duì)利用9100萬張照片來打造一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò),通過照片本身就能知道照片的拍攝地點(diǎn)。他們的想法是這樣的:你將一張照片輸入這個(gè)神經(jīng)網(wǎng)絡(luò)后,就可以立刻知道照片的拍攝地點(diǎn),或是最有可能的拍攝地點(diǎn)的一個(gè)列表。
他們?nèi)缓髸?huì)利用數(shù)據(jù)庫中剩余的3400萬張照片來驗(yàn)證這個(gè)神經(jīng)網(wǎng)絡(luò)的功能,他們這些將照片與這個(gè)核心網(wǎng)絡(luò)中的照片進(jìn)行比對,得到識別結(jié)果。他們將這個(gè)神經(jīng)網(wǎng)絡(luò)命名為PlaNet。
為了進(jìn)一步測試PlaNet識別的準(zhǔn)確度,Google的這個(gè)研發(fā)團(tuán)隊(duì)從Flickr中選取了230萬張帶有地理標(biāo)記的照片,看PlaNet能否對這些照片的拍攝地點(diǎn)進(jìn)行準(zhǔn)確識別。Weyand表示,PlaNet能夠以街道級精度確定3.6%的照片的拍攝地點(diǎn);如果從城市級精確度來說,識別率提高為10.1%;如果從國家級精度來說,識別的準(zhǔn)確率為28.4%;如果從大洲級的精確度來說,識別的準(zhǔn)確率為48%。
這個(gè)識別結(jié)果看似不理想,但其實(shí)已經(jīng)非常了不起了,PlaNet的表現(xiàn)已經(jīng)略好于人工。為了說明這一點(diǎn),Weyand和他的團(tuán)隊(duì)將PlaNet的識別結(jié)果和10名見多識廣的旅行家判斷結(jié)果進(jìn)行了一次比賽。PlaNet判斷的拍攝地點(diǎn)與照片的實(shí)際拍攝地點(diǎn)的平均差距在1131.7公里以內(nèi),而10名見多識廣的旅行家判斷的結(jié)果與實(shí)際地點(diǎn)之間的平均差距在2320.75公里以內(nèi)。
“總體而言,PlaNet在50輪人機(jī)比試中勝出了28輪,平均誤差為1131.7公里;人的平均誤差為2320.75公里。這場人機(jī)比賽表面,PlaNet在識別照片拍攝地點(diǎn)方面的表現(xiàn)已經(jīng)超過了常人。”Weyand團(tuán)隊(duì)這樣說道。
PlaNet在識別照片拍攝地點(diǎn)方面為什么能表現(xiàn)如此優(yōu)異呢?Weyand表示:“我們認(rèn)為PlaNet比人有優(yōu)勢,因?yàn)樗娺^的地方比任何常人去過的地方都要多得多,此外,它還能識別出不同地方景色的細(xì)微差別,即便是那些最喜歡旅游、去過非常多的地方的旅游達(dá)人也很難看出那些細(xì)微差別。”
此外,Weyand的團(tuán)隊(duì)還利用PlaNet來定位那些沒有任何地理位置線索的照片,比如室內(nèi)拍攝的照片或是一些物體的照片,比如貓啊,狗啊。當(dāng)這些照片是在同一個(gè)地方拍的照片的影集的一部分時(shí),這個(gè)機(jī)器可以通過辨別影集中其它照片的位置的方式來辨別這些照片的拍攝地點(diǎn)。