"天價級的書本掃描器 轉寄信件,原始作者不詳"
今天的主角,不是幾千元的普通消費形掃描器
也不是幾萬元的專業級掃描器
更不是百萬級的專業滾筒掃描器
而是
價值七百萬元一【台】的掃描器!!
或許夥伴會問,吉米,平平都是掃描器,掃描一張紙上面的東西,為甚麼價錢如同從腳踏車、
國產車、進口車、甚至進入了夢幻級跑車的差異等級呢?
讓吉米娓娓道來吧~
首先,我們要先看一下,我們要掃的東西,是甚麼樣的source?
是很輕易可以獲得的資料?
還是很寶貴,全世界謹此一份的資料文獻?
接著,這些資料,是一張一張的紙張?可以讓你一張一張掃描,或是搭配APF自動餽紙器,可以讓你自動批次作業?
甚至,他是一本裝訂成冊的書籍,你不可能拆開來用APF來掃描,更不可能花費人力一頁一頁的掃吧?
所以囉,今天的主角,之所以貴,就是因為交付給他的任務,是如此的【神聖】、【偉大】
首先,光源問題,就是非常講究的了,若你今天要掃描的是一本比你年紀還大的文獻史料,而全世界,只剩下這一本,那你還隨便用一個鹵素燈這樣照嗎?會把這種珍貴書籍給搞壞的啦~
而且這個光源還計算過他長時間下來的【工作溫度】必須在安定,安全的範圍內,而不會因為時間增加,反而溫度越來越高,造成來源的破壞
我們夥伴告訴吉米,在開始之前,都會先將要掃描的書本,先送去防潮箱裡面的VIP總統套房住上幾天,等他全身的溼寒氣,都被驅走的差不多的時候,這時候才可以進入下一個階段
先將書本的基本資料給測量出來
然後輸入專屬的dell工作站裡面去
這就是今天要上場的model,民國四十三年度的水產資料,這個恐怕都比我們夥伴家長的年紀還大囉~
這還是手寫的哩~你看人家寫的多工整!
我們在這裡可以看到左邊跟右邊兩塊經過設計的冷光燈管,均勻的照射在我們要掃描的主體上,
這個的角度也是經過精密計算過的喔
這個托盤,就是厲害的地方,讓你放書用的~
他們研究發現,對於書本最佳保護的狀態,是翻頁之後呈現110度的角度,而不是你我送進影印機、scanner的180度,也因為這樣,隨著頁數的翻動,他那兩片支撐版,會隨著書本而自動偵測改變角度
書本放上去之後,就可以按下機器旁邊的按鈕,來自動偵測書本的厚度等相關訊息
接著看到雷射定位點了沒?這個點就是告訴機器你的書本中間那條縫(吉米不知道專業術語該說甚麼)
手動調整一下,調整支撐版,將中間對準這個雷射定位點
這個sensor就是偵測書本厚度的
夥伴又問啦,那誰幫你把書本的頁面,給【正確】的壓平啊?
會這樣想的夥伴真專業,來,就是這兩塊擋板
他會在翻頁時,自動收起來,翻頁之後,在伸出來蓋上去,而且在控制軟體中,還會自動把這兩塊所在的位置給遮蔽掉喔~
這就是dell工作站的全貌(七百萬配這樣的工作站,似乎有點【單薄】,吉米幻想至少該配個兩棵30吋LCD直的,然後旁邊放一台PowerMac Quad G5這樣才像話嘛!不是嗎?)
工作站上面的設定畫面
那他是怎麼翻頁的呢?
來看看他的【吸塵器】,不是啦,這樣說太沒有價值,要說精密的機械手臂
他除了吸氣之外,裡面還有dsp感應器來感應在吸頁面時的力道控制,以免吸力太大把書本都給搞破了,記住喔,年代越久遠的書,越是脆弱,這也是為甚麼防潮箱的總統套房不能住太久的原因,因為若紙張太乾,就容易脆,容易脆,就容易破...所以這個拿捏,夥伴了解了嗎?不是這麼簡單的哩~
人體還是一個非常奇妙的結構,看看我們翻書的這個簡單動作,若要用機器來達成,你看看,要付出多少心力與技術啊~
旁邊的黃色擋板,則是在吸取時,會自動落下隔絕空氣用的
所以說,當一切準備就緒之後,按下start,引擎就發動啦~廠商有把一些常用的按鈕設定到這裡的面板上,可以直接操作,不用用滑鼠在那裡按東按西
其實大家翻書的時候,還有一個問題,你要怎麼將要翻的那頁翻起來,他的下一頁,【乖乖】的躺在下面,而不是同時翻了兩頁、三頁,這樣造成掃描結果的miss
靠的就是這個看似簡單的吹嘴,透過這個梯形上窄下寬的設計,產生不同的氣體流量及流速讓上面那一頁,與下面那一頁分離,將要翻的那一頁漂浮在空中,等著機械手臂來吸走
來來來,分解動作
1. 擋板撤離,吹嘴將要翻的頁面吹起
2.機械手臂伸出
3. 吸取要翻的頁面
4.翻頁完成,擋板歸位駐守,並且掃描完成
完成?!
吉米,怎麼沒看到一條白色的燈管,還是辨識器跑過頁面呢?
那,大家就好奇啦~光學辨識來源是甚麼呢?
來瞧瞧機器頂端
Canon家族,頂級DSLR機種EOS 1D Mk2 ,有玩拍照的人都知道,光是這台頂級數位單眼相機就可以買一台國產小汽車了...
剛最上面是用相機來拍攝物體,也因為他在正中間,所以他兩旁配置有反射用的鏡子,以便能夠正確拍攝到左頁,與右頁
聰明的夥伴就會問啦~
那吉米,左頁右頁是【共拍一張】還是【各拍一張】呢?
答案是透過正中間這個自動切換的鏡子,他會快速的轉換角度,讓相機在下面的機器翻好頁面之後,快速的將左頁與右頁【各拍下一張】照片來
這就是拍出來之後,左頁的結果,在搭配後製處理軟體來進行圖檔的處理以及OCR的便是,最後達到預計的效果
就這樣,一本幾百頁的書,不用【一個】小時,就掃完了,若是工整字體,則再加上OCR辨識技術,來把他變成一個可以迅速檢索的pdf檔喔~
而這個機器的掃描速度是可以調整的,從一小時幾百頁到一小時一兩千頁,都可以
但是呢,若是掃描【重要】書籍,那還是速度慢一點,以免出了甚麼差錯,就麻煩了~
因為買不到啦~
難道要做多拉A夢的時光機回去那個時代找嗎?
這樣有甚麼好處?
1.資料數位化,你有沒有想過,你家書櫥裡面的書籍,若你要從中間找到一段你以前看過,但是映像模糊的片段,透過他來找到,要花多少時間?快則幾分鐘(剛看過,但是還是要翻一翻),慢則一輩子(因為就是想不起來),那若你的收藏又很多的話,那怎麼辦?或是說不是你要找,是你的朋友要從中間找到相關知識,要怎麼找?
有了這種解決方案,你大可以把一整個圖書館的收藏,全部轉成圖文並冒的pdf檔裡面,在電腦裡面只要輸入關鍵字【吉米】,咻~不用幾秒鐘,所有關於吉米的書籍,全部出現,甚至可以看到內文(文字檔)以及疊在後方的原始文件掃描圖檔,讓你不會因為沒有原始資料而不相信所看到的電子文字檔
在說明清楚一點,掃出來的結果可以有幾種
a.每一頁的內容掃成單純的影像檔,所結合而成的pdf檔案(說白話一點,裡面的文字,你不能mark起來,然後拷貝、貼上到你的word檔裡面去使用)
b.每一頁的內容,掃描成影像檔,放至於pdf該頁的最底層,然後上面在疊上一層,OCR辨識後的文字檔,也就是說,眼睛上看上去,就像掃描的頁面,但是你滑鼠一過去小要複製的部份,是可以圈選起來,copy,然後貼到你的word檔案上面去的
這樣很白話了吧?
2.也就是這樣夥伴說有些客戶已經想到另一種使用方式
例如某位醫生,他把他天天要用到的一些多達六千多頁的醫學辭典、文獻,以前都得回到office然後在去一本一本慢慢翻資料,他將這些書籍送來掃描之後,輸出成上面所提到的b結果,也就是掃描結果加上OCR辨識技術的pdf檔
接著下來,他的生活改變了
現在的他,抱著一台平板電腦天機,巡房、甚至是開會時,要找甚麼資料,直接在電腦上面手寫一下關鍵字,按下搜尋
眼睛眨一下,結果就出現了,除了文獻內容,旁邊還有圖片解說,遇到不懂的專業單字,開啟dr.eye即時翻譯軟體,點一下那個生字,翻譯就出來了...
吼~有沒有搞錯啊~會不會太美妙啊?
相信這是大家肖想已久的解決方案吧?
哈哈~
不過這麼貴一台的機器,不是大家都買的起,所以廠商也提出了外包方案,若你有資料要scan,不用買一台,就委託他們,掃一頁看是多少錢,若要加上OCR辨識,再加上多少錢,這樣的方式來解決
那著作權問題呢?
請不要將掃描出來的結果拿去販賣圖利喔~
你自己方便使用,是可以的,這委託廠商掃描時,是要簽切結的喔~