2017年6月5日 星期一

[原創]香港舊報紙下載教學

香港圖書館提供左個好有用既多媒體系統,讓市民可以查閱昔日的報章:










https://mmis.hkpl.gov.hk/old-hk-collection

本人想把報紙下載作個人使用,但好可惜,網站並不提供下載網址。

網頁以Flash 顯示報紙內容就是被免我們下載版權物品。可是,我發現到漏洞:

Step 1: 先找到Ebook Viewer 的data attribute


例如: /mmis-portal-portlet/swf/MMISEBookViewer.swf?url=https%3A%2F%2Fmmis.hkpl.gov.hk%2Febook&item=2120508&type=image&languagePath=https%3A%2F%2Fmmis.hkpl.gov.hk%2Febook%2Flang%2FMMISEBookViewer_zh_TW.xml&r=1496671407993&encToken=tyYDIFLt3XV0E0xtlCUGQaZRQ4cMIdARxsCj3k6zgTSTjnz4tAPQb2F9y5aIuFKmBcEr00VrokfIzcsgapT%2BypsmEREwexGxl6e7X8MwKosi0TtzaTtlQy4vHavC%2B%2BAd&jsOnLoad=initPageLinks&jsOnPageChange=onViewerPageChange&initPageOnLoad=1&vt=180&jsOnDownload=handleViewerDownload&extTitle=%E8%8F%AF%E5%83%91%E6%97%A5%E5%A0%B1%2C%201991-12-31

Step 2: 下載報紙相對應的XML file, 以找到所有Page ID
從上面的data attribute, 我們得到:
item=2120508
encToken=tyYDIFLt3XV0E0xtlCUGQaZRQ4cMIdARxsCj3k6zgTSTjnz4tAPQb2F9y5aIuFKmBcEr00VrokfIzcsgapT%2BypsmEREwexGxl6e7X8MwKosi0TtzaTtlQy4vHavC%2B%2BAd

跟據以上兩個attribute, XML file 可以在這裏得到: https://mmis.hkpl.gov.hk/ebook/viewer?resource=xml&item=2120508&type=image&encToken=tyYDIFLt3XV0E0xtlCUGQaZRQ4cMIdARxsCj3k6zgTSTjnz4tAPQb2F9y5aIuFKmBcEr00VrokfIzcsgapT%2BypsmEREwexGxl6e7X8MwKosi0TtzaTtlQy4vHavC%2B%2BAd&CB=24

Step 3 下載圖片:
跟據下載回來的XML file, 可以得到所有page id, 例如
<page id="/MULTI_IMAGE_INDEX/1231/NPWK19911231/image/NPWK19911231_01.png" pageNo="1" width="3495" height="4798">
以page id 作為下面的ref attribute 就可以下載相關圖片:
https://mmis.hkpl.gov.hk/ebook/viewer?resource=page&item=212050&ref=/MULTI_IMAGE_INDEX/1231/NPWK19911231/image/NPWK19911231_01.png&encToken=tyYDIFLt3XV0E0xtlCUGQaZRQ4cMIdARxsCj3k6zgTSTjnz4tAPQb2F9y5aIuFKmBcEr00VrokfIzcsgapT%2BypsmEREwexGxl6e7X8MwKosi0TtzaTtlQy4vHavC%2B%2BAd&CB=24

*Important: 以上文章為純電腦技術討論,本人並不建議任何人下載版權物品作任何用途。

1 則留言:

  1. 謝謝分享。我現時只識用截圖方法。有空研究下你這方法,暫時未睇得明。再謝謝。

    回覆刪除