カテゴリー EPUB

新卒エンジニア向けに、電子マンガのエンジニアリングについて話すイベントを開催します。

株式会社メディアドゥ、ピクシブ株式会社、株式会社ブックウォーカー、株式会社TORICO の技術部門の合同で、電子書籍の作成・流通から閲覧までの技術的裏側を紹介するイベントを行います。

新卒エンジニア向けに、電子マンガのエンジニアリングについて話すイベントを開催します。

EPUBファイルから画像を抽出する

電子書籍フォーマットとして広く使われている EPUB ファイルから、連番で画像を抽出する方法です。 ツール作りました! pip でインストールできます。https://github.com/ytyng/epub-extract-jpeg EPUB ファイルの概要 EPUB ファイルとは、平たく言えば ZIP圧縮された XHTML です。 コミックで一般的に使われる形式では、1ページが1つの XHTML ファイルになっており、その中に 1 つの img タグが あり、画像ファイルにリンクされています。 そのため、手順としては EPUB ファイルを解凍 構成情報の XML ファイルを解析し、ページ画像の URL (パス) を取得 ページ画像を連番で改名コピー(移動) となります。

EPUBファイルから画像を抽出する

TORICOの他のブログ投稿

Recent Posts

Feeds

RSS / Atom