白旗製作所

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

紙の英文をテキストとして読み込み日本語翻訳する方法

紙でしか入手できなかった本や論文をPCに取り込むのですが、
PDF化だけでなく英文を日本語に翻訳して表示したいことが良くあります。

スキャナでPDF化したあとPDFソフトに付属するOCR機能を使ってテキスト化したあと
Google翻訳にかけるのも手ですが、PDFのOCRだと改行が無駄に入って文書として翻訳できなかったり
OCRの性能によって読み取れたり読み取れなかったりします。
また、OCR機能の付属するPDFソフトは優良だったりします。

以下の方法では、無料で手軽に英文誌をPCに取り込んで日本語に翻訳できます。

①英語文書を写真撮影するかスキャナで取り込む
 なるべく高画質なデジカメか、スキャナで文書を取り込みます。
 取り込み形式は画像(JPEG)やPDFどちらも大丈夫です。
 複数枚取り込むなら連続して同一のPDFファイルにしておくのが良いです。

②GoogleDriveにアップロード
 GoogleDriveの適当なフォルダにアップロードします。

③GoogleDocsで開く
 アップロードした写真orPDFファイルを右クリックで選択し、
 Open with→Google Docsとします。
 すると、少し読み込みに時間がかかりますが、
 クラウド上のOCR機能で文字認識されたテキストがGoogle Docsで表示されます。

④Google翻訳にかける
 Google Docs上部のメニューバーから、Tools→Translate Documentを選択します。
 するとポップアップが表示されます。言語をJapaneseとしてファイル名を指定してTransrateすると
 翻訳されたテキストがGoogle Docsの別ファイルとして保存されます。
 便利!
スポンサーサイト
  1. 2018/05/17(木) 19:07:10|
  2. 自炊
  3. | トラックバック:0
  4. | コメント:0

ScanSnap ix500Aを使った書籍読み取り設定

今更ですが、ドキュメントスキャナと裁断機を購入して自炊をはじめました。

使用しているのはこちらの機器です。
ScanSnap iX500 FI-IX500A
ディスクカッター・スリム DC-F5100

自炊をされている方の記事を見ながら試してみていまして、
なかなかうまく読み取れて良さ気です。
ただ、読み取り設定に不満が出てきてカスタムした点が有りますので、
ココにメモしておきます。

【通常】
普通は、以下の読み取りモード設定にしておくと思います。
 画質:ファイン
 カラーモード:自動判別
 読み取り面:両面読み取り
 向き:自動判別
 白紙ページを自動的に削除:□
 継続読み取りを有効:☑
 オプション:全て□

【文庫本等】
 画質:ファイン
 カラーモード:白黒
 読み取り面:両面読み取り
 向き:自動判別
 白紙ページを自動的に削除:☑
 継続読み取りを有効:☑
 オプション:文字列の傾き自動補正のみ☑

古くて色あせた文庫本を上の通常設定で読み込むと、
カラー・グレー・白黒がページごとにまちまちで読み取られることが有ります。

ページによって色あせ具合は違うので仕方ない部分もありますが、
読み込んだ結果はページごとに全然違う色に見えてしまいます。

個人的に小説を読んでいると紙色の違いはすごく気になりますし、
文庫本であまりカラーとかにしても仕方ないので、
カラーモードを白黒に変えて読み取っています。

また、読み込み時に微妙に傾くことがあるので、
傾き自動補正もチェックを入れています。

ちなみに、文庫本の場合カバーは捨ててしまっています。
カバー絵が欲しければAmazonから画像引っ張ってくれば良いですし。

【教科書類】

 画質:スーパーファイン
 カラーモード:グレー
 読み取り面:両面読み取り
 向き:自動判別
 白紙ページを自動的に削除:□
 継続読み取りを有効:☑
 オプション:文字列の傾き自動補正のみ☑
 検索可能なPDF:☑

教科書類も文庫本とほぼ同様ですが、教科書には図や細かい文字が出ることがあるため、
カラーモードは白黒ではなくグレー、画質はスーパーファインにしています。

また、ページ番号は揃えておきたいので白紙ページは残し、
テキスト認識で検索可能なPDFにしておきます。

【漫画】
 画質:スーパーファイン(orエクセレント)
 カラーモード:グレー(orカラー)
 読み取り面:両面読み取り
 向き:自動判別
 白紙ページを自動的に削除:□
 継続読み取りを有効:☑
 オプション:全て□
 検索可能なPDF:□

結構きれいに読み取りたい漫画の場合、画質を上げ、
カラーorグレーで読み取ります。

また、傾き補正を入れてしまうとコマ割りによっては不必要なところまで
傾けてしまうことがあるので、漫画の場合入れません。



こうしておくと大体満足する読み取り結果が得られることがわかりました。
ここまで細かく分けるか、いっそ全て自動で読み取って労力を削減するかは
用途に依存すると思いますが、冊数が多い場合このくらいは分けておいても
良いような気がします。


  1. 2017/05/02(火) 03:10:00|
  2. 自炊
  3. | トラックバック:0
  4. | コメント:0
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。