2013年12月16日

青空文庫テキストをInDesignタグ変換でユニコードで処理する

 青空文庫テキストの置換は、最初は通常の検索置換と複数一括置換と組み合わせで行っていたが、正規表現での改行は「\n」で可能だったので、ワークフローを作り直した。改行の削除は見出し文字の前後と、段落の冒頭の空白スペースの削除で使うので、それらは「\n」の正規表現検索に変更した。見出しは改行と見出し文字列を検索して、同じ文字列を改行のみを削除して置換する。それで全体の置換ステップは8回になった。

 置換テキストはすべてJeditの[読込み]からタブ区切りファイルを読み込んで、ファイルの順番に適用するだけでいい。ただし最初に青空文庫内の不要なタイトルや注記の説明、底本の奥付を削除する。底本の奥付はそのままでもかまわない。別にレイアウトする場合は削除しておく。


続きはこちらから
 
posted by 上高地 仁 at 17:16 | Comment(0) | TrackBack(0) | ニュース&トピック | このブログの読者になる | 更新情報をチェックする