Сковорода Петр : другие произведения.

Конвертация сохранённого в Html документа из Google

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:


  • Аннотация:
    Для своих проектов я использую Google Docs. С одной стороны, конечно, удобно, а с другой -- экспорт в СИ весьма мучителен по нескольким причинам. Что меня больше всего не устраивает -- UTF на выходе Гугла -- редактировать невозможно, да и объём занимает в 6 (или 7) раз больше. Сначала я написал конвертор в Win1251, а потом дописал ещё и обработку фрагментов с курсивом и жирным шрифтом.
    27.03.15 Поправил отступы при абзацах, сменил двойной дефис на длинное тире, добавил отступы от краёв, сменил применяемые ранее для выделения абзацев, целиком выделенных жирным или курсивом, таблицы на blockquote, починил несколько ранее криво работавших вещей. Перезалил все тексты, отформатировав по-новому.
    16.04.15 Переделал всё в один perl-скрипт

Что понадобится: Perl с пакетами HTML::Entities и Encode. Для винды Strawberry Perl, к примеру, уже содержит их без необходимости доустанавливать.

Архив google2samlib.rar.mp3 содержит файл google.pl

Командная строка:

perl -p google.pl in.html > out.html

Скрипт вырезает всё равно не работающие на СИ стили и обрамляет текст в таблицу с двумя пустыми столбцами слева и справа, которые служат полями и центральным ― с текстом с выравниванием с заполнением, добавляет в начале каждого абзаца два длинных пробела пробела и для фрагментов, целиком выделенных курсивом или жирным шрифтом, слегка увеличивает отступ от обоих краёв, обрамляя их в blockquote.

Пустая строка, содержащая только три звёздочки "***" преобразуется в (образец)

◅─◈─▻


Пока это всё, что мне было нужно.



Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"

Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"