Форум ''Интернет и Право''
10 Октября 2024, 11:52:30 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.

Войти
Новости: Форум "Интернет и Право" прекратил свою работу с 01 января 2013 г.
 
   Начало   Помощь Поиск Войти Регистрация  
В закладки:
Страниц: [1]   Вниз
  Печать  
Автор Тема: RTF/PDF -> HTML  (Прочитано 6489 раз)
Антон Серго
Администратор
Internet-law team
*****
Офлайн Офлайн

Пол: Мужской
Сообщений: 7029


Юридическая фирма "Интернет и Право"


WWW E-mail
« : 04 Октября 2004, 18:12:52 »

Коллеги, помогите "разрулить" такой вопрос...
Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр.
Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги).
Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... Грустный
Записан
zas_exp
Участник
**
Офлайн Офлайн

Пол: Мужской
Сообщений: 157


С любовью к ближнему

301362044 Anatol440@mns.com
E-mail
« Ответ #1 : 04 Октября 2004, 22:01:26 »

Коллеги, помогите "разрулить" такой вопрос...
Есть книга (да, Вы правы "Интернет и Право") в формате RTF/PDF и пр.
Вопрос: как сохранить ее в html c сохранением разбивки на страницы (т.е. типа на файты 1.htm, 2.htm, 3 htm и т.д. в соответствии с нумерацией книги).
Помнится, когда-то видел какую-то утилиту для этого... Но где и когда... Грустный

Вариант 1

1. RTF в HTML достаточно просто в Word-е нажать "сохранить как..." и выбрать формат.

2. PDF чуть сложнее: нужно запустить  FineReader  или Microsoft Office Document Imaging импортировать в текстовый формат и приходим к нальным условиям для первого ответа.

Вариант 2, если не пройдет первый расскажу про второй.
Записан
Антон Серго
Администратор
Internet-law team
*****
Офлайн Офлайн

Пол: Мужской
Сообщений: 7029


Юридическая фирма "Интернет и Право"


WWW E-mail
« Ответ #2 : 04 Октября 2004, 23:28:51 »

Понял, но условия задачки были несколько сложнее...
Конвертировать с сохранением/созданнием постраничной структуры.
Записан
Grad
Посетитель
*
Офлайн Офлайн

Пол: Мужской
Сообщений: 56


И о чем тут говорят?


« Ответ #3 : 05 Октября 2004, 09:38:09 »

Разруливать придется ручками, все эти автоматические переводы тянут за собой кучу мусора (тем паче в книжке  есть сносочки, выделение разными шрифтами) и в инет такую бяку после конвертации (а я как понял к этому и идет подготовка) вряд-ли засунешь - по весу приблизится к вордовскому тексту.  а уж тем более с сохранением разметки. Проще дробить на странички в rtf или pdf.  И подгружать по одной - тем более что вполне можно уложиться в 20 Кб страницу

В подтверждение этих слов проведи эксперемент возьми одну страничку и сохрани ее как вордовский и как ВЕБ-страницу и сравни размер.
Записан
zas_exp
Участник
**
Офлайн Офлайн

Пол: Мужской
Сообщений: 157


С любовью к ближнему

301362044 Anatol440@mns.com
E-mail
« Ответ #4 : 05 Октября 2004, 11:15:13 »

Разруливать придется ручками...

Совершенно верно, после перевода нужно взять текст между первыми тегами <body> и </body> и его разруливать.
При этом нужно помнить, что HTML - текст это не прото текст тут свои требования. Проще, переведенный текст в HTML подредактировать редактором, например, HtmlPad есть встроенная справка, и возможность просмотра. Скачать бесплатно можно  
http://www.softbox.ru/
Там же поискать конвекторы.

Записан
Dimon
Участник
**
Офлайн Офлайн

Сообщений: 802


No comments


« Ответ #5 : 05 Октября 2004, 11:52:14 »

Есть  XPDF (PDFTOTEXT) конвертер. Я уж не помню, где я его тогда нашел, но ссылка в документации ведет на     http://www.foolabs.com/xpdf/

Из множества конвертеров,  с которыми приходилось сталкиваться, это единственный, связанный с PDF, который решил сохранить на винте.


Може также:

       -htmlmeta
              Generate a simple HTML  file,  including  the  meta
              information.   This  simply wraps the text in <pre>
              and </pre> and prepends the meta headers.



Проблема в том, что в любом случае, придется пользоваться руками. По крайней мере, я так сейчас и делаю, если мне нужно взять какой-то текст из PDF для научной или еще какой работы. Поэтому ссылку даю на всякий случай, может поможет...
Записан
Dimon
Участник
**
Офлайн Офлайн

Сообщений: 802


No comments


« Ответ #6 : 05 Октября 2004, 12:17:09 »

Добавлю.
Для постраничной конвертации работает что-то типа

pdftotext.exe -f 2 -l 2 pravo.pdf 2.html

Где 2 - это номер конвертируемой страницы.
Или

pdftotext.exe -f 2 -l 2 -htmlmeta pravo.pdf 2.html
Если нужен html-документ.
Записан
Страниц: [1]   Вверх
  Печать  
 
Перейти в:  

Яндекс цитирования © Антон Серго, 1998-2012. Правовая информация.
Карта сайта "Интернет и Право" (internet-law.ru).

На правах рекламы:

Произвольная ссылка:







Powered by SMF 1.1.21 | SMF © 2011, Simple Machines