Перевод текста из HTML в txt

За вознаграждение или нахаляву (если повезёт)

Модераторы: Хыиуду, MOTOCoder, Medved, dr.Jekill

Ответить
Valkiria
Сообщения: 6
Зарегистрирован: 23 сен 2007, 13:29

:) Привет! Помогите пожалуйста снаписанием проги, которая переводила бы содержимое HTML странички в текстовый документ, в котором это содержимое должно оттображаться, расширение документа может быть doc или txt! Кто может помогите хоть чем - нибудь!!!!!
Хыиуду
Сообщения: 2442
Зарегистрирован: 06 мар 2005, 21:03
Откуда: Москва
Контактная информация:

оut - выходной файл, s - строка.
flag:=false;
Цикл по всем строкам файла
for i:=1 to length(s) do
begin
if s='<' then flag:=true;
if not flag then write(out, s)
if s='>' then flag:=false;
end;
Искусство программирования - заставить компьютер делать все то, что вам делать лень.
Для "спасибо" есть кнопка "Спасибо" в виде звездочки внизу под ником автора поста.
Valkiria
Сообщения: 6
Зарегистрирован: 23 сен 2007, 13:29

Подскажите как можно сделать так что бы при переводе HTML странички в txt в этом же документе сохранялся адрес откуда была скачена эта страница.
Хыиуду
Сообщения: 2442
Зарегистрирован: 06 мар 2005, 21:03
Откуда: Москва
Контактная информация:

Если сохранить эту страницу и открыть ее в Блокноте, в тексте страницы не будет строки http://forum.developing.ru/showthread.php?t=11301. Отсюда вывод: в тексте html-страницы не сохраняется исходный адрес. Ответ на ваш вопрос - никак.
Искусство программирования - заставить компьютер делать все то, что вам делать лень.
Для "спасибо" есть кнопка "Спасибо" в виде звездочки внизу под ником автора поста.
BBB
Сообщения: 1298
Зарегистрирован: 27 дек 2005, 13:37

Хыиуду писал(а):Если сохранить эту страницу и открыть ее в Блокноте, в тексте страницы не будет строки http://forum.developing.ru/showthread.php?t=11301. Отсюда вывод: в тексте html-страницы не сохраняется исходный адрес. Ответ на ваш вопрос - никак.
В общем случае да - никак.
Но, например, если я сохраняю HTML (в HTML-формате же) из IExplorer-а (6.0 - для полноты картины), то этот товарищ проявляет интеллект и добавляет в создаваемый файл строки:

Код: Выделить всё

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3c.org/TR/1999/REC-html401-19991224/loose.dtd">
<!-- saved from url=(0059)http://forum.developing.ru/newreply.php?do=newreply&p=44344 -->
Так что ИНОГДА можно найти исходняй адрес :)
Но в общем случае, повторюсь: да, согласен, никаких гарантий (и алгоритмов) нет.

PS. Я для себя давно уже взял привычку, что если сохраняю для себя из интернета HTML-файл, то после этого вручную в[до]писываю его URL в тэг <TITLE>:

Код: Выделить всё

<TITLE> [http://forum.developing.ru/newreply.php?do=newreply&p=44344] </TITLE>
Ответить