Холиварофорум

Не все, что говорят на Холиварке — правда!

Вы не вошли.

Объявление

Холиварка празднует День Чтеца!
Ознакомиться с праздничными чтениями можно в соответствующем разделе

#1 2017-11-01 10:23:29

Анон

АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Ложноножка треда Дайри-катастрофы

КАК СКАЧАТЬ

Как избавиться от ошибки "Попробуйте через 20 секунд" в скачанном дневнике: найти папку diary.ru/js и удалить файл journal2.

Отредактировано (2017-11-01 10:24:35)


#51 2017-11-02 04:00:26

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

У меня, кстати, в ручками сохраненных страницах моря не работали. Не раскрывались. Но, может, это только у меня так.

Потому что у тебя скорее всего стоит "подгружать море динамически по клику". То есть браузер (да и Эксплорер) рассматривает такое море как ссылку на другую страницу и не качает ее.

Попробуй поставить так:
Настройки дайри - Работа тегов: IMG, MORE, J - Порядок работы тега [MORE]..[/MORE]
Галка должна быть на "скрытая часть грузится одновременно со страницей"

- и сохранить еще раз. Эксплорер с такой настройкой отлично сохраняет моря вплоть до пятнадцатого в глубину (дальше мне стало влом проставлять ))). А вот за браузер не поручусь, но вдруг получится. Ну и, если не сработает или если у тебя вообще логина нет, тогда придётся ручками же все моря открывать. Это точно проще Эксплорер взять, моря он сохраняет на отличненько.

#52 2017-11-02 04:33:00

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

для теста запустил скачиваться одну из шерлокоправд, там 62 страницы комментов, то есть все 2000 набили.
Макрос такой: http://pravdoruboklon.diary.ru/p2139284 … 000..2000}
И соответственно для любого треда берешь ссылку из урл этого треда, а потом добавляешь ?from={:0000..2000}

Скачает он, конечно, всё через задницу с кучей дублей, но мне просто любопытно, сколько гигов может уйти на один дежуркотред со всеми гифками.

Вот этим черезжопным методом с кучей хлама получилось 400 с хвостиком Мб, за девять минут.

Если сохранять одной страницей все 2000 комментов, получается 214 Мб и шесть минут.
Макрос тупо выглядит так: http://pravdoruboklon.diary.ru/p213164547.htm (взял другой тред для чистоты эксперимента)
Остальные настройки все те же самые: уровень ноль и всё такое.

В обоих случаях фоточки открываются, смайлики прыгают, аноши срутся, прям глянешь и радуешься - дежурка дежуркой. Как не уходил. А то дайри такой пиздец в качестве архива прислали, я плакал.


В общем, я бы сохранял одной страницей с тонной комментов, чтобы хоть былО. И вот этой прогой, отлично она картинки вытягивает. А потом, когда кто-нибудь нам что-нибудь сделает хорошее, можно будет попросить поискать способ прикрутить эти скачанные архивы обратно, и там глядишь, сами по страницам переразобьются.

Единственное что: перед загрузкой дежурку ко всему прочему еще нужно будет обязательно дописать
во вкладку ИСЛЮЧЕНИЯ URL - savepic.ru
И обойтись без всех картинок, которые были залиты туда. Увы, но на сейвпике Эксплорер вешается намертво.

#53 2017-11-02 07:20:28

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон, который вчера качал тваретред, сделал наоборот: исключил из поиска ссылки с .htm?from=. То есть страницы списка тредов листаются, а сами треды качаются одной страницей.
Но всё раано в двух экземплярах.

И у менч был хттрек.

#54 2017-11-02 09:12:35

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

А то дайри такой пиздец в качестве архива прислали, я плакал

А можно подробнее?

#55 2017-11-02 09:22:35

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Наверное, у меня лапки, но HTTrack почему-то часть изображений сохраняет как *.html, а не как *.gif.

#56 2017-11-02 11:09:45

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

(отбросить всё остальное)
-*

(сохранить скрипты и форматирование)
+*.css +*.js

(скачать только записи с тегом)
+*tag=3523*

(скачать смайлы, аватары и загруженные изображения)
+*atic.dia*

(сохранять записи с комментариями)
+*ry.ru/p*

(не разбивать на страницы комментарии под записями)
-*htm?from*

(для скачивания нескольких страниц записей)
+*from=160*
+*from=140*

#57 2017-11-02 11:52:22

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Вроде как чтобы с шагом 20 было, вот так макрос должен выглядеть.
http://pravdoruboklon.diary.ru/?from={:0000..5940|20}

Но на практике я еще сие не проверял)

#58 2017-11-02 11:53:54

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Анон, который вчера качал тваретред, сделал наоборот: исключил из поиска ссылки с .htm?from=. То есть страницы списка тредов листаются, а сами треды качаются одной страницей.

Анон, простит за нубский вопрос, а как ты в исключения добавил ссылки определенного вида? Или каждую вставлял?

#59 2017-11-02 12:02:11

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Ещё можно попробовать 0000,0020...5940. Ни ничего не обещаю.

Анон пишет:

Анон, простит за нубский вопрос, а как ты в исключения добавил ссылки определенного вида? Или каждую вставлял?

-*.htm?from*
Но это ХТТрек, как в других программах, не знаю.

#60 2017-11-02 12:25:46

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Народ, имейте в виду, Офлайн Эксплорер выкидывает из сообщества - жмёт по ссылке "Выйти из сообщества", и вылетаешь. Качать без логина никак, там посты, закрытые под 18+, чтоб Оффлайн качал, надо в Паролях зайти на страницу, залогиниться и поставить галочку в Адресах создастся кук, с которым  будет реже выкидывать (но всё равно выкидывать:() Имейте в виду, а то выйдете из какого-нибудь брошенного сообщества, куда только вручную добавляют, и пиривет.
Ещё прописал в Исключениях URL http://ххх.diary.ru/?withdraw&signature= и в Сервера и Каталоги ххх.diary.ru/?withdraw&signature= (туда без http писать надо), но стало только выкидывать реже.
От внесения в цитатник прописал туда же  http://ххх.diary.ru/?subscribe&postid= и http://ххх.diary.ru/?unsubscribe&postid= (ххх.diary.ru/?subscribe&postid= и ххх.diary.ru/?unsubscribe&postid=) - перестало цитатник засирать. С подписками тоже можно так сделать, но их я уже не трогал, там уже так понасрано, что всё равно первоначальные не восстановишь.
Уровней на дайри, наоборот, лучше побольше поставить, или не доберётся до последних страниц. В сообществе, что мне нужно, 2140 страниц, выставил уровень 22, добирается. Туда же всё меню, где черновики, Написать в сообщество и пр.
И после клика на основной адрес проверяйте, не поменялись ли самовольно адреса - выкидывает и такое. Вообще хорошо список адресов и кук отдельно сохранить в текстовом файле, чтоб быстро восстановить.

Отредактировано (2017-11-02 12:27:11)

#61 2017-11-02 13:30:33

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон, такое чувство, что мне проще тебя попросить выкачать мой дайр х) я вроде не туплю, но читаю и у меня моск отключается. На выходных еще разок рискну.

#62 2017-11-02 13:56:07

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Анон, который вчера качал тваретред, сделал наоборот: исключил из поиска ссылки с .htm?from=. То есть страницы списка тредов листаются, а сами треды качаются одной страницей.
Но всё раано в двух экземплярах.

И у менч был хттрек.

Я сперва решил так поступить с эксплорером. Тупо задать ему макрос "листать все треды одной страницей" и параметр "от первого поста Дежурки до последнего".

Первый пост в дежурке: http://pravdoruboklon.diary.ru/p176982953.htm
Последний на данный момент: http://pravdoruboklon.diary.ru/p214081094.htm
То есть макрос "листать все посты с комментариями одной страницей, не открывая ссылки, кроме катов" должен выглядеть как http://pravdoruboklon.diary.ru/?from={: … 214081094}

А потом я сел и немного подумал.
214081094- 176982953 = 37098141 (=количество пролистанных страниц)
Пусть постов из них 6000, а остальные дадут ответ "такой записи не обнаружено".
Файл хтм "такой записи не обнаружено" весит 25 кб.
То есть только одних пустых страниц Эксплорер насохраняет на 37098141*25 = 927453525 Кб = 885 Гб.

Если к этому прибавить 6000 непустых постов, некоторые из которых могут весить 250-300 мб, ну пусть в среднем будет 200. В гигабайтах выходит на 1180.

Итого для скачки дежурки с комментами таким макросом потребуется 1180+885= 2065 Гб, что немногим больше двух терабайт.
Если задать уровень 0, скачается с нерабочими ссылками, зато со всеми картинками.

Просто к сведению :) Таким же "гениям", как я  ;D


Анон пишет:

Вроде как чтобы с шагом 20 было, вот так макрос должен выглядеть.
http://pravdoruboklon.diary.ru/?from={:0000..5940|20}

Но на практике я еще сие не проверял)

:awe: Работает! Спасибо тебе анон! :heart:


+ Хелп! В дневнике есть кнопки: "убрать в блокнот", "поднять запись", "удалить пост" и "отредактировать пост", они для каждого поста имеют такой вид:

http://адрес.diary.ru/p123456789.htm?tonotepad
http://адрес.diary.ru/p123456789.htm?up&signature=
http://адрес.diary.ru/?delpost&postid=123456789
http://адрес.diary.ru/?editpost&postid=123456789

Как прописывать исключения? По логике так как-то?

http://адрес.diary.ru/p{:000000000..123 … ?tonotepad
http://адрес.diary.ru/p{:000000000..123 … signature=
http://адрес.diary.ru/?delpost&postid={ … 123456789}
http://адрес.diary.ru/?editpost&postid= … 123456789}

У кого-нибудь есть тестовый дневник проверить? Я до тестового только вечером доберусь.

#63 2017-11-02 14:00:22

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Анон, такое чувство, что мне проще тебя попросить выкачать мой дайр х) я вроде не туплю, но читаю и у меня моск отключается. На выходных еще разок рискну.

Анончик, если у тебя время до выходных терпит, погоди просто ))
Я планирую сегодня-завтра понасиловать тестовые дневники, так что надеюсь уже завтра вечером сделать нормальную инструкцию, если раньше никто не соберется. Тогда просто скопируешь всё и на кнопку жамкнешь :)

#64 2017-11-02 14:35:47

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Работает! Спасибо тебе анон!

Пожалуйста)

Анон пишет:

+ Хелп! В дневнике есть кнопки: "убрать в блокнот", "поднять запись", "удалить пост" и "отредактировать пост", они для каждого поста имеют такой вид:

Вот я бьюсь с исключениями всех этих кнопок и ссылок сейчас. Такое ощущение, что если в ИСКЛЮЧЕНИЯ URL прописывать не конкретную ссылку, а так сказать общего вида/с маской, то он их не жрет и ничего не дает. И вообще, если некоторые ссылки проверить чуть ниже в той же вкладке в строке "Тест адреса с помощью Фильтров URL", он пишет "The URL is rejected. Reason: URL Filters | Servers", похоже их туда надо вносить.
Короче, по логике надо прописывать макрос с шагом 20, ставить уровень глубины 1 и заносить в исключения все, вот вообще все лишние ссылки (избранное, темы, календарь записей, кнопку выход, также выход из сообщества, добавить/удалить из избранного, в общем все из бокового меню скачиваемого дневника/соо, а также кнопки поднятия, удаления, редактирования записей, подписаться, отписать, сортировать дневник по старым и новым записям). Чтобы Эксплорер ходил только по страницам дневника и по страницам комментариев, не нажимая ничего лишнего.

Анон пишет:

Как прописывать исключения? По логике так как-то?
http://адрес.diary.ru/p{:000000000..123 … ?tonotepad
http://адрес.diary.ru/p{:000000000..123 … signature=
http://адрес.diary.ru/?delpost&postid={ … 123456789}

Вроде вот так: http://адрес.diary.ru/?delpost&postid=*

#65 2017-11-02 14:48:52

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

и заносить в исключения все, вот вообще все лишние ссылки (избранное, темы, календарь записей, кнопку выход, также выход из сообщества, добавить/удалить из избранного, в общем все из бокового меню скачиваемого дневника/соо, а также кнопки поднятия, удаления, редактирования записей, подписаться, отписать, сортировать дневник по старым и новым записям).

А нельзя вычеркнуть из списка вообще всё ( -*, например), а потом добавить то, что надо?

Анон пишет:

Я сперва решил так поступить с эксплорером. Тупо задать ему макрос "листать все треды одной страницей" и параметр "от первого поста Дежурки до последнего".
То есть макрос "листать все посты с комментариями одной страницей, не открывая ссылки, кроме катов" должен выглядеть как http://pravdoruboklon.diary.ru/?from={: … 214081094}
А потом я сел и немного подумал.
214081094- 176982953 = 37098141 (=количество пролистанных страниц)

О. Жёстко. А ХТТрек перебирает ссылки, которые находит на разбираемой странице. То есть у меня он брал каждую ссылку на странице тега (http://pravdoruboklon.diary.ru/?tag=5491639 ) и сверял с шаблоном. Если скачивать — то переходил и разбирал на ссылки новую. Если игнорировать — игнорировал.
И найденные записи тоже листал страницы (?tag=5491639&from=140, например), и в них тоже выбирал то, что кончается на p214081094.htm.

#66 2017-11-02 14:53:50

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Собрал архивы ФБ и ЗФБ с 2011 по 2017 в торрент. Зимние битвы обе. Форматы фб2, док и тхт (у фб-2016). Только тексты, если что.
ссылки на торрент-файл:
http://transfiles.ru/fgyuk
https://ru.files.fm/u/skbwx2mm

вдруг кому пригодится

Анон, спасибо!!!!

#67 2017-11-02 15:03:18

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

А нельзя вычеркнуть из списка вообще всё ( -*, например), а потом добавить то, что надо?

Наверное как-то можно) Я уже думал об этом, возможно стоит в Фильтры URL | Серверы во вкладке Разрешенные просто прописать маску типа http://адрес.diary.ru/p*.htm (или  http://адрес.diary.ru/p*), но не уверен, будет ли Эксплорер ходить только по ссылкам такого типа или все равно его куда-нибудь занесет, что-нибудь удалит. А проверять на своей шкуре что-то пока не хочется))) Вот если сейчас финальная проверка с исключениями не сработает, то может и рискну этот способ.

#68 2017-11-02 15:26:48

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

поставить галку и указать уровень 0 (а то подпишетесь на все треды и это в самом лучшем случае)

Если поставить 1 - не будут ли это записи с комментами? Они же по ссылкам, и как бы следующий уровень от сохраняемых страниц.

#69 2017-11-02 15:37:55

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Если поставить 1 - не будут ли это записи с комментами? Они же по ссылкам, и как бы следующий уровень от сохраняемых страниц.

Будут. Просто кроме записей с комментами, ты заодно на все эти записи подпишешься/отпишешься, занесешь/удалишь их из цитатника, подпишешься/отпишешься от пользователя по почте и через избранное, заодно можешь выйти или вступить в сообщество, так как все перечисленное как бы тоже следующий уровень. Любая ссылка на странице (в том числе удалить запись, если в своем дневнике) будет следующим уровнем. Так что уровень 1 только с правильно прописанными исключениями.

#70 2017-11-02 16:48:14

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Что работает для скачивания закрытых для незарегистрированных дневников:

1. Старая программа Хэлтьи extrasaver - отлично сохраняет длинные тексты в htm.
Вот тут про ее работу
Архив с программой, если надо, выложу.

Плюсы: отлично видит логин-пароль, скачивает комментарии (можно задать в настройках, что все от 10 знаков комментарий), работает с тэгами. Очищает посты и комментарии от всего лишнего хлама.
Минусы: скачивает в htm, плохо видит картинки (иногда не видит совсем), не работает с дневником целиком (только с тэгами), ссылки на каждую страницу тэга нужно вбивать руками.
Но для скачивания, к примеру, фестов очень хороша.

2. Плагин для файрфокс downthemall/
При подключении платной дайри-опции "групповая работа с записями" сохраняет по 60 постов одним кликом.
Плюсы: быстро, со всеми комментариями
Минусы: только страница htm, перелистывать надо вручную, на сохраненных страницах будет ваша авторизация. Ну и в настройках плагина надо будет дополнительный фильтр поставить, чтобы сохранял только нужное.

#71 2017-11-02 16:54:32

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Аноны, я кажется сделал через Explorer! Но пока только для чужого дневника (не сообщества, хотя там всего лишь несколько пунктов добавить надо) и при открытии комментариев в скачанном архиве у меня на странице комментов висит окошко с ошибкой #51, но в общем-то оно по центру висит, а страница скролится, так что все прочитать и просмотреть можно.

#72 2017-11-02 17:01:11

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

в скачанном архиве у меня на странице комментов висит окошко с ошибкой #51, но в общем-то оно по центру висит, а страница скролится, так что все прочитать и просмотреть можно.

А в сохранённом есть папка diary.ru/js? Если есть, то поможет файл journal2 удалить.

#73 2017-11-02 17:06:48

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

А в сохранённом есть папка diary.ru/js? Если есть, то поможет файл journal2 удалить.

Ага, помогло. Спасибо)

#74 2017-11-02 17:09:53

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

Анон пишет:

Ага, помогло. Спасибо)

На здоровье, сама где-то здесь вчера вычитала =)

#75 2017-11-02 18:20:01

Анон

Re: АРХИВЫ С DIARY.RU и АРХИВИРОВАНИЕ. Собираем то, что успели спасти

А можно в ХТТрек в прокси добавить анонимайзер хамелеон?

Подвал форума

Основано на FluxBB, с модификациями Visman
Доработано специально для Холиварофорума