Холиварофорум

Не все, что говорят на Холиварке — правда!

Вы не вошли.

Объявление

Внимание! Если у вас в последнее время были проблемы с получением автоматических писем при регистрации или восстановлении пароля, пожалуйста, прочитайте пояснения

#1 2014-04-18 11:36:50

Анон

Тема айти

Каталог полезных советов и ссылок, принесенных разными it-анонами, c 1-й по 332-ю страницы:

1. C чего начинать курить айти?
2. Языки программирования
3. Тестировщик
4. Фронт-энд, бэк-энд, вёрстка
5. Data Science
6. Алгоритмы
7. Разное
8. Курсы и ресурсы с задачами

Безблог [Левел-ап] [IT] войти-в-айти с нуля для 3+ анонов


#7251 2021-03-19 14:24:33

Анон

Re: Тема айти

Анон пишет:

Какими приложениями для рисования структур принятия решений вы пользуетесь?

umlet, но диаграммы в ней страшные как смертный грех, не для презентаций

Отредактировано (2021-03-19 14:24:57)

#7252 2021-03-19 15:01:19

Анон

Re: Тема айти

Анон пишет:

Какими приложениями для рисования структур принятия решений вы пользуетесь?

Twine, если только для себя. Он без ромбиков, но мне хватает прямоугольников.)
И prezi.com ещё.

#7253 2021-03-22 09:41:12

Анон

Re: Тема айти

Котята, а подскажите, пишите пет-проекты, кто что пилит, в свободное время. Хочу что-то прогать для отдыха и души, но ничего в голову не лезет :(

#7254 2021-03-22 13:09:51

Анон

Re: Тема айти

Анон, только ты лучше всех знаешь, что тебе интересно и мотивирует. Писать калькулятор налет-часов для флота Галактической Империи или распознавание лиц на скриншотах с целью опознать фильм по картинке.

#7255 2021-03-22 15:19:13

Анон

Re: Тема айти

Подскажите, пожалуйста,
имеется xml-файл весом 900мб, который, скорее всего, содержит одну простую таблицу, просто с большим количеством строк. Попытка открыть его в икселе приводит к тому что компьютер полностью использует свои ресурсы, и как долго будет длиться процесс открытия - неясно.
Чем такой файл можно открыть, конвертнуть, разделить на более жизнеспособные части, не прибегая к специфическим знаниям?

#7256 2021-03-22 15:40:35

Анон

Re: Тема айти

Пробовал каким-нибудь LibreOffice или Open Office Calc открыть? Иногда они лучше Excel справляются.

#7257 2021-03-22 15:42:16

Анон

Re: Тема айти

Питон нельзя?
Если нет, то открыть на компе с бОльшим размером оперативной памяти.

Отредактировано (2021-03-22 15:42:43)

#7258 2021-03-22 15:52:29

Анон

Re: Тема айти

Анон пишет:

Пробовал каким-нибудь LibreOffice или Open Office Calc открыть? Иногда они лучше Excel справляются.

спасибо, попробую

Анон пишет:

Питон нельзя?

к сож, я вообще ноль в программировании, а попросить помочь некого

Анон пишет:

Если нет, то открыть на компе с бОльшим размером оперативной памяти.

у меня 16 гб, и иксель, и офис 64-разрядные

#7259 2021-03-22 17:14:06

Анон

Re: Тема айти

Анон пишет:

Подскажите, пожалуйста,
имеется xml-файл весом 900мб, который, скорее всего, содержит одну простую таблицу, просто с большим количеством строк. Попытка открыть его в икселе приводит к тому что компьютер полностью использует свои ресурсы, и как долго будет длиться процесс открытия - неясно.
Чем такой файл можно открыть, конвертнуть, разделить на более жизнеспособные части, не прибегая к специфическим знаниям?

В командной строке набери cat file_path file_name, прямо туда выдаст тебе содержимое файла. Это работает в Линухе, а в Винде я хз. Но ты мало вводных данных дал, не стану ж я гадать, что у тебя там. Если питон стоит, кстате, можно безо всяких линухов вызвать ту же команду через интерпретатор.

#7260 2021-03-22 17:30:08

Анон

Re: Тема айти

Каковы шансы, что у нулевого в программировании анона внезапно стоит Линукс на машине? При этом на линуксе, внезапно! Майкрософтовский Excel. На Линуксе.

Анон пишет:

Но ты мало вводных данных дал, не стану ж я гадать, что у тебя там

А немного голову включить?

#7261 2021-03-22 17:54:08

Анон

Re: Тема айти

Свяжись с источником и проси скинуть в csv)

#7262 2021-03-22 18:31:31

Анон

Re: Тема айти

Анон пишет:

А немного голову включить?

А иди-ка ты нахуй с такими предъявами. Ты пришел и попросил помочь, а я должен голову включать, ну охуеть теперь.

#7263 2021-03-22 18:35:29

Анон

Re: Тема айти

Анон пишет:
Анон пишет:

А немного голову включить?

А иди-ка ты нахуй с такими предъявами. Ты пришел и попросил помочь, а я должен голову включать, ну охуеть теперь.

Тебя не я просил, я мимокрокодил. Извини, не знал, что ты свой коммент написал ради того, чтобы выебнуться, а не анону помочь.

#7264 2021-03-22 19:07:02

Анон

Re: Тема айти

Анон пишет:

Тебя не я просил, я мимокрокодил.

То есть тебя эта проблема даже не касается, но ты пришел ущемиться?
Я анону предложил как раз решение проблемы, а что сделал ты? Окрысился на меня? Молодец, это очень помогло.
Командная строка есть в любой ОС настольного компа, насколько мне известно. Не вижу проблемы открыть командную строку и проверить, а не работает ли на Винде команда, которая точно работает на Линухе. А если не работает, посмотреть, нет ли у нее аналога.
А еще команда cat работает в интерпретаторе питона, но для этого надо, чтобы был этот интерпретатор установлен.

#7265 2021-03-22 19:30:27

Анон

Re: Тема айти

Если человек может глазами просмотреть 900 мегабайт данных, надо ему медальку какую-нибудь выдать. С ними ведь дальше что-то сделать надо, а не просто сказать, что это действительно дамп таблицы.

Просматривать большие файлы без загрузки их целиком в память совершенно точно позволяют hex-редакторы. Можно оценить, вызван ли такой объём самим числом записей или раздут переводом в XML. Если там действительно сотни мегабайт, лучше сразу в базу данных импорт написать, чтобы потом не чертыхаться, что Excel не ворочается так, как надо. Если вся проблема в километрах тегов для каждой циферки, можно не выдумывать, а один раз на Python целиком импортировать его с помощью одного из готовых XML-парсеров и сохранить в менее сумасшедшем формате для работы.

#7266 2021-03-22 20:23:33

Анон

Re: Тема айти

Анон пишет:

А еще команда cat работает в интерпретаторе питона, но для этого надо, чтобы был этот интерпретатор установлен.

што

Ты по-моему не особо понимаешь что такое 'команда' cat и откуда она берётся, потому как питон тут абсолютно не при чём. А вывод в консоль файла на 900мб просто промотает скроллбэк буфер твоего tty и не даст ничего, кроме ощущения "я покакал при помощи coreutils". Впрочем, юным дарованиям и его вполне достаточно для поднятия самооценки.

Питон, впрочем, может пригодиться: https://github.com/dilshod/xlsx2csv

#7267 2021-03-22 20:57:32

Анон

Re: Тема айти

Анон пишет:

Питон, впрочем, может пригодиться: https://github.com/dilshod/xlsx2csv

Ну или воспользоваться тем, что уже есть в интернете: https://convertio.co/ru/xlsx-csv/
(хотя не подойдет, там размер до 100 мб, но может есть где конвертатор с лимитом повыше)

#7268 2021-03-22 21:26:27

Анон

Re: Тема айти

Анон пишет:

Ты по-моему не особо понимаешь что такое 'команда' cat и откуда она берётся, потому как питон тут абсолютно не при чём. А вывод в консоль файла на 900мб просто промотает скроллбэк буфер твоего tty и не даст ничего, кроме ощущения "я покакал при помощи coreutils". Впрочем, юным дарованиям и его вполне достаточно для поднятия самооценки.

Ты, по-моему вообще не понял, что это за команда, и куда ее засовывать. Просто взял и написал команду, гениально. И что она должна тебе выдать?

а вот что

#7269 2021-03-22 22:51:43

Анон

Re: Тема айти

Анон пишет:

Но ты мало вводных данных дал

у меня есть мак, ээ эмулятор винды на маке и есть просто винда. на маке и соотв эмуляторе оперативка восемь, на винде - 16.

файл, чтобы не ходить вокруг да около - список лицензий росздравнадзора на разные виды деятельности с указанием кто получил, зачем получил, когда получил итд. https://roszdravnadzor.gov.ru/opendata/ … 0-licenses скачивать через интерфейс росздравнадзора - не вариант, потому что там максимальное число выдаваемых строк - 100
из этого файла (я предполагаю, там не меньше, чем несколько сот тысяч строк) мне надо будет потом выделить те, которые на специфический вид деятельности, в определенном регионе и, возможно, если там будут данные по самому тексту лицензий, то сделать более узкую разбивку по категориям. я не думаю, что если мне это вывалится в командную строку/терминал, то мне с этим что-то удастся сделать.

Анон пишет:

Ну или воспользоваться тем, что уже есть в интернете

я не нашел в интернете конвертеров на такие объемы

Анон пишет:

Просматривать большие файлы без загрузки их целиком в память совершенно точно позволяют hex-редакторы. Можно оценить, вызван ли такой объём самим числом записей или раздут переводом в XML. Если там действительно сотни мегабайт, лучше сразу в базу данных импорт написать, чтобы потом не чертыхаться, что Excel не ворочается так, как надо. Если вся проблема в километрах тегов для каждой циферки, можно не выдумывать, а один раз на Python целиком импортировать его с помощью одного из готовых XML-парсеров и сохранить в менее сумасшедшем формате для работы.

превью в конвертере выглядит так:

Скрытый текст

короче, нет впечатления, что проблема именно с тегами

опенофис кальк при попытке открыть выдает ошибку. конвертер xml (я скачал total xml converter) обрабатывает где-то до середины, а потом тоже выдает ошибку (что наводит меня на мысль, что в таблице мб просто больше миллиона строк)

Анон пишет:

Свяжись с источником и проси скинуть в csv)

не знаю, анон, то ли поржать и поплакать, то ли действительно попробовать))

Отредактировано (2021-03-22 22:56:13)

#7270 2021-03-23 00:22:51

Анон

Re: Тема айти

Анон пишет:

из этого файла (я предполагаю, там не меньше, чем несколько сот тысяч строк) мне надо будет потом выделить те, которые на специфический вид деятельности, в определенном регионе и, возможно, если там будут данные по самому тексту лицензий, то сделать более узкую разбивку по категориям. я не думаю, что если мне это вывалится в командную строку/терминал, то мне с этим что-то удастся сделать.

А, ну тогда тебе да, надо открывать и глазками смотреть, что там, и ручками делать, что нужно делать. Я предложил командную строку для ревьюшки, ткскзть. Ищи тогда программу, чтоб открыть и посмотреть. В питоне отличные парсеры под это дело, но раз тебе без программирования...) Попробуй вот тут посмотреть https://compconfig.ru/software/programm … v-xml.html

#7271 2021-03-23 01:02:25

Анон

Re: Тема айти

Анон пишет:

не знаю, анон, то ли поржать и поплакать, то ли действительно попробовать))

Вообще чаще всего это реально самый простой и эффективный способ решения проблемы, если нет понимания, как это на своей стороне реализовать)

Еще можно установить Notepad++, открыть в нем и отформатировать в штатном редакторе с поддержкой регулярки. Для этого не надо быть кодером.
Регулярка для софтины есть тут: https://starper55plys.ru/bez-rubriki/re … e-primery/

Отредактировано (2021-03-23 01:12:51)

#7272 2021-03-23 01:06:32

Анон

Re: Тема айти

Анон пишет:

превью в конвертере выглядит так

Офигенный «конвертер», который utf-8 не понимает. Ну, либо это специально запутанный экспорт с двойной перекодировкой, которую надо восстанавливать. Возможно, есть ещё какие-то глюки разметки, и надо проверять, что программа разобрала файл без ошибок, и обходить их вручную. Без программирования не обойтись.

Судя по тому, что внизу предполагается возможность существования нескольких адресов, это не таблица, а древовидная структура. Она может быть преобразована в одну таблицу дублированием строк (если таких ветвлений не слишком много), либо в несколько связанных таблиц в БД.

На страничке лежит файл .xsd, описывающий схему дерева XML. Вероятно, есть пользовательские программы, которые сами по ней проверят корректность разметки, и смогут представить его не только текстом, но и структурированно. См. этот и соседние ответы, например: https://stackoverflow.com/a/4944922

В любом случае, чтобы в программе что-то искать и как-то фильтровать, понадобится какой-то прикладной язык запросов и понимание взаимодействия со структурой документа, а чем это отличается от программирования? Так-то задача вполне обыденная, но вот можно ли решить её исключительно кликая мышкой по формочкам, не знаю.

#7273 2021-03-23 01:08:33

Анон

Re: Тема айти

Анон пишет:

На страничке лежит файл .xsd, описывающий схему дерева XML. Вероятно, есть пользовательские программы, которые сами по ней проверят корректность разметки, и смогут представить его не только текстом, но и структурированно.

Есть, например, XML-Spy, но стоит, сука, как крыло от боинга (

#7274 2021-03-23 01:22:45

Анон

Re: Тема айти

Анон пишет:

Ты, по-моему вообще не понял, что это за команда, и куда ее засовывать. Просто взял и написал команду, гениально. И что она должна тебе выдать?

г-ди, ты такой тугой что даже не понял, что cat это просто алиас шелла твоего ебучего айпитона (где это 'почему-то' работает), и конкретно этот алиас к питону имеет такое же отношение как морская свинка к морю и свиньям.
если б ты учил питон вместо того чтоб учить анона какой-то хуйне в треде, то NameError могла бы тебе намекнуть, что кат это не терминальный символ и не часть стандартной библиотеки.

Анон пишет:

файл, чтобы не ходить вокруг да около - список лицензий росздравнадзора на разные виды деятельности с указанием кто получил, зачем получил, когда получил итд. https://roszdravnadzor.gov.ru/opendata/ … 0-licenses скачивать через интерфейс росздравнадзора - не вариант, потому что там максимальное число выдаваемых строк - 100

А, я думал ты просто неправильно написал .xlsx. Что ж, поздравляю, у тебя самый настоящий xml и соответствующие проблемы. Эксель тебе не поможет да и вообще нахуй не нужен - т.к у тебя сложные данные с несколькими вложенными типами (не знаю кто тебе сказал про "простую таблицу"), да и для того чтобы конвертировать xml во что-то другое наиболее резво тебе надо файл с описанием трансформации (.xslt). Писать его в случае типа твоего надо руками, при этом хорошо представляя как все эти списки списков будут выглядеть в плоской таблице.

В общем если ты не умеешь программировать то самое время учиться, т.к самый вменяемый способ с этим что-то сделать это загнать в БД, а потом писать запросики. Есть СУБД типа BaseX, сделающие тебе из XML + схемы (доступна на сайте, .xsd файл) БД без каких-либо трансформаций, но писать запросы придётся особым образом в XPath синтаксисе, что есть удовольствие ниже среднего. Может найдётся ещё какой-то NoSQL, который даст импортировать твой набор и позволит писать запросы человечнее, но хз, от хранилок данных я бесконечно далёк.

Ну и т.к это некий ваш метод распространения открытых данных, то всегда может найтись какой-то готовый инструмент который всё сделает и всё экспортирует. Яхз, сам не из РФ и неебу как у вас и что.

#7275 2021-03-23 01:27:31

Анон

Re: Тема айти

Ну почему, если почитать про XPath/XQuery, можно найти редактор BaseX, открытый и свободный™. Мне просто кажется, что разбираться с рептилоидными языками обработки XML и с тем, что, где и как работает в профессиональном интерфейса профессиональной программы, начинающему будет не так легко, как, скажем SQL понять. Впрочем, документация есть, примеры и учебники — тоже.

Подвал форума

Основано на FluxBB, с модификациями Visman
Доработано специально для Холиварофорума