Обработка больших объемов баз. [Вопрос]

HARD_RESET

Original poster
Pro Member
Сообщения
233
Реакции
153
Посетить сайт
Есть папка с базами (70гб).
Чем можно обработать их ? Под обработкой подразумеваю : Склеить + почистить от дублей.
Софт легиона не предлагать ,он почему то крашиться у меня (
 

farhad.tiger

Pro Member
Сообщения
227
Реакции
102
Посетить сайт
Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз
Код:
cat file1 file2 file3 > outfile
file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:
Код:
cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:
grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile
Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:
Код:
cat file1 | grep google.com > outfile
чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе
Код:
wc -l file1
Где file1 - название базы.

разделение баз
Код:
split -l 10000 file1 splitfile_
Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов
Код:
sort file1 | uniq -u > outfile
Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u :D


Далее можно комбинировать эти команды, и быстро обрабатывать базы)
 

HARD_RESET

Original poster
Pro Member
Сообщения
233
Реакции
153
Посетить сайт
Быстрая обработка баз данных в Linux подобных ОС.
Маленькая шпора.

Склейка баз
Код:
cat file1 file2 file3 > outfile
file1, file2, file3 - это наши базы, а outfile - выходной файл. Данная команда объеденяет все файлы в один (склеивает)
Можно использовать сразу для склейки всех файлов в директории:
Код:
cat * > outfile

Выборка из баз
Что такое grep, и с чем его едят (для большего понимания возможностей обработки) xttps://habrahabr.ru/post/229501/

Код:
grep -P "(google.com|yahoo.com|aol.com)" file1 > outfile
Данной командой мы делаем поиск строк, содержащих один из перечисленных доменов, и выносим строку в отдельный файл.
Можно сделать так:
Код:
cat file1 | grep google.com > outfile
чтобы вынести все строки с доменом google.com из файла file1.

Возможности grep очень большие, и все их я описывать не буду. grep так же поддерживает регулярки, и прч.

Подсчёт строк в базе
Код:
wc -l file1
Где file1 - название базы.

разделение баз
Код:
split -l 10000 file1 splitfile_
Данная команда разделит файл (file1) на файлы по 10000 строк. Название файлов будет splitfile_a, splitfile_b, и.т.д. В конце добавится буква каждого нового файла.

Удаление дубликатов
Код:
sort file1 | uniq -u > outfile
Данной командой мы сначала сортируем file1, и удаляем дублирующие строки, а после записываем результат в outfile.
Ну или просто sort -u :D


Далее можно комбинировать эти команды, и быстро обрабатывать базы)
я нашел решение даже на Винде,позже опубликую .
 
Название темы
Автор Заголовок Раздел Ответы Дата
Fratsova2020 Интересно Обработка SEED фраз и приватных ключей Ищу работу. Предлагаю свои услуги. 1
NickelBlack Интересно Обработка ваших логов стиллера Ищу работу. Предлагаю свои услуги. 0
B Обработка $$$ баз а так же ваших $$$ проекто на private keeper Ищу работу. Предлагаю свои услуги. 2
S Интересно Обработка ваших баз Ищу работу. Предлагаю свои услуги. 0
L Обработка формы и анализ трафика по http/// Wait form and take traffic http Другие ЯП 0
S Продам Продаю дедики под крипт в больших объемах! Дедики/VPN/соксы/ssh 0
anspiker Хороший заработок на больших Киндер-сюрпризах Программирование 0
M Cisco удалила опасности в больших и малых возможностях Новости в сети 0
AllenaAston Разделитель больших текстовых файлов на маленькие Python Софт для работы с текстом/Другой софт 0
shooter Центральный Банк РФ сообщил о снижении объемов краж с банковских карт Новости в сети 0

Название темы