ANTICHAT.XYZ    VIDEO.ANTICHAT.XYZ    НОВЫЕ СООБЩЕНИЯ    ФОРУМ  
Баннер 1   Баннер 2
Antichat снова доступен.
Форум Antichat (Античат) возвращается и снова открыт для пользователей. Здесь обсуждаются безопасность, программирование, технологии и многое другое. Сообщество снова собирается вместе.
Новый адрес: forum.antichat.xyz
Вернуться   Форум АНТИЧАТ > Программирование > PHP, PERL, MySQL, JavaScript
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

Парсинг mail'ов
  #1  
Старый 24.06.2009, 19:01
ANONIM123
Познающий
Регистрация: 14.01.2008
Сообщений: 38
Провел на форуме:
31731

Репутация: -11
По умолчанию Парсинг mail'ов

Есть список txt, а в нём куча мылов, в перемешку с текстом

Нужно выпарсить все майлы, и создать список майлов, чтобы не повторялись... Навеярняка уже есть готовые скрипты.. Выложите плиз
 
Ответить с цитированием

  #2  
Старый 25.06.2009, 00:12
TheSoul
Познающий
Регистрация: 12.11.2007
Сообщений: 94
Провел на форуме:
4789789

Репутация: 71
По умолчанию

В файл text.txt кидаешь всё что надо отпарсить
В конце получишь мыла в файле pars_emails.txt

#!/usr/bin/perl -w

open (FILE , "<text.txt");
chomp (@text = <FILE>);
close FILE;

undef %saw;

while (@text)
{
$pars = shift @text;
$pars =~ /\b(.*?)\@(.*?)\.(.{2,4})/g;
$email = "$1\@$2\.$3";
push @in,$email;
}

@in = grep(!$saw{$_}++, @in);
open (FILE2 , ">>pars_emails.txt");

while (@in)
{
$end = shift @in;
print FILE2 "$end\n";
}
close FILE2;

Последний раз редактировалось TheSoul; 25.06.2009 в 11:40..
 
Ответить с цитированием

  #3  
Старый 25.06.2009, 00:22
eLWAux
Members of Antichat - Level 5
Регистрация: 15.06.2008
Сообщений: 941
Провел на форуме:
5111568

Репутация: 2399


Отправить сообщение для eLWAux с помощью ICQ
По умолчанию

PHP код:
$f = @implode('',@file('INPUT.TXT'));
if (
preg_match_all('/(\w+@\w+\.\w{2,3})/'),$f,$m) {
   
$m array_unique($m); 
   
var_dump($m);

 
Ответить с цитированием

  #4  
Старый 25.06.2009, 11:34
demond
Участник форума
Регистрация: 05.11.2008
Сообщений: 105
Провел на форуме:
292722

Репутация: 71
По умолчанию

TheSoul, твой вариант не подойдет хотя бы потому что в адресах с зоной домена из 4-х букв домен будет урезан до 3-х (например вместо mail.info будет mail.inf), что не есть гуд!
eLWAux, а у тебя если в адресе будет -(тире) или .(точка) , то они будут проигнорированы, т.е. \w проверяет только состоит ли текст только из букв, цифр и символов подчеркивания.
поэтому предлагаю в качестве регулярки для поиска следующее:
Код:
(.*) ([\w+\-\.]+\@[\w\-\.]+\.\w{2,4}) (.*)
Хотя, конечно, надо видеть текст!

Последний раз редактировалось demond; 25.06.2009 в 11:40..
 
Ответить с цитированием

  #5  
Старый 25.06.2009, 12:32
ReduKToR
Постоянный
Регистрация: 05.01.2009
Сообщений: 684
Провел на форуме:
3281634

Репутация: 485


Отправить сообщение для ReduKToR с помощью ICQ
По умолчанию

Допустим меня интересует для БД в формате .sql
 
Ответить с цитированием

  #6  
Старый 25.06.2009, 12:52
demond
Участник форума
Регистрация: 05.11.2008
Сообщений: 105
Провел на форуме:
292722

Репутация: 71
По умолчанию

Цитата:
Сообщение от ReduKToR  
Допустим меня интересует для БД в формате .sql
пример текста дай, чтобы не изобретать! И я тебе приведу готовое регулярное выражение!
 
Ответить с цитированием

  #7  
Старый 25.06.2009, 14:07
b3
Постоянный
Регистрация: 05.12.2004
Сообщений: 647
Провел на форуме:
1698585

Репутация: 818


Отправить сообщение для b3 с помощью ICQ
По умолчанию

Цитата:
Допустим меня интересует для БД в формате .sql
помоему ТС хочет вытянуть с дампа мыльники, тогда уже легче сделать запрос в БД:
SELECT email_column FROM table_name
 
Ответить с цитированием
Ответ



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Парсинг каталогов OnArs О Работе 0 07.06.2009 17:07
Парсинг формы для гет/пост запроса rcc0023 PHP, PERL, MySQL, JavaScript 3 17.04.2009 11:27
[PHP] Парсинг SPrivate PHP, PERL, MySQL, JavaScript 1 10.03.2009 22:09
Парсинг гугла, пример (C#) W!z@rD С/С++, C#, Delphi, .NET, Asm 0 15.02.2009 16:03



Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT.XYZ