Хм. Спасибо но немного не то. Там не дубликаты одной новости. Например-
Новость1 (и в бд еще допустим 5 таких новостей с таким же названием)
Новость2 (и в бд еще 5 таких новостей с таким же названием)
Нужно удалить дубликаты и чтоб осталась 1 оригинальная.
Новостей всего около 30 000. Вручную нереально перебирать
конечно я не имею понятия какая структура таблицы но все же. делать будем в 3 этапа=)
если заголовки статей хранаяться в отделном столбце то зб, тоесть структура такова:
id-label-text ну и еще дх полей...
вот если label это заголовок статьи, и они встречаються не уникальные то делаем так:
ап. проблема до сих пор не решена. еще раз повторюсь что я не знаю ид уник новостей. их очень много.
зы бд уже 60к новостей
и еще . например
-новость №1
-новость №1 2008
такие тоже желательно бы поудалять.
я в полном недоумении
думаю что только можно решить этот вопрос через поиск определенногопроцента совпадения в названиях.(Т.е. если в названии новости совпадают 3-4 слова и более, то добавит эти новости в список удаления, после чего я уже сам посмотрю, что в этом списке надо удалить,а что нет...)
но к сожалению данную идею реализовать не могу т.к не мой уровень(
заранее благодарен
мазахизм,но в дле есть функция замены быстрого текста во всей дле... найди где именно выполняеться код и вместо замены скажи что бы удалял все похожее....
мля..вы не понимаете
вот наглядный пример
_pswarez.net/index.php?newsid=54997 - новость Перевозчик 3 / Transporter 3 (2008)
смотрим поле Другие новости по теме:
посмотрите чем отличаются от этой
Перевозчик 3 Transporter 3 (2008) TS
Перевозчик 3 / Transporter 3 (2008) DVDRip+700Mb
Перевозчик 3 / Transporter 3 (2008) DVDRip
Перевозчик 3. Transporter 3 2008/TS
Перевозчик 3 / Transporter 3 (2008) DVDRip
и это только 5 первых похожих. думаю там их гораздо больше
и подобных новостей много. фильмы и софт.
и ПОЭТОМУ ИД уникальных новостей не знаю. прочитайте еще раз про идею процентного соотношения.