На сървърите на фирмата ми има хостнати десетина уикита. Въпреки инсталирания SpamBlacklist, почти всичките са под постоянния удар на спамботовете – не минава ден в някое да не се провре бот, останал извън черния списък. А ако изключа разширението, спамовете се изсипват като порой.
От известно време насам си събирам спамове. Надраскал съм няколко скриптчета, които проверяват минаващите през сървърите ми е-майли, HTTP референции, блог-коментари, а вече и уики-страници. Каквото бъде разпознато като спам, влиза в база данни. Ако някой ден ми остане още малко време, ще донадраскам правене на статистика за IP-та, които пращат спам, за спамвертизирани URL-ове, за IP-та, които ги хостват, и може би за още неща. Статистиките… не знам. Може би ще са достъпни през уеб интерфейс на специален хост, или през API интерфейс за машинна обработка, или и двете. Пък после който иска да прави с тях каквото иска.
Проблемът тук е, че след като отнякъде влезе спам в мое уики, задължително блокирам IP-то, което го изпраща. И по този начин се лишавам от новите попълнения на спамвертизирани домейни, които иначе ботът би ми пращал услужливо, за да попълвам черните си списъци. Затова реших да направя едно специално уики, създадено само с една цел – да привлича спамботовете, и безропотно да приема продукцията им.
По същество, такова уики е вид honeypot. Идеята никак не е нова, нито като цяло, нито в уики-света. А проблемът с използването им е, че спамботовете ги намират сравнително бавно. Затова имам молба към колегите ми по блог – драснете по някой и друг линк към honeywiki.zavinagi.org. Така ще улесните спамботовете. И като резултат – и мен.
А като резултат от това – може би някой ден, пряко или косвено, и себе си. 🙂
Готово.
Успешен лов 🙂
А да питам, при мен се забелязва странно явление – ботовете посещават един конкретен пост много повече от всички други. Явно в някой спамерски сайт има линк към него. Сега въпросният материал се е изкачил като най-четен, а всъщност го “четат” само ботове. Чак ми иде да го изтрия, но не знам, дали това ще намали “гостите”. Или ако го пусна със ново заглавие и изтрия стария, дали ще помогне?
и от мен
@Божо: Благодаря от сърце! 🙂
Въпросният пост просто е влязъл в списъка URL-и, обменяни от по-тъпите ботове (по-хитрите разпознават линковете към блогове, и генерират случайни номера на записи). Ако промениш заглавието, това може и да не помогне – трябва да видиш дали ботовете го адресират по име, или по номер на поста.
@Калин: Благодаря и на теб! 🙂
Григи, аз не разбрах много точно какво трябва да направя – в някой пост да сложа линк към това уики или какво?
@Таня Джекова: Нещо подобно. 🙂 Благодаря предварително!
Well , so nice , because exist all you work excelent with high tech . Have a nice day !
@десет точки: хахаха.
@Atanas Boev: Горното по принцип трябваше да е спам, но английският му ме развесели… 🙂
Не знам как точно проверяваш за спам, но има един инструмент (по-точно скриптов език), който е създаден специално с цел класифициране на текстове – CRM114 (http://crm114.sourceforge.net/). Преди около месец направих някой тестове с него, опитвайки се да го сравня с популярния Spam Assassin. Тестовете са описани на http://blogtie.blogspot.com/. Като цяло, CRM114 би трябвало да се справя еднакво добре с уики и имейл спам.
@tie: Предпочитам друг начин за верификация на спам, не-текстов. 🙂
honeywiki.zavinagi.org май не работи?
@Божо: Наистина. Като ми остане мъничко време, ще метна око къде му е проблемът.
(Допълнено: Съсипана база данни. Рестартирана от нулата.)
хмм
recover не стана ли?
mysql-a до колкото знам има доста успешни тулове за поправка.
Между другото този начин за блокиране на рефериращите спамерски сайтове:
http://www.silvermac.com/2008/blocking-referer-spam/
може да е полезен за много хора.
@Божо: И аз го бях пробвал, но за три месеца .htaccess-а подгони 100к. И изискваше ежедневно внимание и по почти час вписване на новите хитреци…
И какъв метод е най-добър според тебе?
@Божо: Засега Akismet ми върши добра работа.