spam.txt

c1746d8e anonymous 2012-01-22 23:49
執拗なスパムを弾く正規表現を学ぶスレ
c36b5654 anonymous 2012-01-23 00:27
ググればいろいろあるけど
とりあえず、

サルにもわかる正規表現入門
http://www.mnet.ne.jp/~nakama/
69a2f311 anonymous 2012-01-23 00:35
正規表現を試せるサイト
Pythonを選ぶといいと思う。

Rex V: an AJAX Regular EXpression eValuator -
http://www.rexv.org/
739bdf2d anonymous 2012-01-23 00:42
エスケープで使うバックスラッシュ \ が ¥ になるとか
基礎知識だけど、押さえてるよね?
c5f00626 anonymous 2012-01-23 00:51
[[新月の開発/64c51585]]
64c51585 名無しさん 2012-01-07(土)00:09 [返信]
    とある公開ノードのスパムフィルタ
    画像規制してる

    <>suffix:(jp|gif|png|bmp)
    ^((?!<>body).)*<>remove_stamp
    ^((?!<>suffix).)*<>mail:[\w\-.@\s]+((?!<>pubkey).)*<>name:[\w\-.@\s]+$
    <>mail:.+\.(net|com|info).*<>name:
    ^((?!<br>).)*\(.*\).*http://((?!<br>).)*$
    ((超人気質屋|オークション).*){3}.*http
228d3da4 anonymous 2012-01-23 00:55
正規表現を扱う前に必ず読むべき資料を記す。

正規表現 HOWTO — Python 2.7ja1 documentation
「このドキュメントは re モジュールを使って Python で正規表現を扱うための導入のチュートリアルです。
ライブラリレファレンスの正規表現の節よりもやさしい入門ドキュメントを用意しています。」
http://www.python.jp/doc/nightly/howto/regex.html
0fb8a9b9 anonymous 2012-01-23 01:03
>>c5f00626
画像をはじいてるのは1行目なので
普通のノードでは要らないだろうね

2行目はコメントなしの削除通知を消す
3行目は添付や署名がなくて、名前とメルアドを英字で入れてるのをスパム判定
4行目、名前が入っている、メルアドにnet com info が入っている、のをスパム
5行目、改行なしで顔文字っぽいのとURLがあるとスパム
6行目、特定のキーワードを連呼するとスパム
b3cb688b anonymous 2012-06-22 19:20
[[新月の開発/f0120834]]

^((?!<br>).)*\(.*\).*http://((?!<br>).)*$

これ間違いです。すいません。↓でどうかな?

^.*<>body:((?!<br>).)*\(((?!<br>).)*\)((?!<br>).)*http://((?!<br>).)*$

afba0d56 anonymous 2013-01-31 01:35
[[新月の設定教えて]]で書いたやつ

^.*<>body:((?!<br>).)*\(((?!<br>).)*\)((?!<br>).)*http://((?!<br>).)*$
https?://.+<>mail:[\s\w\-.@]+<>name:[\s\w\-.@]+
http://.+<>mail:.+com<>name:

すこし緩め。たまに被弾する。手で取ればいいや的フィルタ。
d1fb77d5 anonymous 2013-02-28 03:41
短文顔文字記号URLの一行スパム用に 合ってるかな
<>body:[^<>]+\([^<>]{2,7}\)[^<>]{1,4} https?://[^<>]+$
15268e15 anonymous 2015-01-24 21:30
コピペして集めたspam.txtのフィルタを散逸したので、正規表現を勉強しつつ自作・・・

本文中にURLが15個以上有り、かつメール欄と名前欄が空白でない物を弾くフィルタ
<>body:.*(http://.+){15,}<>mail:.+<>name:.+$
(<>は半角に)
7b36edb6 anonymous 2015-01-24 21:59
body mail name は順不同らしく、すり抜けるのがあるかも。

[[新月の開発/39d1bde1]]
[[新月の開発/c506820c]]

気になるなら、順列で6行書くといいかも。
(気にしないのが正解かも。)

[[新月の開発/6b62c7de]]

僕は、今回は↓で。(省エネです。)
<>mail.+mrmal\.ru
204f38c1 anonymous 2015-01-26 17:58 1422262683.rar (0KB)
割と適当ですが、有効そうなのを3つ添付します。
6ad81c9a anonymous 2015-01-26 17:58
[[スパム検体スレ]]とは連携を取っていきたいですね。
20805187 anonymous 2015-02-19 16:02
今のところこれで不自由ないです
コピペしたりいじったりしました

(https?://.+){15}.+
<>mail:.+@.+\.ru
(https?://.+){5}.+<>[aeimnl]+:[^<>]+
[aeimnl]+:[^<>]+<>body:.+(https?://.+){5}.+
(<a href=["']?|\[url=|\[link=)https?://.+(<a href=["']?|\[url=|\[link=).+<>[aeimnl]+:[^<>]+
[aeimnl]+:[^<>]+<>body:(<a href=["']?|\[url=|\[link=)https?://.+(<a href=["']?|\[url=|\[link=).+
f553458c anonymous 2015-02-21 11:04
>>20805187
> [aeimnl]+:[^<>]+<>body:.+(https?://.+){5}.+
> [aeimnl]+:[^<>]+<>body:(<a href=["']?|\[url=|\[link=)https?://.+(<a href=["']?|\[url=|\[link=).+

先頭に<>を付けた方が良くない?
aebb1211 anonymous 2015-02-21 17:26
>>f553458c
勘違いだった、そんなことはないな
1ed3dd95 anonymous 2015-03-04 19:23
奥の手
ASCII文字だけでURLが含まれていて名前かメールに何かある
<>body:[\x20-\x7F]+https?://[\x20-\x7F]+[aeimnl]+:[^<>]+
[aeimnl]+:[^<>]+<>body:[\x20-\x7F]+https?://[\x20-\x7F]+
5cd50317 anonymous 2015-03-04 22:20
[[スパム検体スレ]]
[[SPAM]]
にスパムがいっぱいあるのでフィルターの動作確認にちょうどいいですね
e5c4e0e5 anonymous 2015-03-23 20:32
>>1ed3dd95
を改良
<>body:[\x20-\x7F’…ø—]+https?://[\x20-\x7F’…ø—]+[aeimnl]+:[^<>sage]+
[aeimnl]+:[^<>sage]+<>body:[\x20-\x7F’…ø—]+https?://[\x20-\x7F’…ø—]+

メール欄のsageはスパム判定から除外、ASCII文字以外もちょっと追加
cfe44d1a anonymous 2015-03-23 21:46
>>20805187
<aを<aにすればいい
本文中の<>は文字参照になってる
402f3e38 anonymous 2015-03-23 21:47
>>cfe44d1a

<aを&lt;(半角)にすればいいって書いた
30d8625e anonymous 2015-03-23 23:43
>>e5c4e0e5
[aeimnl]+:[^<>sage]+
だとs,a,g,eの文字のどれかが名前かメールに含まれるスパムは通過するから
[aeimnl]+:((?!.*sage))+[^<>]+
がいいな
31d8ee57 anonymous 2015-03-24 03:12
>>30d8625e
じゃあこうかな。

<>body:[\x20-\x7F’…??]+https?://[\x20-\x7F’…??]+[aeimnl]+:((?!.*sage))+[^<>]+
[aeimnl]+:((?!.*sage))+[^<>]+<>body:[\x20-\x7F’…??]+https?://[\x20-\x7F’…??]+
a1e910c8 anonymous 2015-03-24 22:42
[aeimnl]の前に<>追加して
<>body:[\x20-\x7F’…ø—]+https?://[\x20-\x7F’…ø—]+<>[aeimnl]+:((?!.*sage))+[^<>]+
<>[aeimnl]+:((?!.*sage))+[^<>]+<>body:[\x20-\x7F’…ø—]+https?://[\x20-\x7F’…ø—]+
これで完成かな
これで名前かメール欄になにかある英語だけの書き込みフィルターできる
通過するスパムがあったらその中に使われている非ASCII文字適宜追加してあげる必要があるね
c51c2516 anonymous 2015-03-28 17:58
>>a1e910c8
これだと名前にsageが入ってる場合にはフィルタを通過しちゃうんだよね。
うちではこうしてる。

<>body:[\x20-\x7F’…¡¦®”£ıü‘ø—]*https?://[\x20-\x7F’…¡¦®”£ıü‘ø—]+<>(mail:((?!.*sage))+[^<>]+|name:[^<>]+)
<>(mail:((?!.*sage))+[^<>]+|name:[^<>]+)<>body:[\x20-\x7F’…¡¦®”£ıü‘ø—]*https?://[\x20-\x7F’…¡¦®”£ıü‘ø—]+$
48aed41a anonymous 2015-05-16 07:52
最近スパム増えてるのにこのスレ保持してるノード少ない・・・
書き込めば新着に出るかな?
81ecf3bb anonymous 2015-05-16 10:50
>>48aed41a
名前で勘違いしてる人が多いのかもね。
03baef9e anonymous 2015-05-18 09:56
最近追加したヤツ

((href://).*){5}
db9629fc anonymous 2015-05-18 10:03
href://だけでもいい気がする。
a11ccbcb anonymous 2015-05-21 18:24
既出を参考にWikipediaのUnicode一覧を睨みつつ作成

# URL
((https?|href)://.+){8}

# メアドあり + 本文にURL (順序違い)
<>body:.*https?://.+<>mail:.+@.+\..+
<>mail:.+@.+\..+<>body:.*https?://.+

# ハングル4文字
([\u1100-\u11FF]|[\u3130-\u318F]|[\uA960-\uA97F]|[\uAC00-\uD7AF]|[\uD7B0-\uD7FF]){4}

# 漢字(CJK)10文字
([\u2E80-\u2FFF]|[\u31C0-\u31EF]|[\u3200-\u9FFF]|[\uF900-\uFAFF]|[\uFE30-\uFE4F]|[\U00020000-\U0002FA1F]){10}

# キリール4文字
([\u0400-\u04FF]|[\u0500-\u058F]|[\u2DE0-\u2DFF]|[\uA640-\uA69F]){4}
9c69384c 新月 朔 uJ6Gb6eSUHi 2015-05-22 00:42
>>a11ccbcb
URLのやつは一つでもヒットしない?
d35ffe29 a11ccbcb 2015-05-22 04:20
>>9c69384c
$ python
>>> import re
>>> re.search("((https?|href)://.+){8}", "http://www.shingetsu.info/")
>>>  # 戻り値はNone
8つ以上ない場合はヒットしないよ
その下のメルアド付きのことならば 1つでも(https?)があればスパムと判定してる
96321149 anonymous 2015-05-26 12:45
# 平仮名/片仮名を含まない
^[^\u3040-\u30FF\u31F0-\u31FF]*$
fad1a1c1 anonymous 2015-05-27 10:23
ひらがながなく、かつhttpがあるのをハジく。
<>body:[^あ-ん]+href\=\"http.+$
<>body:[^あ-ん]+http.+
ebc74ad6 anonymous 2015-05-28 01:19
>>fad1a1c1
お、それ使わせてもらいます。
9ae81a4a anonymous 2015-10-11 07:24
画像に対して
<>suffix:(jp|gif|png|bmp)を使ってるけど、今の新月の使われ方だと、
<>attachで添付ファイル付きレス全部消しても問題なさそうですね
69fc4ca5 anonymous 2015-10-11 15:10
#悪口、暴言を削除
<>body:baka|aho|etc...

ブロックする文字列は各自の判断で
cf373f12 anonymous 2015-10-11 19:28
>>69fc4ca5
それは意図した通りに動かないよ
<>body:.*(baka|aho|etc...)
5a971012 anonymous 2015-11-07 17:42
gouのspam.txtは初期設定のままでもしっかり弾けてるね
78c10fc6 anonymous 2015-11-07 17:44
>>5a971012
wiki全部コピっただけなので、ちょっと厳しすぎる。メアド欄になんか書いてるだけでNG.
4ba79cbf anonymous 2015-11-23 23:51
Wikiのこのフィルタ、結構誤検出があるね。

[^(\>|\:|>)]\ http

http://shingetsu.info/wiki/?%E3%82%B9%E3%83%91%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF%E5%80%89%E5%BA%AB

最近では次のレスが引っかかった。

[[新月質問スレ/14709f24]]
[[合テスト用/ba21ca54]]
[[合テスト用/54aae0a2]]

f6c94d88 anonymous 2016-10-12 13:13
最近スパムフィルタ突破される事が増えてきた
あまりにも多い様なら一旦非公開にしよう
c5bf66e0 anonymous 2016-10-12 13:43
>>f6c94d88
非公開にしても他のnodeが素通しなら意味ないだろ
3d7c2d12 anonymous 2016-10-12 14:05
>>c5bf66e0
スパムだらけの状態で公開するの恥ずかしくない?
5ac22c84 anonymous 2016-10-12 14:23
>>3d7c2d12
ならspamフィルタでどーにかすればいいんじゃね
648f105e anonymous 2016-10-15 13:52
>>5ac22c84
sakuとgouに同じフィルタを入れて取得し直すと、sakuでは完璧に弾けたけどgouではスパムまみれになった
言語による正規表現の違いだろうか、とりあえずsakuに移行
9471dad5 anonymous 2016-11-09 23:28
一回スレの内容取得しちゃった場合は、
後からspam.txtに追加しても常にレス内容は残ったまま?

ようはすでに取得しちゃったスパムを非表示にしたいんだけど
# 削除して再取得だと昔のレスが取得できなくなりそうだから避けたい
f204f6f3 anonymous 2017-02-08 00:33
メールアドレス欄に何か入ってたら弾くっていうだけで、twitter からの引用無差別投稿みたいな標的型スパム以外は弾けるな
7d97ffc1 anonymous 2017-07-01 22:20
 visit (this|my|weblog)
 (m|M)y (this|homepage|weblog|site|web)
 meu (site|weblog|página)

とりあえず最近のスパム 
7e2f45b8 anonymous 2017-08-12 23:59
"合"だとspam.txt全然きいてないなのか…。
初回起動時に自動生成されるくらいだからてっきりきいてるもんだと思ってたのに
6c96e328 anonymous 2017-08-13 08:47
自転車スレのやつ
.*\]\(http.*

Top of this page. |

limit: 15360KB

(spam.txt/52/0.0MB)

Powered by shinGETsu.