19:56
3/6/2012

Z 99% skutecznością można było złamać mechanizm reCAPTCHA należący do Google. Narzędzie do tego służące pokazano na konferencji LayerOne.

Łamanie CAPTCHA

Ten skrypt łamie reCAPTCHE z 99% skutecznością. A raczej łamał, bo na godzinę przed oficjalną prezentacją tego rozwiazania Google wprowadził zmiany do mechanizmu reCAPTCHY ;) Oto zapis wykładu:

Metoda łamania nie jest innowacyjna — badacze kolejny raz zamiast algorytmów analizujących obraz wybrali analize dźwięku. reCAPTCHA złamali poprzez jej dźwiękową wersję, która udostępniana jest dla osób niedowidzących.

Na marginesie, warto dodać, że CAPTCHA można także łamać Hindusami… Odpowiednie firmy pobierają opłaty w wysokości ok. 1,5 USD za 1000 poprawnie (i ręcznie) rozwiązanych CAPTCHA.

Przeczytaj także:

23 komentarzy

Dodaj komentarz
  1. … lub umieszczać je na stronach porno i nie płacić nic.

  2. Ja tam w ramach akcji upierdliwość za upierdliwość jako drugie słowo wpisuję “nig…”.

    • nie przechytrzysz algorytmu, naiwniaku, zamiast wpisywać nig… musiałbyś zmienić domyślny tryb komunikacji internautów z “zaufanie” do “losowość” albo inny wzorzec

    • ReCaptcha wyświetla wymagające rozpoznania słowo kilka(naście/dziesiąt) razy. Jeśli najwięcej osób odpowie “ni99er”, to system uzna, że to właśnie to słowo. Widocznie geniusze od Operation ReNi99er nie wpadli na to, że Google może po prostu dodać “ni99er” do blacklist’y* i ręcznie weryfikować każdy przypadek uznania przez system jakiegoś słowa za “ni99er”.

      *”ni99er” trafia na blacklist’ę…

  3. Jaro: Lepiej mieć babę co Ci to całe porno ogarnie… czasami wychodzi drożej ale masz wpływ na przebieg akcji :D

    • ale jak to rozwiązuje kapczę? chyba waść na innych, gorszych akcjach się skupiasz

  4. Przesłuchiwanie i wpisywanie jako wzorca 50tys. słów, a poźniej znów przesłuchiwanie 50tys. dla sprawdzenia nie wydaje się jakąś szczególnie nowatorską techniką.

  5. Jeśli chcecie być “Hindusami” od klikania, jest taka stronka i nazywa sie megatypers :P

  6. Pytanie nie na temat – czy poprzez laczenie sie z VPN widać mój MAC przy serwerze końcowym? Paranoicy z TORa twierdza, ze tak.

    • Nie.

    • Przez łączenie się przez cokolwiek nie widać twojego MAC poza urządzeniem podłączonym bezpośrednio do twojego komputera.

    • No nie do końca ;)

    • MAC jest adresem w warstwie drugiej OSI, więc przechodzi przez huby i switche, ale nie routery. Ale nie jestem pewien, czy IP czy inny protokół warstwy wyższej nie przenosi tego jako dodatkowej informacji

    • moze uproscmy to :
      1. jesli sie laczysz bezposrednio – dostajesz ip z publicznej puli, to o ile nie masz ” czegos” po swojej stronie co blokuje lub ukrywa MAC, to tak widac go.
      2. jesli laczysz sie posrednio i dostajesz IP z puli prywatnej, to nie, ale i tak w logach urzadzenia rzez ktore sie lacyzsz twoj MAC jest widoczny [ ISP ]
      reszte zostawie wyobrazni, jest wiele sposobow aby obejsc to jak i sposobow zeby temu przeciwdzialac

  7. Bardzo mi się podobało stwierdzenie że pobierali dziennie 2 mln plików dźwiękowych które trwają 6 s a rozwiązywane były w 1/8s z prawie 100% skutecznością ;)

    • Matma jest trudna.

    • Tak się składa, że kod nie “słucha” tych 6 sekund ;)

    • Jest jeszcze parallel processing (wybaczcie ortografy)

  8. Czyli w skrócie
    Pobierają mp3 z nagraną kapczą
    Zamieniają to to na spectrum i zapisują jako obrazek (!?)
    Mając obrazek ze spectrum analizują go i wyłapują gdzie są słowa do kapczy (!!!!???)
    Na tej podstawie wycinają słowa z mp3 i robią FFT(2048)
    Wrzucają to FFT do sieci neuronowej
    ….
    PROFIT!

    Coś tam jeszcze usłyszałem o pHash, pewnie dodatkowo wycinają te słowa z tego obrazka i poddają je analizie (porównują ze wzorcami)

    Wydaje mi się, że trochę przekombinowali z tymi obrazkami to jest słaby punkt tego systemu. Powinni sobie to spectrum w jakiejś tablicy zapisać i na tym bazować, a nie bawić się w obrazki…
    Ale i tak gratulacje, że im się udało osiągnąć 99.1% skuteczności :)

  9. Ciekawe ile spędzili nad tym czasu, a w ile google popsuło im zabawę.

    • Rozpracowywali to w 4 m-ce (jest w prezentacji o tym).

  10. A to nie jest tak, że captcha jest generowana dla danego kompa(i od tego kompa tylko przyjmuje odpowiedź) i działa tylko jakiś czas(sesję lub kilkanaście s)?

    • Kiedy miałem potrzebę w bawienie się z Recaptchą to challenge_hash działał zdaje się kilka godzin (do oczywiście “wykorzystania” lub wygaśnięcia).
      Czyli wystarczyło ściągnąć pakiet zadań, rozwiązać je i w miarę konieczności wysyłać jako weryfikacja dla formularza.

Twój komentarz

Zamieszczając komentarz akceptujesz regulamin dodawania komentarzy. Przez moderację nie przejdą: wycieczki osobiste, komentarze nie na temat, wulgaryzmy.