Zjawisko radykalnego wzrostu zasobożerności i objętości oprogramowania, nazywane popularnie bloatware nie omija stron WWW. Odkąd serwis Twitter usunął obsługę RSS, praktycznie przestałem czytać wpisy publikowane na tej platformie. To samo potwierdzili moi koledzy. Przykładowa strona główna na Twitterze wymaga pobrania 200kB, a po włączeniu skryptów, obrazków i innych zasobów – ponad 2,5 MB. Nie pomaga żadna z wtyczek do Firefoksa, gdyż nadal wymagają załadowania mnóstwa skryptów:
smieci_js

Użytkownicy pobierają te zasoby po to, by przeczytać kilkanaście wpisów po 160 znaków każdy!
Podstawową alternatywą do szybkiego przeglądania jest oczywiście RSS albo prosty plik, który wyświetliłby się poprawnie w przeglądarce przy minimalnym zaangażowaniu zasobów komputera i sieci. Aby rozwiązać ten problem, stosuję następującą technologię:

  1. na serwerze pobieram stronę główną z https://twitter.com/NazwaUzytkownika za pomocą programu wget z opcją -nd
  2. powstały plik index.html przepuszczam przez skrypt:
    cat index.html | grep tweet-text | sed "s/js-tweet-text tweet-text/aa/g" | tidy -asxhtml -utf8 2>/dev/null > index.xml
  3. plik index.xml można wyświetlić w przeglądarce, a zatem znajduje się on na serwerze, skąd go pobiorę,
  4. oryginalna strona z Twittera wylatuje z zakładek, za to pojawia się tam link do tworzonego periodycznie pliku
  5. skrypt wywołujący kopiowanie do RSS jest uruchamiany w pętli for i in *; do z katalogu wyżej, tworząc po jednym pliku w katalogach przypisanych do odpowiednich userów Twittera,
  6. właściwy skrypt na serwerze zostaje zapisany do usługi cron, by co kilka minut tworzył właściwą kopię.

Metoda ta ma jeszcze jedną zaletę – nie ładuję żadnych skryptów śledzących, ani innych śmieci, które dotychczas musiałem filtrować za pomocą Ghostery, NoScripta i Adblock Plusa. Pobiera jedynie stronę główną każdego z użytkowników Twittera i czyści ją z różnych niepotrzebnych śmieci. Nie zostawia również żadnych śladów ze strony użytkownika w oryginalnym serwisie Twittera, poza załadowaniem strony przez serwer i jeszcze czymś, o czym za chwilę.
Na podobne rozwiązanie wpadli też inni użytkownicy Internetu i powstał kolejny serwis typu tweet to RSS, który obecnie znajduje się pod adresem http://www.rssitfor.me. Gorąco polecam!
Jedyny minus obu metod ominięcia ograniczeń wprowadzonych przez Twittera dotyczy linków we wpisach – pobrane z Twittera prowadzą do adresu t.co, skąd podlegają przekierowaniu do docelowego adresu, a zatem zostawiają ślady. Wolałbym, by dostarczane do mnie linki wiodły do oryginalnego adresu. Prace nad podobnym skryptem trwają. Użycie html2text daje obiecujące efekty.