«και πού να τα προλάβεις όλ’ αυτά;», μέρος 1

Προειδοποίηση: Το κείμενο που ακολουθεί επιδιώκει να είναι όσο γίνεται προσιτό σε περισσότερους. Αν όμως, δεν μπορείτε να το παρακολουθήσετε, απλά προσπεράστε το· παρότι δεν έχει ως στόχο την επίδειξη, δεν επιχειρεί και να αρχίσει από το μηδέν.

 
cards-batchΒρήκες, λοιπόν, ένα μπλογκ που δεν φανταζόσουν, στον blogger ή στο wordpress –δεν αναφέρομαι αλλού, με υλικό σπάνιο για μουσικές αγαπημένες, εκτός κυκλοφορίας, πες ας πούμε την ψυχεδελική σκηνή των 60s, και μάλιστα διαβάζεις ότι ο μπλόγκερ δίνει και λινκς για να κατεβάσεις και να ακούσεις δίσκους που δεν υπάρχουν πια. Καθώς διαθέτεις αρκετό bandwidth, και είσαι και συνδρομητής σχετικών υπηρεσιών online αποθήκευσης αρχείων, αποφασίζεις να κατεβάσεις ό,τι προσφέρει το μπλογκ

Έχεις, πλέον, δυο προβλήματα. Ανακάλυψες πολύ αργά το μπλογκ, που έχει ήδη ζωή ετών και εκατοντάδων αναρτήσεων. Ακόμη χειρότερα, τα περιβόητα λινκς είναι στα σχόλια της κάθε ανάρτησης. Τι κάνεις; Η μία λύση είναι το «ξεφύλλισμα» όλου του μπλογκ, όλων των αναρτήσεων και των σχολίων. Σίγουρα, για ένα μπλογκ που ταιριάζει στα γούστα σου θα το κάνεις, εφόσον μπορείς να αφιερώσεις και τον απαιτούμενο χρόνο. Αν όμως αυτό δεν γίνεται; Τι καλά θα ήταν να είχες ένα τρόπο να μαζέψεις όλα τα λινκ για το «κατέβασμα», γρήγορα, ή πιο γρήγορα, εν πάση περιπτώσει από την πρώτη λύση…
 

 
Η εύκολη περίπτωση
Το μπλογκ είναι στον blogger και τα λινκ μέσα στις αναρτήσεις, και όχι στα σχόλια. Πολύ απλά ζητάς να εμφανιστεί «σεντόνι» το σύνολο των αναρτήσεων από καταβολής μπλογκ. Στο βασικό url του μπλογκ πρόσθεσε μετά το τελικό slash «/«, κάτι σαν αυτό search?updated-max=2099-01-01&max-results=20000. Ζητάς, δηλαδή, τις τελευταίες 20.000 αναρτήσεις μέχρι την πρωτοχρονιά του 2099. Ε, μάλλον είσαι ΟΚ. Το ίδιο μπορείς να πετύχεις και με ένα bookmarklet· αν μάλιστα του αντιστοιχίσεις κι ένα keyword, π.χ. τη λέξη all, θα μπορείς να την πληκτρολογείς στο location bar του firefox κάθε φορά που είσαι στην αρχική σελίδα ενός τέτοιου μπλογκ και να έχεις το επιθυμητό αποτέλεσμα. Το περιεχόμενο του bookmarklet πρέπει να είναι:

javascript:location.href=document.location.href+'search?updated-max=2099-01-01&max-results=20000'

Στην εύκολη αυτή περίπτωση, λοιπόν, έχοντας μπροστά σου το «σεντόνι», θα ζητήσεις στον firefox μέσω του extension copy links, να πάρεις στο clipboard όλα τα links από το σεντόνι, και στη συνέχεια θα τα επικολλήσεις σε ένα αρχείο text. Θα χρησιμοποιήσεις μετά έναν text editor, κάπως πιο εξελιγμένο από το notepad… Με ένα μπακάλικο non-geek τρόπο*, θα ζητήσεις ταξινόμηση των γραμμών του αρχείου, ώστε να έρθουν στη σειρά τους όλα μαζί τα λινκ που αφορούν σε υπηρεσίες που λέγαμε στην αρχή, ή σε ενδιάμεσους προς αυτές. Για παράδειγμα αναφέρω το mediafire και το rapidshare για την πρώτη περίπτωση, το lix.in και το sharebee για την δεύτερη.

Κρατάς αυτά που σε ενδιαφέρουν και είσαι έτοιμος για τα περαιτέρω…

Οι δύσκολες περιπτώσεις αφορούν λινκς που είναι στα σχόλια σε μπλογκ του blogger ή της wordpress, ή σε αναρτήσεις σε wordpress, οπότε και δεν (;) υπάρχει τρόπος για το αντίστοιχο σεντόνι.

Η συνέχεια σε επόμενη ανάρτηση, οπότε θα μπει γερά στο παιχνίδι ο σύγχρονος Μεγάλος Αδελφός.

 
* Εναλλακτικά, ως geek, προσπαθείς να θυμηθείς τα κατάλληλα regular expressions ώστε να κάνεις αναζήτηση και εξαγωγή (δες και την ονομασία αυτού του μπλογκ).

15 thoughts on “«και πού να τα προλάβεις όλ’ αυτά;», μέρος 1

  1. Μια άλλη εναλλακτική είναι να βρεις κάποιον που τριγυρνάει μες το σπίτι χωρίς να χει κάτι να κάνει και να του ζητήσεις να σου μαζέψει τα λινκς…

    Μου αρέσει!

  2. Προφανώς, τα σχόλια απο όλα τα posts δεν μπορείτε να τα λάβετε σε ένα feed, εκτός και αν τα κάνετε subscribe σε ένα folder του google reader (ή άλλου rss reader) και ζητήσετε μετά το feed απο τον reader (με παρόμοιες παραμέτρους)

    Όσο αφορά το blogger.com, το RSS του blog έχει το πεδίο guid.content το οποίο περιέχει το ID του blog και το ID του post. Αυτό μπορείτε να το πάρετε με regexp (γιατί δεν παρατίθεται σε δικό του field), για παράδειγμα ‘post-([0-9]*)$’ μια και είναι πάντα τελευταίο (και εδώ referenced ως \1).

    Έχοντας τώρα το ID του post, μπορείτε να πάρετε το feed των σχολίων απο τη διεύθηνση http://%5Btheblog%5D.blogspot.com/feeds/%5BpostID (\1)]/comments/default

    Απο εδώ και πέρα, δύο δρόμοι:
    1) Subscribe σε ένα folder του reader και μετά αναζήτηση του feed απο εκεί (μια και ο reader κάνει και archiving). Αυτό μπορεί να γίνει σχετικά εύκολα με το google api.

    2) ‘Χειροκίνητο crawl’ :-D, σε όλο το feed του blog και ‘χειροκίνητη’ επίσης συρραφή των αποτελεσμάτων σε ένα feed απο το οποίο μπορούν αργότερα να εξαχθούν τα links όπως αναφέρετε.

    Και ένας τρίτος (χωματόδρομος):
    Όλο το παραπάνω, γίνεται και σε yahoo pipes, αλλά θα πάρετε ένα feed που θα περιέχει μέσα όλα τα link πρός τα comments για το κάθε post….αυτό είναι καλό σαν λίστα αλλά δεν βοηθάει πολύ αν εξακολουθείτε να θέλετε το ‘σεντόνι’ :-)

    Μου αρέσει!

      • Ώχ! Το πήρα σαν ερώτηση! Συγγνώμη… :-D :-D :-D («δεν (;) υπάρχει τρόπος για το αντίστοιχο σεντόνι.»)

        Μόλις τώρα παρατήρησα οτι το WordPress μου έκοψε κάποιες αγγύλες και καθέτους :-/

        Μου αρέσει!

        • Κανένα πρόβλημα… Συμφωνούμε ότι δεν υπάρχει κάποια κρυμμένη παράμετρος στο get για το WP, ή τα σχόλια στον blogger. Απλώς, έβαλα το ερωτηματικό, μήηηπως μου είχε ξεφύγει κάτι. Προφανώς, η λύση είναι στους ρουφιάνους ;-)

          Μου αρέσει!

  3. … ή τα παρατάς όλα , και πας μια βόλτα .
    Καλό το Διαδίκτυο , αλλά θαρρώ πως η ζωή , είναι εκεί έξω …
    Καλό υπόλοιπο Καλοκαιριού .

    Μου αρέσει!

  4. Πάντως αν πάρεις το feed από blogger.com χωρίς να κάνεις subscribe στο google.reader κινδυνευεις να χάσεις τα links που ανήκουν στα unedited posts. Αυτά πιθανά διαφεύγουν και απο τον μεγάλο αδελφό. Οπότε είναι toss up ο non- geeg τρόπος.

    Μου αρέσει!

  5. Μπορείς βέβαια και να αγοράσεις τους δίσκους
    (όχι τπτ άλλο δλδ, αλλά από τα κατεβασμένα μου άντε να έχω ακούσει ένα 5% και πολύ βάζω)

    Μου αρέσει!

  6. Παράθεμα: «και πού να τα προλάβεις όλ’ αυτά;», μέρος 2 « grep Alt

  7. Παράθεμα: Κατά βούληση αποστολή συνδέσμων στο DownThemAll μέσω Jetpack script « Ακίνδυνη Λογική

Τι είπες;

Ο ιστότοπος χρησιμοποιεί το Akismet για την εξάλειψη των ανεπιθύμητων σχολίων. Μάθετε πως επεξεργάζονται τα δεδομένα των σχολίων σας.