Thursday, March 23, 2017

తెలుగు వికీపీడియా నుండి తెలుగు మహాపదనిధిని రూపొందించడంలో తొలి రోజు

తెలుగు మహాపదనిధి/ తెలుగు కోర్పస్ అనేది తెలుగు భాషకు మనం రూపొందించగలిగిన బృహత్తర వనరు. ఈ కోర్పస్ రూపొందితే, తెలుగులో కొత్త పదాల సృష్టి, ఇప్పటికే ఉన్న పదాల వాడుక, నానార్ధాలు, ఎక్కడ ఎలా ఎవరు వాడారు అన్న విషయాలు తేటతెల్లమవుతాయి. ఈ కోర్పస్ రూపొందించడానికి పాఠ్యం యూనికోడ్ లో ఉండడం మొదటి అవసరం. తెలుగులో అంత ఎక్కువ పాఠ్యం వాడటానికి తయారుగా అందుబాటులో ఉన్న ఒక పెద్ద వనరు తెలుగు వికీపీడియా (తెవికీ).
అందుకని, నేను తెవికీ ని వనరుగా తీసుకొని పదాల నిధిని రూపొందించనున్నాను. 
మొదటి మెట్టు తెవికీ నుండి పాఠ్యాన్ని పొందడం, ఇందుకు ఎన్నో మార్గాలు :
అన్నిటికన్నా సులువైనది వెబ్‌హెచ్‌టిట్రాక్ ను వాడడం. ఇలా చేయడం వలన హెచ్‌టిఎంఎల్ లో పాఠ్యం దింపుకోలవుతుంది. మనం వికీ పేజీలను ఎలా చూస్తామో అలానే దింపుకోబడతాయి, చదవనలమి కాని వికీకోడ్ కనిపించదు. ఇతర మార్గాల్లో వికీ పాఠ్యం దింపుకొనేప్పుడు చాలా సార్లు పట్టికల్లో, మూసల్లో ఉండే పాఠ్యం, వర్గపు వివరాలు రావు. ఐతే హెచ్‌టిఎంఎల్ లోని పాఠ్యంలో ఇవన్నీ వచ్చేస్తాయి. కానీ, హెచ్‌టిఎంఎల్ ట్యాగులని తీసుకోకుండా, పాఠ్యాన్ని వడపోయడం కాస్త కష్టతరమైన పనే! అలానే ఇలాంటి పద్ధతుల్లో లంకెను పట్టుకొని పేజీని, ఆ పేజీలో లంకెలతో పేజీలని పట్టుకుని వెబ్సైట్ మొత్తం భద్రపరుస్తాం, అంచేత కొన్ని పేజీలు ఒకటికన్నా ఎక్కువసార్లు దింపుకోలవుతాయి, అగాధ-అనాధ పేజీలు దింపుకోబడవు. మనకు నచ్చిన వ్యాసాలే వచ్చేలా చేయలేం.

పైవికిబాట్ వాడి మనకు నచ్చిన పేజీల వరకు తోడుకోవచ్చు. కానీ ఇది చాలా సమయం తీసుకోవచ్చు. కొన్ని ప్రత్యేక పాఠ్యపు డేటాబేస్ టేబుళ్ళు పైవీకిబాట్ కు అందుబాటులో ఉండకపోవచ్చు.

ఇక ఆటోవికి బ్రౌజర్, AWB, వాడాలంటే పలు సమస్యలున్నాయి, కేవలం విండోస్ కే పరిమితమవ్వాలి. యూనికోడ్ పాఠ్యాన్ని సమర్ధవంతంగా ఆడించలేదు. ఇది నేనెక్కువగా వాడలేదు కనుక పెద్దగా తెలీదు కూడా!

ఏదేమైనా, మనకి వికీమీడియా ఇంజనీరింగ్ టీం వారు, ఔత్సాహికుల చలవ వల్ల వికీపీడియా పేజీలన్నీ డేటాబేస్ డంపుల రూపంలో అందుబాటులో ఉన్నాయి. ఇవి కింది చూపిన విధంగా dumps.wikimedia.org వద్ద లభిస్తాయి :
  1. Articles, templates, media/file descriptions, and primary meta-pages, in multiple bz2 streams, 100 pages per stream
    • tewiki-20170320-pages-articles-multistream.xml.bz2 92.6 MB
    • tewiki-20170320-pages-articles-multistream-index.txt.bz2 1.1 MB
    • tewiki-20170320-pages-meta-history.xml.bz2
  2. history content of flow pages in xml format. These files contain flow page content in xml format.
    • tewiki-20170320-flowhistory.xml.bz2 12 KB
  3. content of flow pages in xml format. These files contain flow page content in xml format.
    • tewiki-20170320-flow.xml.bz2 10 KB
  4. Log events to all pages and users. This contains the log of actions performed on pages and users.
    • tewiki-20170320-pages-logging.xml.gz 7.1 MB
  5. All pages, current versions only.
    • tewiki-20170320-pages-meta-current.xml.bz2 105.8 MB
  6. Articles, templates, media/file descriptions, and primary meta-pages.
    • tewiki-20170320-pages-articles.xml.bz2 88.6 MB
  7. First-pass for page XML data dumps. These files contain no page text, only revision metadata.
    • tewiki-20170320-stub-meta-history.xml.gz 127.5 MB
    • tewiki-20170320-stub-meta-current.xml.gz 16.0 MB
    • tewiki-20170320-stub-articles.xml.gz 11.1 MB
  8. Extracted page abstracts for Yahoo: tewiki (ID 3495) 15974 pages (118.4|3173.4/sec all|curr), 15974 revs (118.4|193.5/sec all|curr), ETA [max 237881]
    • tewiki-20170320-abstract.xml 150.8 MB
  9. List of all page titles
    • tewiki-20170320-all-titles.gz 1.4 MB
  10. List of page titles in main namespace
    • tewiki-20170320-all-titles-in-ns0.gz 619 KB
  11. Namespaces, namespace aliases, magic words.
    • tewiki-20170320-siteinfo-namespaces.json 18 KB
  12. Wiki page-to-page link records.
    • tewiki-20170320-pagelinks.sql.gz 24.6 MB
  13. List of pages' geographical coordinates
    • tewiki-20170320-geo_tags.sql.gz 106 KB
  14. Name/value pairs for pages.
    • tewiki-20170320-page_props.sql.gz 1.3 MB
  15. List of annotations (tags) for revisions and log entries
    • tewiki-20170320-change_tag.sql.gz 212 KB
  16. Wiki category membership link records.
    • tewiki-20170320-categorylinks.sql.gz 6.2 MB
  17. Wiki external URL link records.
    • tewiki-20170320-externallinks.sql.gz 8.3 MB
  18. Interwiki link tracking records
    • tewiki-20170320-iwlinks.sql.gz 859 KB
  19. Nonexistent pages that have been protected.
    • tewiki-20170320-protected_titles.sql.gz 1 KB
  20. Wiki template inclusion link records.
    • tewiki-20170320-templatelinks.sql.gz 5.4 MB
  21. Redirect list
    • tewiki-20170320-redirect.sql.gz 340 KB
  22. A few statistics such as the page count.
    • tewiki-20170320-site_stats.sql.gz 801 bytes
  23. User group assignments.
    • tewiki-20170320-user_groups.sql.gz 1 KB
  24. This contains the SiteMatrix information from meta.wikimedia.org provided as a table.
    • tewiki-20170320-sites.sql.gz 19 KB
  25. Wiki media/files usage records.
    • tewiki-20170320-imagelinks.sql.gz 2.0 MB
  26. Category information.
    • tewiki-20170320-category.sql.gz 359 KB
  27. Base per-page data (id, title, old restrictions, etc).
    • tewiki-20170320-page.sql.gz 7.0 MB
  28. Newer per-page restrictions table.
    • tewiki-20170320-page_restrictions.sql.gz 3 KB
  29. Tracks which pages use which Wikidata items or properties and what aspect (e.g. item label) is used.
    • tewiki-20170320-wbc_entity_usage.sql.gz 929 KB
  30. Metadata on current versions of uploaded media/files.
    • tewiki-20170320-image.sql.gz 1.6 MB
  31. Wiki interlanguage link records.
    • tewiki-20170320-langlinks.sql.gz 9.2 MB
ప్రతి ఒక్క వికీకి సంబంధించి ఈ విధంగా పలు డంపులు అందుబాటులో ఉంటాయి. నేను పదనిధి కోసం పైనిచ్చిన జాబితాలోని ఐదవ అంశాన్ని ఎంచుకుంటున్నాను. ఇందులో ఆనాటి వికీపేజీ స్థితి నిక్షిప్తమై ఉంటుంది. ఈ కింది ఆదేశాన్ని ఆడించి మీరు ఆ పేజీల డంపును పొందవచ్చు:
wget https://dumps.wikimedia.org/tewiki/20170320/tewiki-20170320-pages-meta-current.xml.bz2
పై దస్త్రం పేరు ప్రకారం అది ప్రస్తుత స్థితి (అనగా ౨౦౧౭, మార్చ్ ౨౦ నాటి) వికీపీడియా పేజీలన్నిటిని వాటి అప్పటి స్థితిలో దింపుకుంటుంది.