क्रोम के लिए स्क्रैपर एक्सटेंशन पर सेमल्ट गाइड

किसी भी व्यवसाय के जीवित रहने और अंततः बढ़ने के लिए, अपने प्रतिद्वंद्वियों और विभिन्न जोखिमों से आगे रहना आवश्यक है। विश्लेषणात्मक आंकड़ों के आधार पर निर्णय लेना इन समस्याओं को भूलने का एक निश्चित तरीका है। इस तरह के डेटा को डेटा स्क्रैपिंग के माध्यम से हासिल किया जा सकता है। यही कारण है कि क्रोम के लिए आसान स्क्रैपर एक्सटेंशन आता है: यह न केवल डेटा कटाई की प्रक्रिया को सुविधाजनक बनाएगा, बल्कि जटिल सेटअपों के बिना चलते समय परिमार्जन करना भी संभव करेगा।

स्क्रैपर का उपयोग कैसे करें

    1. पहली चीज जो आपको करने की ज़रूरत है, वह है एक्सटेंशन इंस्टॉल करना, इसलिए क्रोम वेब स्टोर पर जाएं, "स्क्रैपर" खोजें और क्रोम में ऐड पर क्लिक करें।

    2. उस वेबसाइट पर नेविगेट करें जिसे आप डेटा से परिमार्जन करने का इरादा रखते हैं, उस प्रविष्टि को चिह्नित करें जिसे आप इसे हाइलाइट करके रुचि रखते हैं। उस पर राइट क्लिक करें और पॉप अप करने वाले मेनू पर "समान स्क्रैप" चुनें।

    3. ऐसा करने से एक अलग स्क्रैपर कंसोल विंडो लॉन्च होगी। यहां, आपको स्क्रैप किए गए डेटा की एक सूची दिखाई देगी।

    4. सामग्री को बचाने के लिए, "Google डॉक्स में सहेजें" पर क्लिक करें, यह स्वचालित रूप से Google स्प्रेडशीट में डेटा निर्यात करेगा।

विस्तारित स्क्रैपिंग

यदि आप अधिक डेटा परिमार्जन करने की योजना बना रहे हैं, तो आप उन्नत दृष्टिकोण का उपयोग कर सकते हैं। ध्यान दें, यदि आपको HTML का कुछ ज्ञान है, तो टूल के साथ काम करना बहुत आसान होगा। मान लीजिए कि आप उस स्रोत से डेटा खंगालना चाहते हैं जिसमें समय श्रृंखला डेटा के आधार पर एक संग्रह है। ऐसे में अगर आप ऊपर बताए गए तरीके को आजमाते हैं, तो आपको डेटा मिल जाएगा।

इस समस्या को हल करने के लिए, आप HTML और XML क्वेरी भाषा का उपयोग XPath के रूप में कर सकते हैं। यह क्या करता है? XPath प्रत्येक चयन में निहित विभिन्न तत्वों के संबंध में डेटा को पहचानता है। निम्नलिखित इसके बारे में जाने के लिए एक गाइड है:

1. स्क्रैपर कंसोल पर जाएं, ऊपरी बाईं ओर आपको "XPath" बटन नोटिस करना चाहिए, उस पर क्लिक करें और प्रारंभिक तालिका को इकट्ठा करने के लिए आगे बढ़ें।

2. आपको सही तत्व के लिए XPath लिखना होगा। वर्तमान XPath जिसमें पूरी जानकारी शामिल है, इसे "// div [3] / div [3] / div [2] / div" जैसे प्रारूप में प्रदर्शित किया जाएगा। कंप्यूटर द्वारा HTML दस्तावेज़ में <div> तत्वों को मान्यता दी जाएगी।

3. मान्यता प्राप्त डेटा को अलग करने के लिए, आपको स्क्रेपर कॉलम का उपयोग करना होगा। ऐसा करने के लिए, आपको अपने पास उपलब्ध विभिन्न प्रकार की जानकारी देखने की आवश्यकता है। आपके द्वारा स्क्रैप किए जा रहे डेटा के आधार पर आपके पास शीर्षक हो सकते हैं। ये शीर्षक डेटा के हर सेट के बगल में मौजूद हैं। वे एक टैग के साथ हैं, इस मामले में, एक <b> टैग।

4. निरीक्षण तत्व का उपयोग करके अपने XPath में <b> टैग जोड़ें। अब आप इस पहले कॉलम को "शीर्षक कॉलम" के रूप में लेबल कर सकते हैं क्योंकि यह शीर्षकों को सूचीबद्ध करेगा। आपके द्वारा आवश्यक प्रत्येक कॉलम के लिए अलग-अलग XPaths बनाने के लिए आगे बढ़ें।

5. परिमार्जन पर क्लिक करें और एक्सटेंशन स्वचालित रूप से डेटा को काट देगा और इसे आपके द्वारा सेट किए गए विभिन्न कॉलम में व्यवस्थित करेगा।