python - need to selectively escape html entities (&) -
मैं एक html पृष्ठ स्क्रैप कर रहा हूँ, फिर xml.dom.minidom.parseString () का प्रयोग करके एक dom ऑब्जेक्ट बनाने के लिए। < / P>
हालांकि, एचटीएमएल पृष्ठ में एक '& amp;' है मैं इसे & amp; amp;
में परिवर्तित करने के लिए cgi.escape का उपयोग कर सकता हूं, लेकिन यह मेरे सारे html & lt;> tags को & amp; amp; lt; & amp; gt;
में परिवर्तित करता है जो बनाता है ParseString () नाखुश।
मैं इस बारे में कैसे जाना है? मैं न सिर्फ इसे हैक कर दूंगा और सीधे "& amp; s
धन्यवाद
स्क्रैपिंग के लिए, ऐसी लाइब्रेरी का उपयोग करने की कोशिश करें जो ऐसे एचटीएमएल "टैग सूप" को संभाल सकें, जैसे एलएक्सएमएल, जिसमें एक (साथ ही एक समर्पित एचटीएमएल पैकेज), या (आप यह भी पाएंगे कि इन पुस्तकालयों में अन्य सामान जो स्क्रैपिंग / एचटीएमएल के साथ काम करना आसान बनाते हैं, एक तरफ बीमार बनाने वाले दस्तावेज़ों को संभालने में सक्षम होने से: सीएसएस चयनकर्ताओं का उपयोग करते हुए फ़ॉर्म से बाहर जानकारी प्राप्त करना, हायपरलिंक्स पूर्ण करना, ...)
Comments
Post a Comment