python - need to selectively escape html entities (&) -


मैं एक html पृष्ठ स्क्रैप कर रहा हूँ, फिर xml.dom.minidom.parseString () का प्रयोग करके एक dom ऑब्जेक्ट बनाने के लिए। < / P>

हालांकि, एचटीएमएल पृष्ठ में एक '& amp;' है मैं इसे & amp; amp; में परिवर्तित करने के लिए cgi.escape का उपयोग कर सकता हूं, लेकिन यह मेरे सारे html & lt;> tags को & amp; amp; lt; & amp; gt; में परिवर्तित करता है जो बनाता है ParseString () नाखुश।

मैं इस बारे में कैसे जाना है? मैं न सिर्फ इसे हैक कर दूंगा और सीधे "& amp; s

धन्यवाद

की जगह

स्क्रैपिंग के लिए, ऐसी लाइब्रेरी का उपयोग करने की कोशिश करें जो ऐसे एचटीएमएल "टैग सूप" को संभाल सकें, जैसे एलएक्सएमएल, जिसमें एक (साथ ही एक समर्पित एचटीएमएल पैकेज), या (आप यह भी पाएंगे कि इन पुस्तकालयों में अन्य सामान जो स्क्रैपिंग / एचटीएमएल के साथ काम करना आसान बनाते हैं, एक तरफ बीमार बनाने वाले दस्तावेज़ों को संभालने में सक्षम होने से: सीएसएस चयनकर्ताओं का उपयोग करते हुए फ़ॉर्म से बाहर जानकारी प्राप्त करना, हायपरलिंक्स पूर्ण करना, ...)


Comments

Popular posts from this blog

Eclipse CDT variable colors in editor -

AJAX doesn't send POST query -

wpf - Custom Message Box Advice -