python - need to selectively escape html entities (&) -


मैं एक html पृष्ठ स्क्रैप कर रहा हूँ, फिर xml.dom.minidom.parseString () का प्रयोग करके एक dom ऑब्जेक्ट बनाने के लिए। < / P>

हालांकि, एचटीएमएल पृष्ठ में एक '& amp;' है मैं इसे & amp; amp; में परिवर्तित करने के लिए cgi.escape का उपयोग कर सकता हूं, लेकिन यह मेरे सारे html & lt;> tags को & amp; amp; lt; & amp; gt; में परिवर्तित करता है जो बनाता है ParseString () नाखुश।

मैं इस बारे में कैसे जाना है? मैं न सिर्फ इसे हैक कर दूंगा और सीधे "& amp; s

धन्यवाद

की जगह

स्क्रैपिंग के लिए, ऐसी लाइब्रेरी का उपयोग करने की कोशिश करें जो ऐसे एचटीएमएल "टैग सूप" को संभाल सकें, जैसे एलएक्सएमएल, जिसमें एक (साथ ही एक समर्पित एचटीएमएल पैकेज), या (आप यह भी पाएंगे कि इन पुस्तकालयों में अन्य सामान जो स्क्रैपिंग / एचटीएमएल के साथ काम करना आसान बनाते हैं, एक तरफ बीमार बनाने वाले दस्तावेज़ों को संभालने में सक्षम होने से: सीएसएस चयनकर्ताओं का उपयोग करते हुए फ़ॉर्म से बाहर जानकारी प्राप्त करना, हायपरलिंक्स पूर्ण करना, ...)


Comments

Popular posts from this blog

Eclipse CDT variable colors in editor -

wpf - Custom Message Box Advice -

AJAX doesn't send POST query -