python - need to selectively escape html entities (&) -

मैं एक html पृष्ठ स्क्रैप कर रहा हूँ, फिर xml.dom.minidom.parseString () का प्रयोग करके एक dom ऑब्जेक्ट बनाने के लिए। < / P>

हालांकि, एचटीएमएल पृष्ठ में एक '& amp;' है मैं इसे & amp; amp; में परिवर्तित करने के लिए cgi.escape का उपयोग कर सकता हूं, लेकिन यह मेरे सारे html & lt;> tags को & amp; amp; lt; & amp; gt; में परिवर्तित करता है जो बनाता है ParseString () नाखुश।

मैं इस बारे में कैसे जाना है? मैं न सिर्फ इसे हैक कर दूंगा और सीधे "& amp; s

धन्यवाद

की जगह

स्क्रैपिंग के लिए, ऐसी लाइब्रेरी का उपयोग करने की कोशिश करें जो ऐसे एचटीएमएल "टैग सूप" को संभाल सकें, जैसे एलएक्सएमएल, जिसमें एक (साथ ही एक समर्पित एचटीएमएल पैकेज), या (आप यह भी पाएंगे कि इन पुस्तकालयों में अन्य सामान जो स्क्रैपिंग / एचटीएमएल के साथ काम करना आसान बनाते हैं, एक तरफ बीमार बनाने वाले दस्तावेज़ों को संभालने में सक्षम होने से: सीएसएस चयनकर्ताओं का उपयोग करते हुए फ़ॉर्म से बाहर जानकारी प्राप्त करना, हायपरलिंक्स पूर्ण करना, ...)

Search This Blog

Alcaide

python - need to selectively escape html entities (&) -

Comments

Post a Comment

Popular posts from this blog

Eclipse CDT variable colors in editor -

wpf - Custom Message Box Advice -

AJAX doesn't send POST query -