unicode - Python UTF-8 comparison -
ए = {"a": "çö"} b = "çö" a ['a'] & gt ; & gt; & gt; '\ Xc3 \ xa7 \ xc3 \ xb6' b.decode ('utf-8') == एक ['ए']>> gt; & gt; & gt; झूठी
वहां क्या हो रहा है?
संपादित करें = मुझे खेद है, यह मेरी गलती थी। यह अभी भी गलत है मैं उबंटु 10.04 पर पायथन 2.6 का उपयोग कर रहा हूं।
संभावित समाधान
या तो लिखना इस तरह से:
a = {"a": u "çö"} b = "çö" b.decode ('utf-8') == एक ['ए'] या इस तरह से (आप दोनों कोड पर .decode ('utf-8')
भी छोड़ सकते हैं):
a = {"A": "çö"} b = "çö" b.decode ('utf-8') == एक ['ए']। डीकोड ('यूटीएफ -8')
या इस तरह मेरी (मेरी सिफारिश):
a = {"a": u "çö"} b = u "çö" b == a ['a'] स्पष्टीकरण
टिम की टिप्पणी के आधार पर अपडेट किया गया। आपके मूल कोड में, b.decode ('utf-8') == U'cö '
और a [' a '] ==' çö '
, तो आप वास्तव में निम्न तुलना कर रहे हैं:
u' Çö '==' çö '
वस्तुओं में से एक प्रकार यूनिकोड
है, अन्य प्रकार की str
है, इसलिए तुलना को निष्पादित करने के लिए, str
को यूनिकोड और फिर दो यूनिकोड
वस्तुओं की तुलना की जाती है। यह विशुद्ध रूप से एएससीआईआई तार के मामले में ठीक काम करता है, उदाहरण के लिए: u'a '==' a '
, चूंकि यूनिकोड (' ए ') == यू'ए'
।
हालांकि, यह u'sa '==' çö '
के मामले में विफल हो जाता है, क्योंकि यूनिकोड (' çö ')
निम्नलिखित देता है त्रुटि: यूनिकोडडेकोड एर्रर: 'एएससीआई' कोडेक स्थिति 0 में बाइट 0xc3 डीकोड नहीं कर सकता है: क्रम में नहीं है (128) , और इसलिए पूरी तुलना झूठी देता है और निम्न चेतावनी का कारण बनता है: यूनिकोड चेतावनी : यूनिकोड की समान तुलना दोनों तर्कों को यूनिकोड में परिवर्तित करने में असफल रही - उन्हें असमान के रूप में व्याख्या करना ।
Comments
Post a Comment