브라우저에서 Form Post/Get할때 è WAS è JSP/Servlet Source 코드- Request.getParameter(“ID”) 까지 과정에서 영향을 미치는 환경설정값과 동작을 설명하고자 한다.
http://en.wikipedia.org/wiki/Numeric_character_reference
¡한글은 MS949코드값으로 Encoding된다.
(2013-10-22 추가) Form이 있는 JSP 파일의 Page encoding-type에 따라서 Form data encoding이 달라진다.. -_-;
위의 예는 <%@ page contentType="text/html; charset=euc-kr"%>형태로 euc-kr로 저장된 경우이고,
charset=ISO-8859-1이거나 따로 지정하지 않아서 default로 ISO-8859-1된는 경우의 파라미터 인코딩은 아래와 같다.
동일하게 CustomerID=한글똠펲123을 form encoding한 결과는
CustomerID=%26%2354620%3B%26%2344544%3B%26%2346624%3B%26%2354194%3B123+
와 같다 모든 한글이 Numeric character reference 로 표현된다. IE 및 Chrome모두 동일한 결과이다.
참 이해가 안가는 동작이다.. -_-; form jsp파일 page encoding이 왜 영향을 미치는 것일까?
WAS에서 생성된 html파일은 결국 같고 브라우저 단에서 form encoding이 발생되는데..
왜 html을 생성하는 jsp 파일의 page encoding이 form encoding에까지 영향을 미치는지 신기하기만 하다.. -_-;
html 파일 자체 및 header viewer로 header를 비교해봐도 차이점이 없는데..어떤값에 영향을 받는지..
좀 더 탐구가 필요하다..
모든 한글은 numeric character reference로 표현되므로, action jsp 나 servlet에서 request.getParameter("ID")를
하면 한글깨지는 현상없이 그냥 잘 얻어온다. 심지어 request.setCharacterEncoding("euc-kr") 를 호출할 필요도
없고, 어떤 encoding type에서도 한글은 정상적으로 얻어올 수 있다.
client.encoding.overide |
Request.getParameter(“ID”) 결과 | |||
IE |
비고 |
Chrome |
비고 | |
EUC-KR |
한글똠펲123 |
한글??123 |
확장한글은 깨짐 | |
ms949 |
한글똠펲123 |
한글똠펲123 |
모두 정상 출력됨 | |
ISO-8859-1 or 미설정 |
??똠펲123 |
Encoding변환으로 정상출력 가능함. |
????123 |
Encoding변환으로 정상출력 가능함. |
UTF-8 |
한글똠펲123 |
JSP파일은 |
한글똠펲123 |
1.의 경우 form jsp 및 action jsp파일모두 utf-8로 일치해야 함 2,3의 경우 form jsp에서 form data encoding시에 Numeric character reference으로 한글이 encoding된다. |
String parameter = new String( Resquest.getParameter(“ID”).getBytes(ISO-8859-1), “ms949”);
정상적으로 한글을 출력하기 위해서는 Request.setCharacterEncoding(“ms949”)을 getParameter하기전에 호출해야 한다. 또는 String parameter = new String( Resquest.getParameter(“ID”).getBytes(ISO-8859-1), “ms949”); 코드로 변환하여도 정상적으로 한글 출력을 할수 있다. 하지만 개별 문자열을 변환하기 보다는 Request.setCharacterEncoding(“ms949”)를 호출하는것이 더 적절한 문자열 처리 방식이다.
Currently, many browsers do not send a char encoding qualifier with the Content-
Type header, leaving open the determination of the character encoding for reading
HTTP requests. The default encoding of a request the container uses to create the
request reader and parse POST data must be “ISO-8859-1” if none has been
specified by the client request. However, in order to indicate to the developer in this
case the failure of the client to send a character encoding, the container returns null
from the getCharacterEncoding method.
If the client hasn’t set character encoding and the request data is encoded with
a different encoding than the default as described above, breakage can occur. To
remedy this situation, a new method setCharacterEncoding(String enc) has
been added to the ServletRequest interface. Developers can override the
character encoding supplied by the container by calling this method. It must be
called prior to parsing any post data or reading any input from the request. Calling
this method once data has been read will not affect the encoding.
'그외 주제들 > 한글처리' 카테고리의 다른 글
자바에서 String 처리 (0) | 2013.09.30 |
---|---|
Response 구간 정리 (0) | 2013.09.30 |
JSP,Servlet에서 한글 문제를 피하려면.. (0) | 2013.09.30 |
Unicode ( 유니코드 ) (0) | 2013.09.30 |
문자셋과 인코딩 (0) | 2013.09.30 |