-
시스템운영 팁!!!IT 관련 2012. 4. 2. 17:42페이스북 하다가 누군가 적어두신게 있어서 기억하고자 옮김.(-주옥같음 말임)
- 안 되거나 잘 모르면 껐다 킨다. 안정적인 서버를 원한다면 주기적으로 껐다 켠다.
- 되도록 새벽에 껏다 켠다.
- 모든 서버를 한번에 껐다 켜지 않는다. 서버간의 간격은 3분 간격이 좋다.
- 3년 넘게 끄지 않은 서버는 이후로도 끄지 마라.
- 3개월 동안 잘 돌아가는 서버는 더 이상 고장나지 않는다.
- 3개월 내에 고장났던 서버는 또 고장난다.
- 제일 빈번한 장애는 로그가 디스크를 가득 채우는 것이다.
- 디스크 2개로 레이드 5를 묶어 달랠 땐 무시, 정 원한다면 가상디스크로 나눠서 묶어줘라.
- 49일만에 장애가 생기면 정수형 초과를 의심해라.
- 메모리 부족하다는 말 믿지 마라, 서버 메모리는 48기가, 32비트 OS, 자바 힙 크기는 1기가, 나머지는 캐시 메모리
- 디스크가 느려서 DB에 문제가 생긴게 아니고 디스크를 많이 쓰게 쿼리를 짠거다.
- 네트워크 응답 속도 때문에 느려졌다고 하면 코드에 수 만번 루프 도는거 없는지부터 살펴보라 해라.
- 서버에 접속 안된다고 하면 혹시 IP 바꾸지 않았는지 물어봐라.
- 개발자는 시스템 엔지니어가 아니다. 시스템에 대해서 왈가왈부를 불허하라.
- 에러 로그 문자 발송 같은거 하지 마라, 장애 처리 전화를 못 한다.
- 원인 불명 장애의 원인이 서버라고 하면 프로그램 문제가 아니라는 것부터 증명하라고 해라.
- OS 문제라고 얘기하면 니가 잘하겠냐 운영체제 만드는 애들이 잘 하겠냐 물어봐라.
- 서버 이중화, 자동 페일 오버, 프로그램 관리 스크립트, 다름아닌 나의 숙면을 위한 것들이다.
- 원인 불명의 다른 말은 책임 불명
- 문제가 생기면 문제가 생길 가능성이 없다고 생각되는 곳 부터 점검하라. 복잡한 곳에선 실수하지 않는다.
- 놓치기 쉬운 서버 상태를 습관적으로 볼 수 있게해라. 습관적으로 치는 df 명령이 디스크 사용량 초과로 인한 장애를 막아 준다.
- 메모리는 프로그램만 쓰는게 아니다. 커널도 메모리를 사용한다는 것을 잊지 마라.
- 각각의 시스템 사용량 지표보다 지표간의 비율이 이상 상황을 쉽게 알려준다.
- 사실 서비스 시스템은 데이터를 가공해서 보여주는 것 이상의 복잡함은 없다.
- 사용자를 분산하는 것보다 사용 시간을 분산시키는 것이 효과가 크다.
- 사용량 지표는 8일 이상 남겨라. 그래야 전 주와 비교를 하지.
- 때론 시간당 발생하는 로그 수의 차이만으로도 장애를 감지할 수 있다.
- 서버는 생각보다 잘 죽는다. 죽지 않는 서버를 원한다면 시스템Z를 추천한다.
- 로그는 금이라구, 친구!
- 레이드0는 카드 돌려 막기. 카드 수 늘려봐야 빵꾸날 확율만 높아질 뿐.
- 로그를 남기는게 부하가 걸려서 싫다면 샘풀로 한 대에서만 남기도록 하시게.
- 메모리의 속도보다 메모리의 양을 활용하는게 효율적이다.
- 아키텍처가 궁금할 땐 이미지 검색을 활용해라.
- PDF만 검색하는 것도 좋은 방법.
- 에러 문구 검색할 때 바뀌는 부분은 좀 빼라.
- 대부분 새로운 기술이 아니라 새로운 이름일 뿐이니 두려워할 필요는 없다.
- 위키피디아는 축복이다. http://en.wikipedia.org/wiki/Category:Computing
- /proc 파일 시스템은 탐험할 가치가 있다.
- 지금 하고 있는 일을 없애는 것이 내가 할 일이다.
- 디스크 사용 위주인 서버에 CPU 8개씩 꼽아봐야 헛질이다.
- 둘 중에 하나만 장애가 나도 문제가 생기도록 이중화 구성을 한 경우가 많다. 그건 이중화가 아니다.
- 서버가 죽고 디스크가 깨지는 것은 천재이나, 백업이 없는 것은 인재다.
- 장애 대응을 머리가 아닌 손이 하는 경지가 있다.
- TCP/IP State Transition Diagram을 외울 필요는 없다. 단 바로 찾을 수 있어야 한다.
- 서버와 서버를 연결하는 건 네트워크다.
- CPU 사용량에서 (100/코어 수)를 주의해라. 특히 iowait !
- 정확한 시간과 객곽적 현상, 문제 해결의 키워드
- 서버의 시간을 맞추는 것은 아무리 강조해도 모자람이 없다.
- 몇 가지 기본값으로 쓰이는 숫자들은 기억하자. 파일 갯수 제한 1024, 디렉터리 내의 파일 갯수 제한 31998 등등
- 10으로 나눠 떨어지거나, 2의 승이 되는 숫자는 의미가 있다.
- DHCP 데몬 함부로 올리지 마라.
- DNS 변경이 TTL 시간만큼 걸린다는 것은 착각, 익스플로러 캐싱 시간인 30분이라는 것을 명심
작성 중
'IT 관련' 카테고리의 다른 글
아이폰5 vs 겔럭시3 낙하(드롭) 테스트 (0) 2012.09.22 넥서스7(Nexus7)에서 애플 블루투스 키보드 사용하기 (0) 2012.09.16 Ipad 를 사용하면서... (0) 2010.06.20 아이팟터치3세대 vs Zune HD vs Creative Zii (24) 2009.08.16 오늘 받은 Twitter 티셔츠 (10) 2009.08.06