ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 시스템운영 팁!!!
    IT 관련 2012. 4. 2. 17:42

    페이스북 하다가 누군가 적어두신게 있어서 기억하고자 옮김.(-주옥같음 말임)


    1. 안 되거나 잘 모르면 껐다 킨다. 안정적인 서버를 원한다면 주기적으로 껐다 켠다.
    2. 되도록 새벽에 껏다 켠다.
    3. 모든 서버를 한번에 껐다 켜지 않는다. 서버간의 간격은 3분 간격이 좋다.
    4. 3년 넘게 끄지 않은 서버는 이후로도 끄지 마라.
    5. 3개월 동안 잘 돌아가는 서버는 더 이상 고장나지 않는다.
    6. 3개월 내에 고장났던 서버는 또 고장난다.
    7. 제일 빈번한 장애는 로그가 디스크를 가득 채우는 것이다.
    8. 디스크 2개로 레이드 5를 묶어 달랠 땐 무시, 정 원한다면 가상디스크로 나눠서 묶어줘라.
    9. 49일만에 장애가 생기면 정수형 초과를 의심해라.
    10. 메모리 부족하다는 말 믿지 마라, 서버 메모리는 48기가, 32비트 OS, 자바 힙 크기는 1기가, 나머지는 캐시 메모리
    11. 디스크가 느려서 DB에 문제가 생긴게 아니고 디스크를 많이 쓰게 쿼리를 짠거다.
    12. 네트워크 응답 속도 때문에 느려졌다고 하면 코드에 수 만번 루프 도는거 없는지부터 살펴보라 해라.
    13. 서버에 접속 안된다고 하면 혹시 IP 바꾸지 않았는지 물어봐라.
    14. 개발자는 시스템 엔지니어가 아니다. 시스템에 대해서 왈가왈부를 불허하라.
    15. 에러 로그 문자 발송 같은거 하지 마라, 장애 처리 전화를 못 한다.
    16. 원인 불명 장애의 원인이 서버라고 하면 프로그램 문제가 아니라는 것부터 증명하라고 해라.
    17. OS 문제라고 얘기하면 니가 잘하겠냐 운영체제 만드는 애들이 잘 하겠냐 물어봐라.
    18. 서버 이중화, 자동 페일 오버, 프로그램 관리 스크립트, 다름아닌 나의 숙면을 위한 것들이다.
    19. 원인 불명의 다른 말은 책임 불명
    20. 문제가 생기면 문제가 생길 가능성이 없다고 생각되는 곳 부터 점검하라. 복잡한 곳에선 실수하지 않는다.
    21. 놓치기 쉬운 서버 상태를 습관적으로 볼 수 있게해라. 습관적으로 치는 df 명령이 디스크 사용량 초과로 인한 장애를 막아 준다. 
    22. 메모리는 프로그램만 쓰는게 아니다. 커널도 메모리를 사용한다는 것을 잊지 마라. 
    23. 각각의 시스템 사용량 지표보다 지표간의 비율이 이상 상황을 쉽게 알려준다. 
    24. 사실 서비스 시스템은 데이터를 가공해서 보여주는 것 이상의 복잡함은 없다.
    25. 사용자를 분산하는 것보다 사용 시간을 분산시키는 것이 효과가 크다.
    26. 사용량 지표는 8일 이상 남겨라. 그래야 전 주와 비교를 하지.
    27. 때론 시간당 발생하는 로그 수의 차이만으로도 장애를 감지할 수 있다.
    28. 서버는 생각보다 잘 죽는다. 죽지 않는 서버를 원한다면 시스템Z를 추천한다.
    29. 로그는 금이라구, 친구!
    30. 레이드0는 카드 돌려 막기. 카드 수 늘려봐야 빵꾸날 확율만 높아질 뿐.
    31. 로그를 남기는게 부하가 걸려서 싫다면 샘풀로 한 대에서만 남기도록 하시게.
    32. 메모리의 속도보다 메모리의 양을 활용하는게 효율적이다.
    33. 아키텍처가 궁금할 땐 이미지 검색을 활용해라.
    34. PDF만 검색하는 것도 좋은 방법.
    35. 에러 문구 검색할 때 바뀌는 부분은 좀 빼라.
    36. 대부분 새로운 기술이 아니라 새로운 이름일 뿐이니 두려워할 필요는 없다.
    37. 위키피디아는 축복이다. http://en.wikipedia.org/wiki/Category:Computing
    38. /proc 파일 시스템은 탐험할 가치가 있다.
    39. 지금 하고 있는 일을 없애는 것이 내가 할 일이다.
    40. 디스크 사용 위주인 서버에 CPU 8개씩 꼽아봐야 헛질이다.
    41. 둘 중에 하나만 장애가 나도 문제가 생기도록 이중화 구성을 한 경우가 많다. 그건 이중화가 아니다.
    42. 서버가 죽고 디스크가 깨지는 것은 천재이나, 백업이 없는 것은 인재다.
    43. 장애 대응을 머리가 아닌 손이 하는 경지가 있다.
    44. TCP/IP State Transition Diagram을 외울 필요는 없다. 단 바로 찾을 수 있어야 한다.
    45. 서버와 서버를 연결하는 건 네트워크다.
    46. CPU 사용량에서 (100/코어 수)를 주의해라. 특히 iowait !
    47. 정확한 시간과 객곽적 현상, 문제 해결의 키워드
    48. 서버의 시간을 맞추는 것은 아무리 강조해도 모자람이 없다.
    49. 몇 가지 기본값으로 쓰이는 숫자들은 기억하자. 파일 갯수 제한 1024, 디렉터리 내의 파일 갯수 제한 31998 등등
    50. 10으로 나눠 떨어지거나, 2의 승이 되는 숫자는 의미가 있다.
    51. DHCP 데몬 함부로 올리지 마라.
    52. DNS 변경이 TTL 시간만큼 걸린다는 것은 착각, 익스플로러 캐싱 시간인 30분이라는 것을 명심

    작성 중

    댓글

Designed by Tistory.