안녕하세요 Amorest 입니다.


군대를 전역하고 약 1주일간 재미있게 놀다 왔습니다. 그런데 놀다 보니 문득 '공부는 언제하지?' 라는 생각이 들었고 무엇을 할까 생각하다가 마침 복학하면 3학년이고 2년 사용가능 기한인 토익을 지금 따면 졸업학기에 제출이 가능하니 먼저 토익을 하기로 했습니다.


일단 수능 영어는 3등급이었고, 대학교 때도 영어로 강의를 하는 대학이어서 영어를 꽤 썼습니다만, 중국을 1년 다녀오면서 영어를 쓰는 비중이 줄었고, 이어서 바로 군대를 다녀왔으니 수업을 듣는다면 중급 정도 들으면 되지 않겠나 하는 생각이 들었습니다.


그래서 인강을 하나 구매했습니다. 평판이 좋은 것들 중에 정재현 강사님의 RC 강의가 맘에 들더군요. RC가 끝나면 LC를 할 생각입니다. 일단 공부 자체는 올해 안에 최대한 끝낼 거고 내년 1월부터는 미적분과 미분방정식 등 수학계통의 복습을 하고자 합니다.


이렇게 적고보니 상당히 빡빡한 군휴학이 될 것 같습니다. 하지만 해야겠죠.




1일차 강의에 대한 이야기를 하기 전에 여러분께 추천하고 싶은 프로그램이 있습니다.


사실 곧 1일차 강의에 대한 내용을 개인적인 정리 차 적겠지만, 그 전에 저는 어제 이미 1일차 강의를 반 이상 수강했습니다. 그러면서 든 생각이 '강의에서 설명해주는 오답은 이해하겠는데 내 답이 오답이고 그걸 설명을 안해주면 나는 어떻게 이게 틀렸다는 걸 이해할까?' 였습니다.


그래서 다운로드 받은 것이 'Grammarly'라는 프로그램입니다. 설치 방법은 구글링하면 금방 나오니 따로 적지 않겠습니다.


도움이 되는 건 구글 확장 프로그램보다는 Windows판입니다. 이 프로그램을 실행시켜서 본인의 오답을 적어넣으면 문법적으로 틀린 이유를 설명해줍니다. 물론 영어로 설명해주지만 이해하는데 문제는 없습니다.




이하는 간단한 예시입니다.


입력 문장:

There is cars.


설명:

The singular verb form is does not seem to agree with the plural subject cars. Consider changing the verb form.

(단수 동사인 is가 복수 명사인 cars와 맞지 않는 듯 합니다. 동사 형태를 바꾸는 것을 고려해보세요.)


굳이 한글 해석이 없어도 이 정도 해석은 즉석에서 할 수 있죠. 수정해야 하는 상황도 틀린 문장을 쓰는 사람이 조작한 거니까요.


그리고 추가적으로 문법적으로 맞는 문장도 영작법 면에서 어디가 틀렸는지 대략적인 힌트를 줍니다.


입력 문장:

After Mr. Kim's work performance was evaluated, there have been improvements in his everyday tasks.


Primium Alarts란에서의 경고:

Passive voice misuse

(프리미엄 판을 구독하시면 그냥 볼 수 있습니다만 저는 무료 유저라서..)


이걸 이용해서 구글링을 하면 다시 어디가 틀린지 정확하게 나옵니다. 사알짝 번거롭지만 이렇게 하면 토익 뿐만 아니라 영어 전반에 대해 공부할 수 있죠.


Passive voice detector

https://datayze.com/passive-voice-detector.php


Article: Why avoid using passive voice

http://advice.writing.utoronto.ca/revising/passive-voice/


(위 기사를 읽기 귀찮은 분들을 위한 해석 겸 요약.


1. 아래와 같은 경우에서 수동태를 사용한다. 아니면 쓰지 마라.


 - 주체자를 모른다.

 - 주체자가 누구든 상관없다.

 - 주체자를 숨기고 싶다. (주로 공문, 누가 한 건지는 그다지 밝히고 싶지 않으니)

 - 일반적인 사실이나 관용구, 흔히 쓰는 속담

 - 행위에 대한 강조

 - 랩 리포트의 경우, 본문에서 실험자보다는 실험체가 주가 되는 상황


2. 글쓰기, 특히 학문적인 글에서 수동태를 쓰면 주어의 부재로 혼란이나 부작용이 야기되는 경우가 있다.


 - 복수 주어 문장 다음에 문맥상 이어지는 단수 주어와 수동태 문장은 가독성에 문제를 야기할 수 있다. 예시:

 Both Othello and Iago desire Desdemona. She is courted.

 [Who courts Desdemona? Othello? Iago? Both of them?]

 - 행위자를 모른다는 것은 스스로 사전 조사가 부족함을 넌지시 말하는 것일 수도 있다. 그것은 자신의 무지와 준비 부족을 드러내는 것이다.

 - 어떤 행동을 자신의 과업인냥 취하려는 행위로 보일 수 있다. 이것은 읽는 사람 입장에서 불쾌할 수 있다.

 - 인과성을 떨어뜨린다. 이는 물흐르듯 이어져야 하는 글을 읽는 데 방해가 될 수 있다.


3. 따라서 1번을 잘 보고 꼭 필요한 것이 아니면 제거하자.)


저는 옆길로 새면서 다각도로 공부하는 게 취미라서 이렇게 하는 것도 좋더군요.


그럼 모쪼록 즐거운 공부 되시길 바랍니다.

블로그 이미지

Amorest

,

잘 따라오고 계신가요, Amorest입니다. 오늘은 교수님이 '확률 변수를 더 하고 시간 남으면 random process 에 대해서 공부해보렴' 이라는 소리를 들었지만, 이거 지금 하지 않으면 언제 하나 하는 느낌으로 계속 나가보겠습니다. 그리고 확률변수는 각 distribution 과 기댓값, 분산, 공분산, 적률생성함수, 그리고 합성곱을 빼면 남는게 없기 때문에 이것들에 대해서 잘 익혀두면 언제든지 필요한 부분을 써먹을 수 있습니다.


시작하기에 앞서, 여러분들에게 random process 에 대해 mental model 을 하나 제공해드리려고 합니다. 앞으로 random process를 이야기하고 무엇이 이전과 다른 것이었는지를 설명할 때 유용하게 써먹으실 수 있을 것입니다.


여러분과 제가 어떤 건물 안에 있다고 합시다. 눈 앞에는 건물 벽에 그대로 붙어 있는 아주 거대한 책장이 있는데 끝없이 길어서 오른쪽 끝이 보이지 않습니다. 다행히도 우리가 왼쪽 끝에 서 있어서 왼쪽 끝은 보이네요. 이제 책장을 보면, 책장은 칸으로 나뉘어 있습니다. 그리고 그 한 칸 한 칸에는 종이가 빼곡히 꽂혀 있습니다. 종이를 한 장 뽑아보니, 숫자가 쓰여 있습니다. 같은 칸의 다른 종이를 뽑아보니 다른 숫자가 쓰여 있습니다. 같은 칸에서 100장쯤 뽑아서 보고 있을 무렵, 사서가 와서 물었습니다.

'그래서 무슨 분포던가요?'


이것이 DTCV 혹은 DTDV random process 에 대한 mental model 입니다. 거대한 책장은 sample space를 말합니다. 그리고 한 칸 한 칸이 sample space element 가 됩니다. 여기서는 discrete 하기 때문에 칸이 나뉘어 있습니다. 칸 안에 들어 있는 종이들은 같은 sample space element들의 realization입니다. 칸에 든 200개의 종이에 숫자가 쓰여 있었다면 해당 random process의 결과로 나온 앙상블의 수가 200개인 것입니다. 그리고 각 종이에 쓰인 숫자는 process 의 결과인 것이죠. 그리고 한 sample space element, 여러 앙상블에서 나온 결과들을 보고 있으니 사서(혹은 교수님)가 와서 해당 sample space에서 어떤 분포를 가지는지 물어보았습니다.


궁극적으로 우리는 책장 안에 남겨진 결과들로 X[n]에서 어떤 분포가 나오는지를 추론하고 그 분포에 맞는 모델을 세우고, 그것을 다시 현실의 또 다른 sample에 적용시켜 우리의 모델이 실제 상황을 잘 follow하는지를 보고 싶은 것입니다. 이것이 random process를 배우는 이유입니다.


똑똑한 학생은 여기서 하나의 질문을 할 수 있습니다. 만약에 한 앙상블을 실험할 때, (새로 realization을 해서 결과를 칸 당 종이 한 장씩 기록해서 넣으려고 할 때)책장의 칸들이 서로 연관을 가질 수도 있지 않을까요? 그렇습니다. random variable과 random process의 차이가 바로 여기에 있습니다. random variable은 분포를 알고 있다고 가정하였습니다. 우리는 random variable을 배울 때 (어떤)분포 라고 이미 가정을 하면서 배우기 시작하죠. 예를 들면 푸아송 분포, 정규 분포, 감마 분포... 처럼 말이죠. 분포를 안다는 것은 매 시도에서 분포가 바뀌지 않음을 말합니다. 축구공을 보고 있는데 축구공이 야구공으로 바뀌거나 하지 않지요.


그러나, random process는 분포를 추론하는 방법에 대한 이야기입니다. 따라서 '어떤 분포일 때 이렇다'라고 얘기할 수는 있지만, 결과로부터 추론을 하고자 할 때는 모든 분포에 대한 가능성을 열어두어야 합니다. 분포를 모르고 시작하는 것이죠. 공이 축구공일 수도 있고 야구공일 수도 있고 탁구공일 수도 있는 것입니다. 그리고 놀랍게도 매 경기마다 공이 바뀔 수도 있습니다. 무엇인지 모르는 공으로 게임을 하고 몇십 판 해본 뒤에야 '아 이게 3번째 게임은 축구공이었는데 4번째 게임은 탁구공이었구나'하고 알게 된다는 것이죠. 마찬가지로 지난 번에 예시로 든 가챠도 11번째는 뭔가 달랐죠? 이 꼴로 비유하자면, 앞선 게임은 축구공으로 했었는데 11번째 게임만 탁구공으로 했던 겁니다. 그리고 심지어 'n번째 게임이 축구공이면 n+1번째 게임은 럭비공'이라는 아주 이상한 룰이 있을 수도 있는 것입니다. 이는 나아가서 우리에게 보이는 확률에 대한 논리의 복원 (컴퓨터 용어로 비유하자면 디컴파일 혹은 리버스) 을 과제로 제시하고 있는 겁니다.


이제 이야기를 종합하자면, random variable은 random process에서 X[n]에 대한 추론을 확인하는 데에 쓰는 방법론이 되는 것이죠. 그리고 X[n] 끼리 어떠한 상관관계가 있다면 (예를 들어 앞의 아주 이상한 룰 같은 게 있다면) 그것은 X[n]만 보는 random variable에선 찾을 수 없는 내용이고, X[n]'들'을 보는 random process에서만 찾을 수 있는 내용인 것이죠.


예를들면

'A 게임의 가챠를 분석해보자!' -> '가챠 process 를 realization 해본다' (혹은 데이터가 나와있다.) -> '결과들을 보니 n번째 distribution(X[n])의 분포는 P분포라고 생각한다' -> 'P분포는 각 확률변수에 따라 이러한 모양의 분포곡선을 가진다' -> '오차를 계산해본다' (개론에서는 다루지 않는 부분) -> '오차를 줄여본다' (마찬가지) -> '모델이 완성되었으니 잘 써먹어 보자'

의 흐름에서 random variable 에서 배운 P분포의 분포곡선은 X[n]들이 들어 있는 random process에 대한 model을 세우기 위한 도구로 쓰인 겁니다.




어쩌다보니 random variable과 random process의 scope의 차이를 쓰게 되었네요. 요약하자면 random variable은 나무를 보는 것이고, random process는 숲을 보는 것입니다. 그러니 앞으로 X[n]에 대한 함수가 나온다는 것은 두 책장 사이에 어떤 이상한 상관관계가 있다고 생각하시면 됩니다. X[n]이 베르누이 분포를 따를 때, X[n+1]은 정규 분포를 따른다 같은 아주 이상한 룰 말이죠. 하지만 이 정도로 이상한 룰은 현실에서의 모델링엔 쓸모가 별로 없을테고, 여러분들은 적어도 이거보다는 질서정연한 성질들에 대해서 배우게 될 테니 안심하셔도 좋습니다.


오래 기다리셨습니다. 이제 본론으로 들어갈까요? 가우시안 백색 잡음이란, 가우시안 분포를 이용한 랜덤 프로세스의 결과입니다. 가우시안 분포는 다른 말로 정규 분포입니다. 우리가 여러 분포들을 안짚고 넘어왔기 때문에, 짚어보는 차원에서 먼저 정규 분포에 대해서 보고 나서 넘어가고자 합니다.


%5CEalign%20f(x)%5Cquad%20%3D%5Cquad%20%5Cfrac%20%7B%201%20%7D%7B%20%5Csqrt%20%7B%202%5Cpi%20%5Ccombi%20%5E%7B%202%20%7D%7B%20%5Csigma%20%20%7D%20%7D%20%7D%5Ccombi%20%5E%7B%20-%5Cfrac%20%7B%20%5Ccombi%20%5E%7B%202%20%7D%7B%20(x-E%5C%5B%20X%5C%5D%20)%20%7D%20%7D%7B%202%5Ccombi%20%5E%7B%202%20%7D%7B%20%5Csigma%20%20%7D%20%7D%20%7D%7B%20e%20%7D%5Cquad%20%EB%98%90%EB%8A%94%5CEalign%20%3D%5Cquad%20%5Cfrac%20%7B%201%20%7D%7B%20%5Csqrt%20%7B%202%5Cpi%20%20%7D%5Csigma%20%20%7Dexp%5C%7B-%5Cfrac%20%7B%20%5Ccombi%20%5E%7B%202%20%7D%7B%20(x-E%5C%5B%20X%5C%5D%20)%20%7D%20%7D%7B%202%5Ccombi%20%5E%7B%202%20%7D%7B%20%5Csigma%20%20%7D%20%7D%5C%7D%20


정규 분포는 위와 같은 확률밀도함수를 가집니다. 눈여겨 볼 곳은 첫 번째 식의 계수인 1/sqrt(2πσ^2) 과 exp 내의 부분에서 분산을 바로 찾을 수가 있다는 것입니다. 이것이 왜 눈여겨 볼 곳인지는 Multivariate Gaussian random process 를 볼 때 알 수 있습니다.


정규 분포는 이쯤에서 넘어가고, 이제 Gaussian random process 를 보도록 합시다. 앞서 배운 Bernoulli random process와 random walk 에서 나온 변형된 Bernoulli random process 는 IID에 의해 각 책장이 '독립'이라고 언급을 했습니다. 지금 나오는 white Gaussian noise 역시 IID입니다. 따라서 marginal PDF(주변밀도함수) X[n]은 평균이 0이고 분산이 σ^2인 정규 분포를 따른다고 가정하겠습니다.


여기서 왜 marginal PDF라는 표현이 나오는가에 대해서는, RandomProcess[N, X[N]]의 marginal of X[N]=X[n] 이고 따라서 RandomProcess[N] = X[N] = X[n] 이라고 생각하시면 됩니다. 즉,

'어떤 random process의 결과는 N(책장의 순서, N번째 책장) 과 X[N](N번째 책장에 관련된 책장 사이의 룰) 으로 결정된다고 할 때, X[N=n]에 대한 RandomProcess[N, X[N]]의 주변밀도함수 = 분포 X[n]'

이라고 해석하시면 됩니다. marginal PDF 라는 게 사실 두 변수를 가진 joint PDF에서 하나의 변수를 특정한 상태로 고정했을 때 다른 변수에 따른 분포를 보고자 함이니까 여기서는 책장 사이의 규칙을 IID, 정확하게는 독립으로 고정한 것입니다.



위 식은 IID 인 white Gaussian noise random process 가 stationary 함을 보여주고 있습니다. 또한 joint PDF 가 multivariate Gaussian PDF 즉 WGN[N, X[N]] (WGN는 white Gaussian noise random process)의 관점에서는 영벡터 평균과 분산 대각행렬을 모수로 하는 정규 분포를 따른다고 언급하였습니다. 다른 말로 하면, X[N] (책장 사이 규칙) 을 고정하지 않았을 경우 (IID를 명시하지 않았을 경우), Cov(X_i, X_j) (i ≠ j)를 정의할 수 있는데 이 값이 0임을 말합니다.


바꿔 말하면, 'IID 인 WGN random process 의 분포 X[n] 은 0과 σ^2를 모수로 하는 정규 분포를 따른다' = 'WGN random process 의 joint PDF 가 영벡터와 σ^2 대각행렬을 모수로 하는 정규 분포를 따른다' 인 것이죠.


마침 오늘 multivariate random process 내용이 수업시간에 나왔으니, 이것을 조금 더 보도록 합시다.



X[n] 사이의 규칙을 이상과 같이 정의한 것이 앞서 말한 표현입니다.


이상으로 확률변수 기본을 마치겠습니다. 더 어려운 부분은 나중에 배울 기회가 또 생기지 않을까 생각하며 다음을 기약해보겠습니다. 이상 Amorest 였습니다.

블로그 이미지

Amorest

,

잘 따라오고 계신것 같아 매우 만족스럽습니다! 자 그럼 예고한 대로 stationary에 대해 알아보겠습니다. Stationary, 우리말로 풀어쓰면 '정지된', '가만히 있는' 이라는 뜻입니다. 즉, 우리가 알아볼 프로세스는 가만히 있는 랜덤 프로세스라는 것이죠. 뭐가 가만히 있을까요?


바로 '시간에 따른 확률이 가만히 있는' 랜덤 프로세스 입니다. 예를 들어 TCG를 생각해보죠. 여기 11연 가챠가 있습니다. 확률 p로 슈퍼 레어 카드가 드랍됩니다. 그리고 모든 i번째 가챠는 독립적이며 같은 확률 분포를 가지고 있는 IID 입니다. 이 경우 시간 i에 대해 확률 p는 변하지 않으므로 stationary random process로 이 가챠를 realizing 할 수 있습니다. 이것을 수식으로 증명하면,



이렇게 됩니다. Notation이 약간 주관적인데 코멘트를 달자면, p_X[n_1],X[n_2],...,X[n_N] 은 '결과로 나온 사건 X[n_1], X[n_2],... 의 이벤트 발생 확률' 을 의미하며 여기서는 이 사건들이 전부 독립적이므로 (multiply 1 to N){X[n_i]} 입니다. 여기서 multiply는 위 식에 있는 large pi 랑 같습니다.


이해가 안되시는 분들을 위해 추가 설명, 위에서 예시로 든 11연 가챠에서 각 가챠는 discrete 한 단위를 갖습니다. '나온다' 혹은 '안 나온다'의 상태밖에 없으니까요. 우리는 '나온다'에 1, '안 나온다'에 0이라는 표시 변수를 확률변수로서 할당할 수 있습니다. 이 경우 X는 p=(슈퍼 레어 카드가 나올 확률) 인 베르누이 랜덤 프로세스가 되죠. 여기서 이 프로세스를 수행하고 결과를 보았을 때, 결정된 X[n_i]들은 슈퍼 레어카드가 나왔을 경우 p, 나오지 않았을 경우 1-p 의 확률이었습니다. 그리고 각 사건들은 독립이었으므로, 프로세스가 그러한 결과를 가질 확률은 (p^a)((1-p)^b) (a+b = N) 이었던 것이죠. 따라서 두 식이 같음을 알 수 있습니다.


중요한 것은 두 번째 식과 세 번째 식이 같다는 것입니다. 이 식이 의미하는 바는 간단합니다. n_i 시간과 n_i+n_o 시간의 사건의 이벤트 발생 확률이 같다는 것입니다. 이 말은 이것이 같지 않은 경우를 예시로 들면 이해하시기 쉬울 것 같습니다. 예를 들면 11연 가챠의 마지막엔 항상 슈퍼 레어 이상의 카드를 드랍한다고 합니다. 그렇다면 X[0] (1번째 가챠)와 X[10] (11번째 가챠) 의 슈퍼 레어 드랍 확률에 대한 distribution은 다릅니다. X[n] (10이 아닌 n) 은 위와 같은 베르누이 확률변수를 가지는 반면에 X[10]은 확률변수가 아니죠. (변수는 최소 두 가지 이상의 상태를 필요로 합니다. 그런데 무조건 1이 나오는 것은 변수라고 할 수 없지요.) 두 distribution 이 다르기 때문에, 이러한 형태의 가챠는 IID 프로세스가 아니며 또한 Stationary가 아닙니다.


그렇다면 n_i 시간과 n_i+n_o 시간이 같다는 것은 모든 가챠에 대해 같은 distribution을 가진다는 것을 알 수 있습니다. 그리고 이에 따라 첫 번째 식과 네 번째 식이 같게 되며, 이를 만족시키는 경우 우리는 process 가 stationary 하다고 합니다.



주의하셔야 할 것은, 한 번의 시행만으로 해당 random process가 stationary라고 단정해서는 안된다는 것입니다. 앞에서 말했지만 결과는 봐야 합니다. 그래서 제가 구태여 과거형 표현들을 쓴 것이죠. '결과를 보았을 때' 라는 표현도 썼고요. 그러나 혹시 모릅니다. stationary 가 아님에도 우연히 stationary 한 결과를 내었을 수도 있습니다. 예를 들어서 아까 11번째 가챠가 무조건 나오는 것은 아니지만, 앞의 가챠들보다 20% 높은 확률을 가지고 있다고 합시다. 그러나 한 번의 시행으로는 이것이 20% 높은 확률을 가지고 있는지 알 수 없습니다. 따라서 이 정보만을 가지고 이것이 stationary 하다고 하면 error 라는 것이죠. Don't determine from a single realization 인겁니다.


아, 그리고 하나 추가하자면 어떤 랜덤 프로세스의 각 X[N]들이 IID 라면 그 프로세스는 stationary 하지만, 프로세스가 stationary 하다고 해서 그 랜덤 프로세스의 각 X[N]들이 IID 한지는 저도 아직 배우지 않아서 모르겠네요. 만약 어떤 확률이 fundamental set 을 가지고 있어서 같은 확률 분포를 가지지만 distribution이 다르다면 (아마 어떤 해석을 썼을 때 확률측도의 수의 영역을 복소수까지 확장하고 미분연립방정식을 허용한다면 이러한 경우도 있을 것입니다.) 이것은 성립하지 않을 것입니다만, 직관적으로 보기에는 성립하는 것처럼 보이는군요. 확률이 같으면 분포가 달라도 계산과 응용이 가능한가라는 실용성 문제도 있는 것 같고요.


다음 글에서는 가우시안 백색 잡음(Gaussian white noise)에 대해서 알아보겠습니다.

블로그 이미지

Amorest

,