3. 도구적 조건형성
어떤 행동을 학습시키기 위해 사용하는 쉬운 방법 중 하나는 그 행동이 일어나면 보상을 주는 것이다. 예를 들면, 부모는 아이가 예의 바른 행동을 하면 칭찬을 해 주고, 회사는 실적이 좋은 사원에게 보너스를 준다. 이렇게 보상을 받은 행동은 앞으로 더 많이 나타나고 보상받지 못한 행동은 점차 사라지게 되며, 이는 어떤 행동이 학습될지의 여부는 그 행동의 결과가 무엇이냐에 달라짐을 의미한다. 이처럼 유기체가 자신의 행동과 그 결과 사이의 관계를 학습하는 것을 도구적 조건형성(instrumental conditioning)이라 부르며, 이 때 '도구적'이란 말은 어떤 행동이 특정의 결과를 초래하는 도구의 역할을 한다는 의미다. 도구적 조건형성을 연구한 심리학자로 손다이크(Thorndike)와 스키너(Skinner)가 있다.
1) 손다이크와 효과의 법칙
손다이크는 동물의 지능적 행동이 실제로 논리적 사고에 의한 것인지 아니면 어쩌다 우연히 일어난 것인지 알기 위해서는 동물이 전혀 본 적 없는 새로운 문제를 주고 어떻게 해결하는지를 살펴보아야 한다고 생각하여 '문제상자(puzzle box)'를 고안해냈다. 이 문제 상자에 굶주린 고양이를 넣고 바깥에 먹이를 놓아두었더니 고양이는 우왕좌왕하다가 바닥이나 창살을 할퀴거나 물어뜯기도 하고 먹이를 향해 창살 사이로 앞발을 내밀어 보기도 하고 야옹거리기도 하였다. 얼마 동안 그렇게 헤매던 고영이는 순전히 우연적으로 널빤지를 밟게 되었고 문이 열려서 빠져나가 먹이를 먹을 수 있었다. 고양이를 문제상자에 넣은 후 빠져나올 때까지 한 시행으로 볼 때, 시행이 계속될수록 점진적인 향상이 나타났다. 즉, 잡다한 행동이 줄어들고 짧은 시간 안에 정확한 반응이 나오게 되었던 것이다. 많은 시행착오를 거친 끝에 고양이는 문제상자 속에 놓이면 빠져나올 수 있게 되었다.
여러가지 반응을 임의적으로 시도하다가 그중 어느 하나가 문제를 해결하게 되면 그 반응이 여러 시행에 걸쳐 점진적으로 습득되는 학습을 시행착오 학습(trial-and-error learning)이라고 부르며, 도구적 조건형성과 동일한 의미로 사용된다. 이런 학습에서 작용하는 원리가 효과의 법칙(law of effect)이다. 이 법칙은 어떤 반응의 강도가 과거에 그 행동이 초래했던 결과에 좌우된다는 것이다. 한 반응은 보상이 뒤따르면 강해지고, 보상이 없거나 처벌이 뒤따르면 약해진다. 효과의 법칙에 따르면 동물에게서 고차원적인 지능적 과정의 존재를 가정할 필요가 없고 동물이 어떤 목표를 성취하기 위해 노력한다고 믿을 필요도 없다. 다만, 어떤 반응을 하고 그에 잇달아 보상이 오면 이후에 그 반응이 더욱 잘 수행될 뿐이다.
2) 스키너와 조작행동
스키너는 문제상자나 복잡한 미로보다 훨씬 더 동물행동을 관찰하기 쉬운 단순한 실험상황을 고안해 냈는데 '스키너 상자(Skinner box)'에서 쥐가 레버를 누르면 구석에 있는 먹이통에 먹이알이 나오도록 되어있다. 실험자는 동물이 이 상자 속에서 하는 여러 가지 행동 중 레버 누르기나 원반 쪼기에 대해서만 먹이를 줌으로써 그런 반응의 빈도를 높이는 것이다. 동물의 이러한 반응을 그것이 환경에 어떤 조작을 가하는 것이라는 의미에서 조작행동(operant behavior)이라 부르며, 도구적 조건형성의 또 다른 용어는 조작적 조건형성(operant conditioning)이다.
3) 강화와 처벌
손다이크는 동물의 행동에 뒤따르는 결과가 '만족스러운' 것이면 그 행동이 더 강해지고 '성가신' 것이면 그 행동이 약화된다고 하였으나 스키너는 특정 반응을 증강시키는 절차를 강화(reinforcement), 약화시키는 절차를 처벌(punishment) , 그리고 강화와 처벌을 일으키는 자극을 각각 강화물(reinforcer, 또는 강화인)과 처벌물(punisher, 또는 처벌인)이라고 불렀다. 따라서 어떤 자극이 '좋은' 것으로 보이더라도 행동을 증강시키지 않으면 강화물이 아니고 '혐오적인' 것으로 보이더라도 행동을 증강시키면 강화물로 간주된다.
강화와 처벌에는 각각 두 가지 종류가 있는데 반응 후에 자극의 출현이나 자극 강도의 증가가 뒤따르면 정적 강화 또는 정적 처벌, 자극의 제거나 자극 강도의 감소가 뒤따르면 부적 강화 또는 부적 처벌이라고 한다. 여기서 정적, 부적이란 용어는 어떤 자극이 좋거나 나쁨을 의미하는 것이 아니다.
4) 도구적 조건 형성의 기능
고전적 조건형성에 의해 학습되는 반응은 불수의적인(involuntary) 것들인 반면, 도구적 조건형성에 의해 학습되는 반응은 수의적인(voluntary) 것들이다. CR이 유기체로 하여금 CS가 예고하는 사건에 대비하게끔 하는 것처럼 도구적 반응도 어떤 적응적 기능을 한다. 즉, 효과의 법칙이 의미하는 대로 유기체는 자신에게 이득을 가져다준 반응은 앞으로 더 자주 하게 되고 그렇지 못한 반응은 잘하지 않게 된다.
도구적 조건형성의 또 다른 기능은 한 유기체가 지금까지 할 수 없었던 새로운 반응을 쉽게 학습하게 한다는 것이다.
5) 도구적 조건형성의 주요 현상
(1) 조성
효과의 법칙에 기반을 두면서도 현재 유기체가 하지 못하는 새로운 반응을 학습시키는 방법을 조성(shaping, 또는 조형) 또는 계기적 근사법(successive approximation)이라고 하는데, 이는 목표 반응을 단계적으로 조작해 내는 과정이다.
(2) 미신 행동
유기체는 좋은 결과를 초래하는 반응은 계속하고 나쁜 결과를 초래하는 반응은 중지한다. 즉, 유기체는 자신의 반응이 그 결과의 원인인 것처럼 행동하는 것이다.
(3) 조건 강화물과 사회적 강화물
어떤 반응을 학습시키는데 필요한 강화물 중 음식이나 물 등은 유기체의 생물학적인 요구를 퉁족해 주는 것이므로 1차 강화물이라 한다. 그런데 학습은 항상 1차 강화물에만 의존하는 것이 아니다. 어떤 자극은 유기체의 생물학적 요구와 상관없이 1차 강화물과 짝지어짐으로써 강화력을 획득하게 되는데 이를 2차 강화물(secondary reinforcer) 또는 조건 강화물(conditioned feinfocrer)이라고 한다.
조건 강화물처럼 1차 강화물과 짝지어진 적이 없음에도 강화력을 가지고 있는 다른 자극도 있다. 사람의 경우에는 타인에게 인정이나 관심을 받는 것이 강력한 강화물로 작용하는데, 이를 사회적 강화물(social feinforcer)이라고 한다.
(4) 강화 계획
행해진 반응의 일부만 강화를 받는 것을 부분 강화 또는 간헐적 강화라고 한다. 부분 강화에서는 어떤 강화계획(reinforcement schedule)을 사용하는가에 따라 유기체의 행동이 달라진다.
강화가 각 강화 사이의 시간 간격을 기준으로 주어지는가, 반응 비율을 기준으로 주어지는가에 따라 강화 계획은 크게 네 가지로 나뉜다. 강화를 한 번 받고 일정 시간이 지난 후 행해지는 반응에 대해서 강화가 주어지는 경우를 고정 간격 계획이라고 하며, 각각의 강화가 주어지는 시간 간격이 평균을 중심으로 변동하는 경우를 변동 간격(variable interval: VI) 계획이라고 하는 반면에 일정한 수의 반응을 하고 나면 강화가 주어지는 경우를 고정 비율(fixed ratio: FR) 계획이라고 하며, 강화를 받기 위해 필요한 반응의 수가 평균을 중심으로 변하는 경우를 변동 비율(variable interval: VR) 계획이라 한다.