기후 등에서

로스 맥키트릭

최적의 지문은 회귀 기울기 계수의 형태로 기후에 대한 온실 가스(GHG)의 영향을 추정하는 통계적 방법입니다. GHG와 관련된 계수가 클수록 기후 시스템에 대한 내재된 영향이 커집니다. 2003년 Myles Allen 그리고 Simon Tett은 최적의 핑거프린팅 회귀에서 Total Least Squares라는 방법을 사용하여 Ordinary Least Squares와 관련된 잠재적인 하향 편향을 수정할 것을 권장하는 Climate Dynamics에 영향력 있는 논문을 발표했습니다. 문제는 대부분의 경우 TLS가 OLS의 하향 편향을 다음으로 대체한다는 것입니다. 크거나 클 수 있는 상향 편향특수 조건에서 TLS는 편향되지 않은 추정치를 산출하지만, 보유 여부를 테스트할 수 없습니다.

소개

“최적의 지문” 방법은 GHG 강제력을 선택적으로 포함하거나 제외하는 기후 모델 생성 유사체(“신호”라고 함) 세트에 대한 기후 관측 벡터를 회귀함으로써 작동합니다. 방법론의 이론에 따르면 GHG 신호와 관련된 계수는 실제 기후에 대한 GHG의 영향 크기를 나타냅니다. 계수가 0보다 크면 신호가 “검출”됩니다. 계수 값이 클수록 실제 기후에 대한 내재된 영향이 커집니다.

최적의 지문 채취의 획기적인 방법은 Myles Allen과 Simon Tett이 1999년 Climate Dynamics 논문에서 발표했습니다. 약간의 수정으로 이후로 기후 과학자들에 의해 널리 사용되었습니다. 작년에 나는 기후 역학(Climate Dynamics)에 이 방법이 편향되지 않고 중요한 결과를 산출한다고 믿는 근거에 결함이 있음을 보여주는 논문을 발표했습니다. 이 웹사이트 내 논문과 내가 비평한 Allen and Tett(1999) 논문, 내 주장의 비기술적 요약, Myles Allen의 답변과 내 답변, Richard Tol의 논평에 대한 링크를 제공합니다.

이에 대해 Allen이 한 주장 중 하나는 그가 공동 작성한 방법이 새로운 방법으로 대체되었기 때문에 문제가 이제 무의미하다는 것입니다(강조 추가됨).

“AT99의 원래 프레임워크는 Total Least Squares 접근 방식으로 대체되었습니다. Allen and Stott(2003)의 결과이며 완전히 독립적으로 개발된 정규화된 회귀 또는 가능성 최대화 접근 방식으로 대부분 대체되었습니다. 조금 가벼운 마음으로 Model-T Ford에서 새로운 문제가 확인되었기 때문에 우리 모두가 운전을 중단해야 한다고 제안하는 것과 같은 느낌이 듭니다.”

하하, 모델 T 포드; 우리 모두는 지금 Tesla를 운전합니다. 일명 Total Least Squares입니다. 그러나 20년 동안 사용하면서 기후 과학자들이 TLS가 실제로 문제를 해결하는지 확인했습니까? 몇몇 통계학자들은 수년에 걸쳐 살펴보았고 TLS에 대해 상당한 의구심을 표명했습니다. 그러나 일단 기후학자들이 그것을 채택한 것은 그것이었습니다. 몇 가지 예외를 제외하고는 아무도 질문을 하지 않았습니다.

방금 게시했습니다 새 종이 기후 역학에서 지문 응용 프로그램에서 TLS 사용을 비판합니다. TLS는 기후에 대한 GHG의 영향을 과소평가할 수 있는 OLS 계수 추정치의 잠재적인 하향 편향을 수정하기 위한 것입니다. OLS가 하향 편향될 수 있다는 정당한 주장이 있지만, 문제는 일반적인 사용에서 TLS가 상향 편향, 즉 GHG의 영향을 과장한다는 것입니다. TLS가 편향되지 않은 결과를 제공하는 특별한 경우가 있지만 사용자는 데이터 세트가 이러한 조건과 일치하는지 알 수 없습니다. 또한 TLS는 신호 탐지에서 귀무 가설을 테스트하는 데 특히 적합하지 않으며 그 결과는 OLS를 사용하여 확인해야 합니다.

변수의 오류 문제와 TLS의 약점

OLS 모델은 회귀에서 설명 변수가 정확하게 측정되었다고 가정하므로 회귀선에서 종속 변수를 분리하는 “오류”는 전적으로 종속 변수의 임의성으로 인한 것입니다. 예를 들어 측정 오류로 인해 설명 변수에도 임의성이 포함된 경우 OLS는 일반적으로 편향된 기울기 추정기를 생성합니다. 하나의 설명(x) 변수와 하나의 종속(y) 변수가 있는 간단한 모델에서 편향은 “감쇠 편향”이라고 하는 하향입니다. David Giles는 문제에 대한 훌륭한 설명을 가지고 있습니다. 여기그리고 Wooldridge 또는 Davidson 및 MacKinnon과 같은 계량 경제학 텍스트를 볼 수도 있습니다.

측정 문제를 변수 내 오류 또는 EIV라고 합니다. 기후 모델은 실제 기후 “신호”에 대한 시끄럽거나 불확실한 추정치를 산출하기 때문에 Allen과 Stott(2003)는 TLS 방법을 해결책으로 제안했습니다. 이것은 계량경제학이 이 문제를 다루는 방식이 아닙니다. 내가 알고 있는 모든 계량 경제학 교과서에서 EIV에 대한 권장 처리 방법은 편향되지 않고 일관된 계수 추정치를 산출하는 것으로 표시될 수 있는 도구적 변수 추정입니다. 저는 계량경제학 교과서에서 TLS를 다룬 것을 본 적이 없습니다. 또한 TLS 추정기의 속성을 살펴보는 소규모 문헌, 주로 Wayne Fuller의 1987년 책, Leon Gleser의 Annals of Statistics의 1981년 기사를 제외하고는 경제학 또는 기후학 이외의 다른 곳에서 사용하는 것을 본 적이 없습니다. 1996년 기사 RJ Carroll과 David Ruppert의 The American Statistician에서.

Fuller와 Gleser는 모두 TLS(또는 더 일반적으로 불리는 직교 회귀)가 편향되지 않고 일관된 추정치를 산출한다는 것을 증명하는 어려움에 대해 논의합니다. Carroll과 Ruppert가 설명한 것처럼 문제는 데이터에 “충분한 통계”가 있는 것보다 더 많은 매개변수, 즉 데이터가 식별할 수 있는 것보다 더 많은 매개변수를 추정해야 한다는 것입니다. 따라서 TLS를 구현하려면 매개변수 중 하나의 값을 임의로 선택해야 합니다. y와 x는 모두 추정해야 하는 분산이 있는 오류 항을 가지고 있으며 실제로 가정은 동일하므로 하나만 추정하면 됩니다. 동일하다면 Gleser는 TLS 추정치가 일관성이 있음을 보여줍니다(샘플이 무한대로 이동함에 따라 편향이 0이 됨을 의미). 그렇지 않으면 일관성을 보장할 수 없습니다. 신호 감지 응용 프로그램에서 이는 모델 생성 신호에 관측된 기후의 무작위 오류와 정확히 동일한 분산을 갖는 무작위 오류가 포함되어 있지 않은 경우(또는 동일하게 조정하도록 재조정될 수 있는 경우) TLS가 편향되지 않은 기울기를 산출하는 것으로 표시될 수 없음을 의미합니다. 계수.

Carroll과 Ruppert는 또한 TLS가 회귀 모델 자체가 올바르게 지정되었다는 가정, 즉 회귀 모델에 종속 변수의 변동을 설명하는 모든 것이 포함된다는 가정에 의존한다고 지적합니다. OLS도 이를 가정하지만 오류를 모델링하는 데 더 강력합니다. 모델이 하나 이상의 변수를 생략하지만 포함된 변수와 상관 관계가 없는 경우 OLS 계수는 편향되지 않지만 생략된 변수 중 하나라도 포함된 변수와 상관 관계가 있는 경우 OLS는 부호에 따라 위 또는 아래로 편향됩니다. 상관관계. TLS를 사용하면 생략된 변수가 포함된 변수와 상관 관계가 있든 없든 어느 쪽이든 편향이 발생하지만 편향은 항상 위쪽입니다. 종속 변수를 완전히 설명하는 회귀 모델이 없는 한 무작위 노이즈가 없는 경우 모든 관측값이 회귀선에 정확하게 놓이지 않는 한 기본 가정은 TLS가 매개변수 값을 과대평가한다는 것입니다.

따라서 TLS는 원칙적으로 편향되지 않은 신호 탐지 계수를 산출할 수 있지만, 신호를 생성하는 기후 모델이 관측된 기후를 설명하는 모든 것을 포함하고 관측된 기후의 무작위성과 정확히 동일한 분산으로 신호에 무작위 노이즈를 추가하는 경우에만 가능합니다. . 물론 이러한 주장이 사실이라면 처음부터 신호 탐지 회귀를 수행할 필요가 없습니다. GHG가 기후에 어떤 영향을 미치는지 알고 싶다면 모델 내부를 살펴보기만 하면 됩니다. 신호 탐지 회귀는 기후 모델이 완벽하지도 완전하지도 않다는 사실에 동기를 부여받았지만 결과가 편향되지 않았다는 주장은 둘 다라고 가정합니다.

실제로 TLS와 OLS 비교

이러한 문제가 신호 탐지 회귀에 어떤 영향을 미치는지 조사하기 위해 다음과 같이 시뮬레이션 회귀를 실행했습니다. 북극에서 남극까지 뻗어 있는 200개 위치의 샘플에서 표면 온도 경향(y) 샘플을 상상해 보십시오. 나는 두 개의 상관되지 않은 설명 변수 X1과 X2를 구성했습니다. X1은 인위적인 온실 가스로 강제된 모델에서 해당 위치에 대한 200개의 시뮬레이션된 경향(또는 “신호”)으로 생각할 수 있으며 X2는 자연 강제력만 있는 모델에서 나옵니다. 그런 다음 임의의 변수 W1과 W2를 생성하는 X에 임의의 노이즈를 추가했습니다. 모든 회귀 모델은 잠재적으로 최소한 하나의 관련 설명 변수를 생략하기 때문에 두 개의 추가 변수 Q1과 Q2도 생성했습니다. Q1은 상관되지 않은 난수의 집합입니다. Q2는 X1과 부분적으로 상관된 난수의 집합입니다.

그런 다음 종속 변수 y의 9가지 버전을 생성했습니다.

Y1 = bX1 + X2/2 + v 여기서 b는 0.0, 0.5 또는 1.0으로 설정되고 v는 백색 잡음입니다.

YQ1 = bX1 + X2/2 + Q1 + v

그리고

YQ2 = bX1 + X2/2 + Q2 + v;

그리고 후자의 2개 각각에서 b는 다시 0.0, 0.5 또는 1.0이 되도록 허용되었습니다.

W1과 W2에서 y의 각 버전을 회귀했습니다.

Y1 = b1 W1 + b2 W2 + e;

YQ1 = b1 W1 + b2 W2 + e

그리고

YQ2 = b1 W1 + b2 W2 + e.

매번 OLS와 TLS를 모두 사용하여 계수 b1과 b2를 추정했습니다. 구성에 의해 b2는 항상 0.5와 같아야 하며 나는 그것에 집중하지 않았습니다. 대신 시뮬레이션에 따라 0.0, 0.5 또는 1.0과 같아야 하는 b1에 집중했습니다.

명심해야 할 중요한 점은 연구자가 자신이 사용한 종속변수를 모른다는 것입니다. 그것이 Y1이라고 가정하면 회귀 모델이 올바르게 지정되었다고 가정하고 유일한 문제는 W1이 X1의 노이즈 버전이라는 것입니다. YQ1을 사용하면 회귀 모델이 상관되지 않은 설명 변수를 생략한다고 가정하고 YQ2를 사용한다고 가정하면 회귀 모델이 상관된 설명 변수를 생략한다는 의미입니다. 실제로 Y1만 사용한다고 가정할 이유가 없습니다. 좋지 않을까요?

나는 이것을 각각 20,000번 실행했고 OLS와 TLS에서 b1의 분포를 살펴보았다. 그런 다음 몇 가지 다른 주름을 추가했습니다. 먼저 X의 신호-노이즈 비율을 개선하는 것과 유사한 X의 노이즈 항에 대한 분산을 줄였습니다. 또한 X가 약간 음의 상관 관계가 있는 버전을 실행하여 신호 감지 응용 프로그램의 상황에 해당합니다. 인위적 신호와 자연 신호는 음의 상관 관계가 있습니다.

신호 감지 필드의 작업 가정은 b1의 OLS 추정값이 낮게 편향되어 있지만 TLS 추정값은 편향되지 않는다는 것입니다. 첫 번째 결과 집합에서 b1의 분포는 다음과 같습니다.

OLS는 파란색이고 TLS는 빨간색입니다. 실선은 종속변수가 Y1임을 의미하고, 점선은 YQ1임을 의미하고, 점선은 YQ2임을 의미합니다. OLS 결과를 보면 감쇠 바이어스는 곱하기 때문에 b의 실제 값이 0일 때 OLS는 바이어스되지 않습니다. 모델이 독립 설명 변수를 생략하는 경우 편향되지 않은 상태로 유지되지만 생략된 변수가 X1(점선)과 상관 관계가 있는 경우 OLS 추정치는 상향 편향됩니다. b의 실제 값이 증가함에 따라 OLS 추정값은 실제 값 아래 중심이 됩니다. 하단 패널에서 점선, 감쇠 바이어스 및 생략된 가변 바이어스는 서로를 대략 상쇄하지만(점선) 이는 일반적인 규칙이 아닌 단지 우연입니다.

TLS 결과가 다릅니다. 우선 TLS가 덜 효율적이기 때문에 배포가 훨씬 더 광범위합니다. b의 실제 값이 0이고 생략된 변수가 없을 때 분포는 0을 중심으로 합니다. b의 실제 값이 올라갈수록 TLS 회귀의 세 가지 버전 모두 긍정적으로 편향된 추정치를 산출합니다.

양성 편향은 거짓 양성의 위험뿐만 아니라 계수 크기 자체가 “탄소 예산” 계산에 반영되기 때문에 중요합니다. 계수 값이 높을수록 세계가 특정 기후 목표를 넘는 지점을 추정할 때 “허용되는” 탄소 수지가 작아집니다. 이는 매우 큰 글로벌 거시경제적 결과를 초래하는 중요한 계산이므로 TLS 기반 지문 회귀 결과의 긍정적 편향 문제가 이전에 검토되지 않았다는 사실이 당혹스럽습니다.

다음 추정 배치를 위해 X의 노이즈 분산을 줄였습니다. 이를 높은 SNRx 경우라고 합니다.

이제 OLS는 상관된 생략 변수가 없을 때 참 값으로 이동합니다. 이는 X의 노이즈가 0이 될 때 OLS가 편향되지 않은 것으로 알려진 경우에 접근하기 때문에 의미가 있습니다. 그러나 TLS는 같은 경향이 없으며 실제로 긍정적 편향은 생략 변수의 경우 약간 더 나빠집니다. 이것은 추정기의 좋은 속성이 아닙니다. 중요한 노이즈 구성요소가 줄어들면 실제 값으로 수렴할 것으로 예상됩니다.

다음으로 X와 y의 노이즈가 동일한 크기인 경우를 살펴보았습니다. 이는 계산 알고리즘에서 가정한 분산 비율이 실제 관찰할 수 없는 분산 비율에 해당하기 때문에 TLS에 대한 최적의 구성입니다. 회귀 모델이 올바르게 지정되면 TLS가 편향되지 않습니다. 그러나 상관관계가 없는 변수라도 변수가 생략되고 베타의 실제 값이 >0이면 TLS는 상향 편향을 갖게 됩니다. OLS는 Q2가 누락된 경우를 제외하고 하향 편향이 있으며 순 편향은 상향입니다.

나는 시뮬레이션 모델의 수많은 다른 구성을 조사하고 어떤 추정기가 선호되어야 하는지에 대한 질문에 대해 논의했습니다. 결과의 차이는 방법론적 선택을 반영하지 않고 기본 데이터 생성 프로세스에 대한 다른 가정을 반영하며 연구원이 현재 데이터 세트를 가장 잘 설명하는 것이 무엇인지 모를 경우 OLS가 알려진 사실에도 불구하고 TLS보다 선호되는 옵션인 경우가 더 많습니다. 편견. 예 OLS는 때때로 0으로 편향된 계수를 생성하지만 이는 알려진 편향입니다. TLS는 일반적으로 양의 편향이 있는 계수를 생성하며 편향의 크기는 큰 분산으로 인해 부분적으로 예측하기 어렵습니다.

흥미롭게도, b의 실제 값이 0이 되면 감쇠 바이어스가 0이 되고 TLS 추정기가 정의되지 않기 때문에 추정기 기본 설정이 OLS로 명확하게 이동합니다. 이것은 우리가 b=0이라는 귀무가설, 즉 온실 강제력이 관측된 기후 변화를 설명하지 않는다는 귀무 가설을 테스트하는 경우 귀무가 사실이면 TLS를 사용하지 않을 것이기 때문에 TLS에 의존해서는 안 된다는 것을 의미합니다. OLS. 즉, 중요한 신호 탐지 결과가 OLS가 아닌 TLS를 사용하는 것에 의존하는 경우 강력한 결과가 아닙니다.

다음 단계

나는 또 다른 연구를 가지고있다 검토 중 여기서 나는 X가 서로 상관되도록 허용하는 결과를 좀 더 자세히 탐구합니다. 나는 본 논문에 이 사건에 대한 예비적인 견해를 포함시켰다. 신호가 상호 연관되어 있을 때 b = 0의 실제 값과 TLS가 양의 편향을 나타내는 경우에도 OLS가 여전히 감쇠 편향을 나타내지만 이 경우 TLS 편향은 거짓 긍정의 위험이 있을 만큼 충분히 커지는 것으로 나타났습니다. 즉, 분명히 “중요한” 실제 값이 0인 경우에도 b의 값입니다.

요약하면 일반적으로 TLS가 감쇠 바이어스를 과도하게 수정하여 너무 큰 신호 계수를 생성한다는 결론을 내립니다. 또한 편차가 큰 극도로 불안정한 추정치를 산출합니다. 연구원은 TLS가 컨텍스트에 적합하다는 것을 입증하는 필수 테스트(내 백서에서 논의한 대로)를 수행하지 않는 한 신호 감지 추론에 TLS에 의존해서는 안 됩니다.

또한 기후 과학자들은 편향되지 않고 일관된 결과를 얻을 수 있기 때문에 EIV 문제에 대한 해결책으로 도구 변수를 사용하는 것을 고려해야 합니다.

참고: 페이지 교정을 수행했을 때 화면에 렌더링된 주요 결과 테이블은 괜찮아 보이지만 인쇄 버전은 엉망입니다. 1, 7, 13행은 각각 원래 있던 위치에서 한 행 아래로 이동해야 합니다. 아아.

코멘트를 남겨주세요