Week 17: Performance Metrics — Sharpe, Sortino, Calmar, IR, Treynor, Alpha and Beta

1. Why This Is Important

A return number on its own is almost useless. "I made 18% last year" is a sentence; it is not an evaluation. It tells you nothing about how much risk was taken to earn it, how often the strategy lost money, or whether the same dollar in an index fund would have done better. Professional investors, allocators, due-diligence teams, and honest self-assessing retail investors all live in the world of risk-adjusted return — return per unit of something painful.

You need this material for four reasons.

Evaluating funds and managers. Every fund tear-sheet on the

planet quotes Sharpe, max drawdown, and tracking error. If you cannot read those numbers and intuit what they mean — what a Sharpe of 0.4 versus 1.2 actually feels like in client account statements — you will overpay for mediocre managers and miss genuinely good ones.

Honestly grading yourself. A 30% year is impressive only if

you took less than 30% in vol to get it, and only if you can show it was not pure beta to a 30% market. Without Sharpe, Sortino, alpha, and beta, your year-end review is just storytelling.

Picking the right metric for the right job. Sharpe is the

default but it punishes upside vol the same as downside. Calmar focuses on the worst pain. IR tells you whether your active bets actually paid. Treynor looks only at the systematic risk you could not diversify away. Each metric answers a different question; using the wrong one gives you the wrong answer.

The vol tail wags the dog. Standard deviation

assumes returns are normally distributed. They are not. Tails are fat. So Sharpe consistently under-penalises strategies that quietly accumulate left-tail risk. Sortino and Calmar partially fix that. Knowing which metric flatters which strategy is most of the alpha in due diligence.

This lesson works through the whole taxonomy, runs every metric on the Damodaran 1928-2024 dataset for four model portfolios, and shows you how the rank order across metrics can reorder your preferences.

2. What You Need to Know

2.1 The Sharpe Ratio — Excess Return per Unit of Total Volatility

The Sharpe ratio is the foundation. Bill Sharpe (Nobel 1990) wrote it down in 1966. The formula is simple:

$$ \text{Sharpe} = \frac{R_p - R_f}{\sigma_p} $$

Numerator: the excess return — your portfolio's return minus the risk-free rate (3-month T-Bill). Denominator: the **total standard deviation** of your portfolio's returns.

The Sharpe ratio answers: *how much return did this portfolio earn per unit of total volatility?* Higher is better. A few rough benchmarks for annualised Sharpe over a long horizon:

Sharpe (annualised)	Interpretation
< 0	Lost to the risk-free rate. Negative compensation for risk.
0.0 - 0.3	Mediocre. The S&P 500 averages about 0.4 over a century.
0.3 - 0.6	Decent. Most balanced portfolios live here.
0.6 - 1.0	Genuinely good — if real and persistent.
1.0 - 2.0	Excellent. Top quartile hedge funds, well-run risk parity.
> 2.0	Suspicious. Either short data window, hidden tail risk, or fraud.

Two important practical points.

The frequency rescaling trap. Sharpe is normally quoted annualised. If you compute it from monthly returns, you must multiply by $\sqrt{12}$, not 12. From daily, by $\sqrt{252}$. This follows from the assumption that monthly returns are independent — which they are not, exactly, but the convention has stuck. A strategy with a monthly Sharpe of 0.30 has an annualised Sharpe of $0.30 \times \sqrt{12} \approx 1.04$, not 3.6.

The vol-tail problem. Sharpe uses $\sigma$, which assumes returns are roughly symmetric around the mean. They are not. 1987's -22% Black Monday was a 20-sigma event under a normal model — meaning it should not have happened in the lifetime of the universe. Yet there it was. So Sharpe systematically rewards strategies that look smooth most of the time but blow up rarely (short volatility, illiquid credit, leveraged carry). The volatility tail wags the dog — do not pick managers on Sharpe alone.

2.2 Sortino — Downside Deviation Only

The Sortino ratio is Sharpe's first repair. It replaces total volatility with downside deviation only: the standard deviation of returns below a target, usually zero or the risk-free rate.

$$ \text{Sortino} = \frac{R_p - R_f}{\sigma_d} \quad \text{where} \quad \sigma_d = \sqrt{\frac{1}{N}\sum_{r_i < t}(r_i - t)^2} $$

By design, upside volatility no longer hurts your score — only losses do. For a positively-skewed strategy (lots of small losses, occasional big gains; trend-following is the classic example) the Sortino ratio is materially higher than Sharpe. For a negatively- skewed strategy (selling vol, picking up nickels in front of a steam-roller) Sortino is closer to or worse than Sharpe.

A useful rule of thumb: when Sortino is at least 1.4× Sharpe, the strategy has positive skew and the manager is genuinely managing downside. When Sortino is barely higher than Sharpe, the return distribution is symmetric or worse — left tail and right tail look similar, and the manager is just running risk.

2.3 Calmar — Return per Unit of Worst-Case Pain

Calmar is the cleanest answer to: *what is my return divided by my worst draw-down?*

$$ \text{Calmar} = \frac{\text{Annualised return}}{|\text{Max drawdown}|} $$

If a strategy returns 12% annualised and the worst peak-to-trough draw was 30%, Calmar is 0.40. Calmar values above 0.5 are good; above 1.0 is rare and excellent over a long sample. The S&P 500 since 1928 has a Calmar of roughly 0.10 (≈10% return / ≈86% 1929-32 drawdown).

The strength of Calmar: it focuses on a single number every investor actually cares about — the worst loss they would have sat through. The weakness: it depends on the sample window. A strategy launched in 2010 that never met its 2008 has a flattering Calmar; a strategy whose track record happens to start right before a crisis looks worse than it is. Always ask: *does this Calmar include the worst available regime?*

2.4 Information Ratio — Active Return per Unit of Tracking Error

For an active manager — one who claims to beat a specific benchmark — Sharpe alone is insufficient. The right question is: *per unit of how much you deviate from the benchmark, how much extra return do you produce?*

The Information Ratio:

$$ \text{IR} = \frac{R_p - R_b}{\sigma(R_p - R_b)} = \frac{\text{Active return}}{\text{Tracking error}} $$

Numerator: the active return (your return minus the benchmark's return). Denominator: the tracking error (standard deviation of the difference). A closet-indexer with low tracking error and a small positive active return can have a high IR; a wild stock- picker with both large active return and large tracking error can have a mediocre one.

Industry shorthand:

IR < 0.0: Worse than the benchmark. Fire the manager.
IR = 0.5: Top quartile institutional active manager.
IR = 1.0: Top decile. Genuinely great.
IR > 2.0: Vanishingly rare; demand to see the strategy in detail.

IR is the metric every pension consultant uses to grade active managers. If you ever pay a fee above passive, you should know yours.

2.5 Treynor — Excess Return per Unit of Beta

Sharpe divides by total risk. Treynor divides only by systematic risk — the part you cannot diversify away:

$$ \text{Treynor} = \frac{R_p - R_f}{\beta_p} $$

where $\beta_p$ is the slope of your portfolio's returns regressed on the market's. A diversified equity sub-portfolio with $\beta = 1$ and 12% excess return has Treynor 0.12. A market-neutral fund with $\beta \approx 0$ produces a divide-by-near-zero — Treynor is undefined or infinite, which is a clue Treynor is the wrong metric for hedged strategies.

Use Treynor when you are evaluating a sub-portfolio inside a larger book — for example, deciding whether the 40% of your equity sleeve that is in tech is earning enough for its market exposure, ignoring its idiosyncratic noise that diversifies away at the parent level. Use Sharpe when you are evaluating a stand-alone investment.

2.6 Jensen's Alpha and Beta — From the CAPM Regression

Beta and alpha both come out of the same equation: the CAPM regression of excess returns:

$$ R_p - R_f = \alpha + \beta (R_m - R_f) + \varepsilon $$

Run that regression on your monthly returns versus the S&P 500's, and:

$\beta$ is the slope. It tells you how much your portfolio

moves for each unit of market move. $\beta = 1.2$ means a 1% market drop drags you down ~1.2%.

$\alpha$ is the intercept. It is what you earned above the

return CAPM said you should have earned for taking that beta exposure. Annualised, alpha is the holy grail.

A few honest realities:

Most retail strategies have alpha statistically indistinguishable

from zero. Alpha is rare. Treat any alpha estimate from fewer than 60 monthly observations as extremely noisy.

Beta is often more useful than alpha for risk decomposition.

If $\beta = 1.4$, your "stock pick" is really 1.4× S&P leverage plus some noise; the size of that lever explains most of what is happening to the equity curve.

Alpha can be persistent for short windows by luck. It can also

be persistent because of an undisclosed factor exposure (small-cap, value, low-vol, momentum). Modern attribution strips those out before declaring "alpha".

The interactive at the end of this lesson lets you draw the CAPM scatter live: portfolio monthly excess returns vs S&P 500 excess returns, with $\alpha$ as the intercept and $\beta$ as the slope.

2.7 The Metrics Disagree, On Purpose

The whole reason there are five-plus ratios is that **they emphasise different parts of the return distribution**. The chart below runs Sharpe, Sortino, Calmar, and Treynor on four canonical portfolios using Damodaran 1928-2024:

A 2x2 bar grid showing four risk-adjusted metrics across four model portfolios (100/0 stocks, 60/40, 30/70, 0/100 bonds) computed on Damodaran 1928-2024. Each metric panel ranks the portfolios differently. Sharpe favours the 60/40 mix; Calmar punishes 100% stocks heavily because of the 1929-32 drawdown; Treynor undefined-or-extreme on the bond-heavy book because beta-to-equities is small. The visual point: pick a different metric, get a different winner.

Notice: by Sharpe, the 60/40 mix scores highest because the correlation discount on volatility (Week 4) lifts the denominator's denominator. By Calmar, all-bonds wins because the bond series' worst drawdown over the sample is shallower than the 1929-32 stock loss. By Treynor, the all-stock portfolio looks fine because beta =1 by construction — but Treynor on the bond portfolio is calculated against equity beta and looks unreliable. Same data, four different rankings.

This is not a bug. It is the entire point. A defensible portfolio review reports at least three metrics and explains where they agree and where they disagree.

2.8 Sharpe Through Time — The Regime Story

Even for a single asset, the Sharpe ratio is not a constant. Below is the rolling 10-year Sharpe of the S&P 500 (excess over 3-month T-Bills) since 1937:

Rolling 10-year Sharpe ratio of the S&P 500 over 3-month T-Bills, 1937-2024, computed on Damodaran annual data. The line oscillates between roughly 0.0 in the 1970s stagflation window and near 1.5 in the post-GFC 2010s, with intermediate troughs around 2002 and 2009. The chart visualises why naïve Sharpe quotes drawn from a single decade are unreliable: regime drives the number.

The line is wild. In the 1970s, a 10-year window earning roughly zero excess over T-Bills produced a Sharpe near 0.0. In the 1980s-1990s tailwind, Sharpe climbed past 1.0. The 2000s double-decade-of-disappointment (dot-com + GFC) cratered it back toward zero. The 2010s rebuilt it to ~1.5 on the back of QE-driven multiple expansion.

The takeaway: be very careful when someone quotes "the long-run Sharpe of the S&P 500 is X." It is X over the chosen window. The 1980-2020 regime was anomalous — and so was its Sharpe.

3. Common Misconceptions

"Sharpe of 2 is great." It is too great. Real,

long-horizon, capacity-bearing Sharpes above ~1.2 are rare. A short-window Sharpe of 2 usually decomposes into either selection bias (the survivors), short data (overfit), or hidden tail risk (about to blow up).

"Higher Sharpe = lower risk." Higher Sharpe = better

excess return per unit of measured risk. If the risk measure (standard deviation) misses fat tails, the apparent Sharpe lies — the volatility tail wags the dog.

**"Calmar is fairer than Sharpe because it uses real

drawdowns."** Calmar is sample-dependent. A strategy with no crisis in its track record has artificially high Calmar. The right comparison is Calmar over a common window including stress periods.

"Sortino rewards skill." Sortino rewards return shape, not

skill. A leveraged long-only equity book with no risk management has a high Sortino in any sustained bull market.

"Beta = risk." Beta = systematic risk *to the market you

regressed on*. A "low-beta" stock with $\beta=0.4$ to the S&P 500 may have $\beta=2$ to oil prices. The beta you compute depends entirely on the chosen market index.

"Alpha proves skill." Alpha proves *unexplained excess

return given the chosen factor model*. If your model omits small-cap, value, momentum, or quality, you will read off alpha that is really just a known factor premium. Most "alpha" in academic backtests pre-1995 has since been shown to be omitted-factor exposure.

"Information ratio measures the same thing as Sharpe." No

— Sharpe is total excess over total vol. IR is active excess over tracking error. A manager with low IR but high Sharpe is just running market beta.

"Treynor is better than Sharpe because it uses beta."

Treynor only makes sense when the portfolio is part of a larger diversified book where idiosyncratic risk genuinely diversifies away. For a stand-alone retirement account, Sharpe is the correct metric.

"You annualise Sharpe by multiplying by 12." No. By

$\sqrt{12}$. Multiplying by 12 inflates Sharpe by a factor of 3.46 and is a classic résumé fraud signal.

"Risk-adjusted return is the only thing that matters."

Risk-adjusted return matters for picking among strategies of similar absolute return. But a 0.6 Sharpe at 12% return grows your wealth far more than a 1.2 Sharpe at 4% return. Real wealth is built on the absolute return; Sharpe just helps you choose between two paths to the same end.

4. Q&A Section

Q1. Which metric should I quote first when describing a fund? A1. Sharpe is still the default and the easiest for a literate audience to interpret. Pair it with max drawdown and one of {Sortino, Calmar} so the reader can spot fat-tail strategies. Quoting only Sharpe in 2026 is a yellow flag.

Q2. What risk-free rate do I use? A2. For US-dollar-denominated portfolios, the 3-month T-Bill yield matched in time to your return series. Damodaran's annual table includes this column. Annualised series use the year-end T-Bill; monthly series use the prevailing T-Bill divided by 12.

Q3. My monthly Sharpe is 0.4, my annualised is 1.4. Why the gap? A3. Annualised Sharpe = monthly Sharpe × √12 = 0.4 × 3.46 = 1.39. That is correct.

Q4. How long a window do I need before Sharpe is meaningful? A4. At minimum 3 years (36 monthly observations). Below that, the standard error of Sharpe is so large the number is essentially random. Five to ten years is typical for institutional allocation decisions.

Q5. What if my portfolio has no market beta — is Treynor useful? A5. No. Treynor with $\beta \approx 0$ is mathematically unstable (divide by near-zero). Use Sharpe and Calmar for market-neutral strategies. Treynor is for sub-portfolios with clear directional market exposure.

Q6. Sortino > Sharpe. Should I always prefer high Sortino strategies? A6. Probably yes — but only if you confirm the sample includes a real drawdown event. A trend-following strategy looks fantastic on Sortino during a sustained trend; the test is how it does in a choppy, mean-reverting regime.

Q7. Why do hedge funds quote IR more than Sharpe? A7. Because hedge fund LPs typically benchmark them against an index (long-short equity vs. S&P 500, market-neutral vs. T-Bills, etc.). IR is the natural metric for "did your active risk pay?" Sharpe answers a different question: "did your absolute return compensate me for absolute volatility?"

Q8. Can a portfolio have positive alpha but a negative Sharpe? A8. Yes, in stress periods. Alpha just measures unexplained excess over CAPM. If the market and your portfolio both lose money, but yours loses *less than CAPM said you should have lost given your beta*, alpha is positive while raw Sharpe is negative. 2008 Treasury managers had this experience.

Q9. How do I compute beta for a long-short portfolio? A9. Same regression: monthly excess returns of the portfolio versus monthly excess returns of the S&P 500. The slope is your net beta. Gross beta (sum of long beta + short beta absolute values) is a separate exposure measure for risk attribution.

**Q10. The risk-free rate has been near zero for a decade. Does that distort Sharpe?** A10. It inflates it. With $R_f \approx 0$, raw return equals excess return, so Sharpe rises mechanically when rates fall. To compare across regimes, always use the contemporaneous T-Bill rate, not a constant assumption.

Q11. Why does the rolling Sharpe of the S&P 500 swing so wildly? A11. Because both numerator and denominator move with the regime. In low-vol bull markets (1990s, 2010s) the numerator is high and denominator low — Sharpe explodes. In stagflation (1970s) or crisis decades (2000s) numerator collapses and denominator rises — Sharpe craters. Regime drives almost everything in quoted single-number stats.

Q12. What single number would Horace use to grade his own year? A12. Two numbers, not one: realised CAGR and max intra-year drawdown. Then a sanity check: Sharpe over 3-year and 10-year rolling windows to see whether the year was on-trend or a fluke. "Risk-adjusted return" in a single ratio is always partial.

第十七週：績效指標——夏普比率、索提諾比率、Calmar比率、信息比率、特雷諾比率、阿爾法與貝塔

1. 為何這至關重要

單看回報數字幾乎毫無意義。「我去年賺了18%」只是一句陳述，並非一個評估。它告訴你的，既不是為賺取這個回報承擔了多少風險，也不是這個策略虧損的頻率，更無從得知同一筆錢放進指數基金會否表現更佳。專業投資者、資產配置者、盡職調查團隊，以及能誠實評估自己的散戶投資者，都活在風險調整後回報的世界裡——即每承受一份痛苦所換來的回報。

你需要掌握這些內容，原因有四。

評估基金與基金經理。 全球每份基金資料摘要都會引用夏普比率、最大回撤與追蹤誤差。若你無法讀懂這些數字、無法直覺感受夏普比率0.4與1.2的分別——也就是客戶帳戶結單實際呈現的感受——你便會為平庸的基金經理付出過高代價，同時錯失真正優秀的機會。

誠實地為自己評分。 一個30%的年度回報，只有在波動性低於30%的情況下才算出色，而且你還需要證明這並非單純依靠市場貝塔跑出30%的漲幅。若缺乏夏普比率、索提諾比率、阿爾法與貝塔，你的年終檢討不過是自說自話。

為不同用途選擇合適的指標。 夏普比率是預設選擇，但它對上行波動性與下行波動性一視同仁地懲罰。Calmar比率聚焦於最壞的虧損痛苦。信息比率衡量你的主動投注是否真正奏效。特雷諾比率只考慮無法分散掉的系統性風險。每個指標回答的是不同的問題；用錯指標，答案自然錯誤。

波動性尾部主宰一切。 標準差假設回報呈正態分佈，但實際並非如此。尾部是肥厚的。因此，夏普比率對那些平時看似穩健、偶爾才大幅虧損的策略，其懲罰往往持續不足——例如沽出波動性、持有流動性不足的信貸工具、高槓桿套息交易。索提諾比率與Calmar比率在一定程度上修正了這個問題。了解哪個指標在美化哪種策略，是盡職調查中最核心的技巧。

本課將系統梳理整個指標體系，以Damodaran 1928至2024年的數據集對四個模型投資組合逐一計算每個指標，並展示各指標的排名如何改變你的偏好順序。

2. 你需要掌握的知識

2.1 夏普比率——每單位總波動性的超額回報

夏普比率是一切的基礎。比爾·夏普（1990年諾貝爾獎得主）於1966年提出這個公式，其計算方法簡單直接：

$$ \text{夏普比率} = \frac{R_p - R_f}{\sigma_p} $$

分子：超額回報——你的投資組合回報減去無風險利率（3個月國債）。分母：你的投資組合回報的總標準差。

夏普比率回答的問題是：這個投資組合每承受一單位總波動性，賺取了多少回報？ 數值越高越好。以下是長期年化夏普比率的粗略參考基準：

年化夏普比率	解讀
< 0	跑輸無風險利率。承擔風險卻獲得負回報。
0.0 - 0.3	一般。標普500百年平均約為0.4。
0.3 - 0.6	尚可。大多數平衡型投資組合處於此區間。
0.6 - 1.0	真正優秀——若屬真實且持續。
1.0 - 2.0	出色。頂尖四分位的對沖基金、管理完善的風險平價策略。
> 2.0	可疑。可能是數據窗口過短、隱藏尾部風險，或涉及欺詐。

有兩個重要的實際操作要點。

頻率換算的陷阱。 夏普比率通常以年化形式引用。若以月度回報計算，必須乘以$\sqrt{12}$，而非12。若以日度數據計算，則乘以$\sqrt{252}$。這源於月度回報相互獨立的假設——儘管現實並非完全如此，但這個慣例已沿用至今。一個月度夏普比率為0.30的策略，其年化夏普比率為$0.30 \times \sqrt{12} \approx 1.04$，而非3.6。

波動性尾部問題。 夏普比率使用$\sigma$，假設回報大致圍繞均值對稱分佈，但現實並非如此。1987年黑色星期一的-22%跌幅，在正態模型下屬於20個標準差的事件——意味著理論上在宇宙的壽命內都不應發生。然而它就這樣發生了。因此，夏普比率對那些平時走勢平穩、但偶爾暴倉的策略（沽出波動性、流動性不足的信貸工具、高槓桿套息交易）持續給予過高評價。波動性尾部主宰一切——切勿單靠夏普比率篩選基金經理。

2.2 索提諾比率——僅計算下行偏差

索提諾比率是對夏普比率的首次修正。它以下行偏差取代總波動性：即回報跌破某個目標值（通常為零或無風險利率）時的標準差。

$$ \text{索提諾比率} = \frac{R_p - R_f}{\sigma_d} \quad \text{其中} \quad \sigma_d = \sqrt{\frac{1}{N}\sum_{r_i < t}(r_i - t)^2} $$

在設計上，上行波動性不再拉低你的得分——只有虧損才有影響。對於正偏態的策略（小額虧損頻繁、偶爾大幅獲利；趨勢跟蹤是典型例子），索提諾比率會大幅高於夏普比率。對於負偏態的策略（沽出波動性、在壓路機前撿硬幣），索提諾比率與夏普比率相近甚至更差。

一個實用的經驗法則：當索提諾比率至少為夏普比率的1.4倍時，該策略具有正偏態，基金經理確實在管理下行風險。當索提諾比率與夏普比率相差無幾時，回報分佈呈對稱或更差的形態——左尾與右尾相似，基金經理只是在承擔風險而已。

2.3 Calmar比率——每單位最壞虧損的回報

Calmar比率對以下問題給出最直接的答案：我的回報除以最大回撤是多少？

$$ \text{Calmar比率} = \frac{\text{年化回報}}{|\text{最大回撤}|} $$

若一個策略年化回報為12%，最壞的由峰至谷跌幅為30%，則Calmar比率為0.40。Calmar比率高於0.5屬良好；在較長樣本期內超過1.0實屬罕見且出色。標普500自1928年以來的Calmar比率約為0.10（約10%回報 / 約86%的1929至1932年回撤）。

Calmar比率的優點：它聚焦於每位投資者真正在意的單一數字——他們須要承受的最大虧損。缺點：它依賴樣本窗口。一個於2010年成立、從未經歷2008年危機的策略，其Calmar比率會被高估；而一個業績記錄恰好從危機前開始的策略，看起來則比實際情況更差。必須問：這個Calmar比率是否涵蓋了最惡劣的市場環境？

2.4 信息比率——每單位追蹤誤差的主動回報

對於一個主動基金經理——聲稱能跑贏特定基準的人——單靠夏普比率並不足夠。正確的問題是：你每偏離基準一個單位，能產生多少超額回報？

信息比率：

$$ \text{信息比率} = \frac{R_p - R_b}{\sigma(R_p - R_b)} = \frac{\text{主動回報}}{\text{追蹤誤差}} $$

分子：主動回報（你的回報減去基準回報）。分母：追蹤誤差（兩者差值的標準差）。一個追蹤誤差低、小幅正向主動回報的「掛羊頭賣狗肉」指數化基金，信息比率可以很高；一個主動回報與追蹤誤差都很大的激進選股者，信息比率可能僅屬一般。

業界慣用標準：

信息比率 < 0.0：跑輸基準。應解僱基金經理。
信息比率 = 0.5：機構主動基金經理的頂尖四分位水平。
信息比率 = 1.0：頂尖十分位。真正出色。
信息比率 > 2.0：極為罕見；必須詳細審查策略細節。

信息比率是每位退休金顧問評估主動基金經理的核心指標。若你支付的費用高於被動管理，你應該清楚自己的信息比率是多少。

2.5 特雷諾比率——每單位貝塔的超額回報

夏普比率除以總風險，特雷諾比率則只除以系統性風險——即無法分散掉的那部分：

$$ \text{特雷諾比率} = \frac{R_p - R_f}{\beta_p} $$

其中$\beta_p$是你的投資組合回報對市場回報的迴歸斜率。一個$\beta = 1$、超額回報12%的多元化股票子投資組合，特雷諾比率為0.12。一個$\beta \approx 0$的市場中性基金，計算結果等同除以接近零的數——特雷諾比率趨於無窮大或無意義，這恰恰提示特雷諾比率並不適用於對沖策略。

當你在一個較大的投資組合內評估某個子投資組合時，應使用特雷諾比率——例如判斷你的股票倉位中科技股部分，是否賺取了足以匹配其市場敞口的回報，同時忽略在母投資組合層面已被分散掉的個別風險。評估獨立投資時，應使用夏普比率。

2.6 詹森阿爾法與貝塔——來自資本資產定價模型迴歸

貝塔與阿爾法均來自同一個方程式：超額回報的資本資產定價模型迴歸：

$$ R_p - R_f = \alpha + \beta (R_m - R_f) + \varepsilon $$

將你的月度回報對標普500的月度回報進行迴歸，即可得出：

$\beta$是斜率。它告訴你市場每移動一個單位，你的投資組合移動多少。$\beta = 1.2$意味著市場下跌1%，你的投資組合約跌1.2%。
$\alpha$是截距。它是你超出資本資產定價模型根據你的貝塔敞口所預測回報之上額外賺取的部分。年化後，阿爾法是投資的聖杯。

幾個誠實的現實：

大多數散戶策略的阿爾法在統計上與零無異。阿爾法是罕見的。對於少於60個月度觀測值的任何阿爾法估計，應視為極不可靠。

在風險分解上，貝塔往往比阿爾法更有用。若$\beta = 1.4$，你的「選股」其實是1.4倍標普500槓桿加上一些噪音；這個槓桿倍數解釋了股權曲線走勢的絕大部分。

阿爾法可能因運氣而在短期內持續。它也可能因未披露的因子敞口（細價股、價值股、低波動性、動量）而持續。現代歸因分析在宣稱「阿爾法」之前，會先剔除這些因子。

本課末尾的互動工具讓你即時繪製資本資產定價模型散點圖：投資組合月度超額回報對標普500超額回報，以$\alpha$為截距，$\beta$為斜率。

2.7 各指標存在分歧，這是有意為之

存在五個以上比率的根本原因，是它們各自強調回報分佈的不同部分。下圖以Damodaran 1928至2024年數據，對四個典型投資組合分別計算夏普比率、索提諾比率、Calmar比率與特雷諾比率：

一個2x2的柱狀圖網格，顯示四個模型投資組合（100%股票、60/40、30/70、100%債券）在Damodaran 1928至2024年數據下的四個風險調整指標。每個指標的面板對投資組合的排名各不相同。夏普比率青睞60/40組合；因1929至1932年回撤，Calmar比率對100%股票組合的懲罰最重；由於債券重倉組合的貝塔值偏低，特雷諾比率對其呈現出不確定或極端的結果。此圖的視覺重點是：選用不同指標，勝者亦不同。

注意：從夏普比率看，60/40組合得分最高，因為相關性折扣降低了波動性（第4週），從而提升了分母的整體表現。從Calmar比率看，全債券組合勝出，因為在此樣本中，債券系列的最大回撤比1929至1932年的股市跌幅更淺。從特雷諾比率看，全股票投資組合表現尚可，因其貝塔值按定義為1——但債券投資組合相對於股票貝塔計算出的特雷諾比率並不可靠。同樣的數據，四種截然不同的排名。

這不是缺陷，而是這個指標體系的全部意義所在。一份嚴謹的投資組合回顧報告，應至少引用三個指標，並解釋各指標在哪裡一致、在哪裡分歧。

2.8 夏普比率的時變性——市況周期的故事

即使對於單一資產，夏普比率也並非一個常數。下圖呈現標普500相對3個月國債的滾動10年夏普比率，時間跨度自1937年至今：

標普500相對3個月國債的滾動10年夏普比率，1937至2024年，以Damodaran年度數據計算。曲線在約0.0（1970年代滯脹時期）至近1.5（後全球金融危機的2010年代）之間大幅波動，中間在2002年和2009年前後出現低谷。此圖說明為何從單一十年得出的夏普比率引用並不可靠：市況周期主導了這個數字。

這條曲線波動劇烈。在1970年代，10年窗口的超額回報幾乎為零，夏普比率接近0.0。在1980至1990年代的順風時期，夏普比率攀升至1.0以上。2000年代的雙重失落十年（科網泡沫＋全球金融危機）令其跌回近零。2010年代在量化寬鬆驅動的估值擴張下重建至約1.5。

啟示是：當有人引用「標普500的長期夏普比率為X」時，你應該反問：這是在哪個窗口計算的？ 1980至2020年的市場環境是異常的，其夏普比率同樣如此。

3. 常見誤解

「夏普比率2很出色。」 這恰恰太出色了。在長期、真實、具有足夠容量的策略中，夏普比率持續超過約1.2是極為罕見的。短窗口的夏普比率2，通常源於選擇性偏差（倖存者效應）、數據不足（過度擬合），或隱藏的尾部風險（即將爆倉）。

「夏普比率越高，風險越低。」 夏普比率越高，代表每單位可量化風險所獲得的超額回報越好。若風險量度（標準差）未能捕捉肥尾風險，表面上的夏普比率具有誤導性——波動性尾部主宰一切。

「Calmar比率比夏普比率更公平，因為它使用真實回撤。」 Calmar比率依賴於樣本期。一個業績記錄中從未遇上危機的策略，其Calmar比率會被人為抬高。正確的比較方法是在包含壓力時期的相同窗口下計算Calmar比率。

「索提諾比率衡量技巧。」 索提諾比率衡量的是回報形態，而非技巧。一個不進行任何風險管理的高槓桿做多股票倉位，在任何持續的牛市中都會有很高的索提諾比率。

「貝塔等於風險。」 貝塔等於相對於你所選市場的系統性風險。一隻相對標普500貝塔值為$\beta=0.4$的「低貝塔」股票，其相對油價的貝塔值可能達到$\beta=2$。你計算出的貝塔值完全取決於所選市場指數。

「阿爾法證明技巧。」 阿爾法證明的是在選定因子模型下無法解釋的超額回報。若你的模型未納入細價股、價值股、動量或質量因子，你讀出的阿爾法實際上只是已知的因子溢價。學術回測中的大部分「阿爾法」，在1995年後已被證明是被遺漏的因子敞口。

「信息比率與夏普比率衡量相同的東西。」 不然。夏普比率是總超額回報除以總波動性。信息比率是主動超額回報除以追蹤誤差。一個信息比率低但夏普比率高的基金經理，不過是在承擔市場貝塔。

「特雷諾比率比夏普比率更好，因為它使用貝塔。」 特雷諾比率只有在投資組合是一個更大的多元化投資組合的組成部分、且個別風險確實能夠分散掉的情況下才有意義。對於一個獨立的退休帳戶，夏普比率才是正確的指標。

「將夏普比率年化，只需乘以12。」 錯。應乘以$\sqrt{12}$。乘以12會將夏普比率誇大3.46倍，是一個典型的履歷造假信號。

「風險調整後回報是唯一重要的事。」 風險調整後回報，對於在相近絕對回報的策略中進行選擇是重要的。但年化回報12%、夏普比率0.6的策略，財富增值效果遠超年化回報4%、夏普比率1.2的策略。真正的財富積累取決於絕對回報；夏普比率只是幫助你在通往同一目的地的不同路徑中做出選擇。

4. 問答環節

問題一：描述一隻基金時，應首先引用哪個指標？ 回答一：夏普比率仍是預設選擇，對有一定金融知識的讀者而言最易理解。搭配最大回撤及索提諾比率或Calmar比率之一，讀者便能識別出積累肥尾風險的策略。在2026年只引用夏普比率是一個警示信號。

問題二：應使用哪個無風險利率？ 回答二：對於以美元計價的投資組合，應使用與你的回報數據在時間上對應的3個月國債收益率。Damodaran的年度數據表格包含此欄。年度數據系列使用年末國債利率；月度數據系列使用當期國債利率除以12。

問題三：我的月度夏普比率為0.4，年化後為1.4，為何差距這麼大？ 回答三：年化夏普比率 = 月度夏普比率 × √12 = 0.4 × 3.46 = 1.39。這是正確的。

問題四：需要多長的數據窗口，夏普比率才具有意義？ 回答四：至少3年（36個月度觀測值）。低於此數量，夏普比率的標準誤差大得驚人，這個數字基本上等同於隨機。機構資產配置決策通常需要5至10年的數據。

問題五：若我的投資組合沒有市場貝塔，特雷諾比率是否有用？ 回答五：不。當$\beta \approx 0$時，特雷諾比率在數學上不穩定（等同除以接近零的數）。對於市場中性策略，應使用夏普比率和Calmar比率。特雷諾比率適用於具有明確方向性市場敞口的子投資組合。

問題六：索提諾比率 > 夏普比率。我是否應始終偏好索提諾比率高的策略？ 回答六：大概率是的——但前提是你確認樣本包含了真實的回撤事件。趨勢跟蹤策略在持續趨勢期間的索提諾比率看起來非常出色；真正的考驗是它在震盪、均值回歸的市況下表現如何。

問題七：為何對沖基金更多引用信息比率而非夏普比率？ 回答七：因為對沖基金的有限合夥人通常以某個指數作為基準（做多做空股票策略對標標普500，市場中性策略對標國債等）。信息比率是回答「你的主動風險是否得到回報」的自然指標。夏普比率回答的是另一個問題：「你的絕對回報是否足以補償我承受的絕對波動性？」

問題八：一個投資組合可以同時有正阿爾法和負夏普比率嗎？ 回答八：可以，在壓力時期尤為如此。阿爾法只衡量超出資本資產定價模型預測之外的超額部分。若市場和你的投資組合同時虧損，但你的虧損少於資本資產定價模型根據你的貝塔所預測的水平，則阿爾法為正，而原始夏普比率卻可能為負。2008年的國債基金經理就有這樣的經歷。

問題九：如何計算一個做多做空投資組合的貝塔？ 回答九：迴歸方法相同：投資組合的月度超額回報對標普500的月度超額回報進行迴歸，斜率即為你的淨貝塔值。總貝塔值（做多貝塔與做空貝塔絕對值之和）是風險歸因中另一個獨立的敞口量度。

問題十：無風險利率接近零已有十年。這是否扭曲了夏普比率？ 回答十：這令夏普比率被高估。當$R_f \approx 0$時，原始回報等同於超額回報，因此當利率下降時，夏普比率機械性地上升。為了在不同市場環境下進行比較，應始終使用當期國債利率，而非固定假設值。

問題十一：為何標普500的滾動夏普比率波動如此劇烈？ 回答十一：因為分子與分母都隨市場環境變動。在低波動性牛市（1990年代、2010年代），分子高企而分母偏低——夏普比率急升。在滯脹（1970年代）或危機十年（2000年代），分子崩塌而分母上升——夏普比率大幅下滑。市場環境幾乎主導了所有被引用的單一數字統計量。

問題十二：陳馬會用哪個單一數字來評估自己一年的表現？ 回答十二：是兩個數字，而非一個：實現的複合年增長率與年內最大回撤。然後作理性核查：3年和10年滾動夏普比率，以判斷這一年是持續趨勢的體現，還是曇花一現。「單一比率的風險調整後回報」永遠是片面的。

第十七週：績效指標——夏普比率、索提諾比率、卡爾瑪比率、資訊比率、特雷諾比率、阿爾法與貝塔

1. 為什麼這很重要

單一報酬數字幾乎毫無意義。「我去年賺了18%」只是一句陳述，並不構成評估。它無法告訴你為了賺到這個報酬承擔了多少風險、這套策略虧損的頻率有多高，或者同一筆錢放在指數基金裡是否表現更好。專業投資人、資產配置者、盡職調查團隊，以及誠實審視自身表現的散戶，都活在風險調整後報酬的世界裡——也就是每承受一單位痛苦所換來的報酬。

你需要學習這些內容，有四個原因。

評估基金與基金經理。 全球每一份基金說明書都會引用夏普比率、最大回撤與追蹤誤差。如果你看不懂這些數字、無法直覺感受夏普比率0.4和1.2在客戶帳戶對帳單上的實際差異，你就會對平庸的基金經理付出過高代價，同時錯過真正優秀的人才。

誠實評估自己的表現。 30%的年度報酬只有在波動性低於30%的情況下才算亮眼，而且還要能證明這不是靠著30%上漲的市場所產生的純粹貝塔。少了夏普比率、索提諾比率、阿爾法與貝塔，你的年終檢討不過是在說故事。

針對不同需求選擇正確指標。 夏普比率是預設選項，但它對上行波動性與下行波動性的懲罰一視同仁。卡爾瑪比率聚焦於最大痛苦。資訊比率告訴你主動押注是否真的有所回報。特雷諾比率只看無法透過分散投資消除的系統性風險。每個指標回答的是不同的問題；用錯指標就會得到錯誤答案。

波動性尾部牽動全局。 標準差假設報酬呈常態分佈，但實際上並非如此。尾部很厚。因此，夏普比率會持續低估懲罰那些平時看起來穩定、卻偶爾爆倉的策略——例如放空波動性、非流動信用部位、槓桿套利交易。索提諾比率和卡爾瑪比率部分修正了這個問題。了解哪個指標對哪種策略有美化效果，是盡職調查中最有價值的能力。

本課程將系統梳理所有指標，對四種模型投資組合套用達摩德仁1928至2024年資料集進行完整計算，並展示不同指標的排名順序如何改變你的偏好判斷。

2. 你需要了解的內容

2.1 夏普比率——每單位總波動性所獲得的超額報酬

夏普比率是一切的基礎。比爾·夏普（1990年諾貝爾獎得主）於1966年提出這個公式，計算方式相當簡單：

$$ \text{夏普比率} = \frac{R_p - R_f}{\sigma_p} $$

分子為超額報酬——投資組合報酬減去無風險利率（3個月期國庫券）。分母為投資組合報酬的總標準差。

夏普比率回答的問題是：這個投資組合每承受一單位的總波動性，賺取了多少報酬？ 數值越高越好。以下是長期年化夏普比率的粗略基準：

夏普比率（年化）	解讀
< 0	輸給無風險利率，承擔風險卻得到負補償
0.0 - 0.3	平庸。S&P 500百年平均約為0.4
0.3 - 0.6	尚可。多數平衡型投資組合落在此區間
0.6 - 1.0	確實優秀——若屬真實且持續的表現
1.0 - 2.0	卓越。頂尖四分位的避險基金、管理良善的風險平價策略
> 2.0	可疑。不是資料窗口過短，就是隱藏的尾部風險，或是詐欺

有兩個重要的實務注意事項。

頻率換算的陷阱。 夏普比率通常以年化方式呈現。若從月報酬計算，必須乘以 $\sqrt{12}$，而非乘以12。從日報酬計算則乘以 $\sqrt{252}$。這源於月報酬彼此獨立的假設——雖然實際上並非完全如此，但業界慣例已沿用至今。月化夏普比率為0.30的策略，年化夏普比率為 $0.30 \times \sqrt{12} \approx 1.04$，而非3.6。

波動性尾部問題。 夏普比率使用 $\sigma$，這隱含報酬大致對稱分佈於平均值的假設，但事實並非如此。依常態模型計算，1987年「黑色星期一」的-22%是一個20個標準差事件——意味著在宇宙壽命內幾乎不可能發生——但它就這樣發生了。因此，夏普比率系統性地偏袒那些平時看似平穩、卻偶爾大幅崩潰的策略（放空波動性、非流動信用、槓桿套利交易）。波動性尾部牽動全局——切勿只憑夏普比率挑選基金經理。

2.2 索提諾比率——僅計算下行偏差

索提諾比率是對夏普比率的第一項修正。它以僅計算下行偏差取代總波動性：即報酬低於目標值（通常為零或無風險利率）的標準差。

$$ \text{索提諾比率} = \frac{R_p - R_f}{\sigma_d} \quad \text{其中} \quad \sigma_d = \sqrt{\frac{1}{N}\sum_{r_i < t}(r_i - t)^2} $$

在設計上，上行波動性不再拖累評分——只有虧損才會。對於正偏態策略（多次小幅虧損、偶有大幅獲利；趨勢跟隨是典型範例），索提諾比率會顯著高於夏普比率。對於負偏態策略（放空波動性、在壓路機前撿硬幣），索提諾比率則接近或低於夏普比率。

一個實用的經驗法則：當索提諾比率至少是夏普比率的1.4倍時，代表策略具有正偏態，且基金經理確實在管理下行風險。當索提諾比率僅略高於夏普比率時，表示報酬分佈對稱甚至偏負——左尾與右尾形狀相似，基金經理不過是在承擔風險而已。

2.3 卡爾瑪比率——每單位最大痛苦所獲得的報酬

卡爾瑪比率對以下問題給出了最簡潔的答案：我的報酬除以最大回撤是多少？

$$ \text{卡爾瑪比率} = \frac{\text{年化報酬}}{|\text{最大回撤}|} $$

若某策略年化報酬12%，歷史最大峰谷回撤為30%，則卡爾瑪比率為0.40。卡爾瑪比率高於0.5屬於優良；在長期樣本中高於1.0極為罕見且卓越。S&P 500自1928年以來的卡爾瑪比率約為0.10（約10%報酬 / 約86%的1929-32年回撤）。

卡爾瑪比率的優勢在於：它聚焦於每位投資人真正在乎的單一數字——他們需要撐過的最大虧損。劣勢在於：它取決於樣本窗口。2010年成立、從未經歷2008年的策略，卡爾瑪比率會顯得過度亮眼；而績效紀錄恰好從危機前開始的策略，看起來則比實際更差。務必追問：這個卡爾瑪比率是否涵蓋了最惡劣的市場環境？

2.4 資訊比率——每單位追蹤誤差所獲得的主動報酬

對於聲稱能超越特定基準的主動型基金經理，單憑夏普比率並不足夠。正確的問題是：每承受一單位偏離基準的風險，你能創造多少額外報酬？

資訊比率的公式為：

$$ \text{資訊比率} = \frac{R_p - R_b}{\sigma(R_p - R_b)} = \frac{\text{主動報酬}}{\text{追蹤誤差}} $$

分子為主動報酬（你的報酬減去基準報酬）。分母為追蹤誤差（兩者差值的標準差）。一位追蹤誤差低、主動報酬小幅正值的假指數化基金經理，可能擁有較高的資訊比率；而一位主動報酬與追蹤誤差都很大的激進選股者，資訊比率反而可能平庸。

業界速查標準：

資訊比率 < 0.0：表現遜於基準，解僱基金經理。
資訊比率 = 0.5：機構主動型基金經理的頂尖四分位水準。
資訊比率 = 1.0：頂尖十分位，真正優秀。
資訊比率 > 2.0：極為罕見，務必深入了解策略細節。

資訊比率是每位退休基金顧問評鑑主動型基金經理所使用的指標。只要你支付的費用高於被動式管理，就應該了解自己的資訊比率。

2.5 特雷諾比率——每單位貝塔所獲得的超額報酬

夏普比率除以總風險，特雷諾比率則只除以系統性風險——即無法透過分散投資消除的部分：

$$ \text{特雷諾比率} = \frac{R_p - R_f}{\beta_p} $$

其中 $\beta_p$ 是將投資組合報酬對市場報酬進行迴歸所得的斜率。一個 $\beta = 1$、超額報酬12%的分散股票子投資組合，特雷諾比率為0.12。市場中性基金的 $\beta \approx 0$，導致除以接近零的數，特雷諾比率無意義或趨近無窮大——這提示你特雷諾比率並不適合避險策略。

當你在評估較大投資帳簿中的子投資組合時使用特雷諾比率——例如判斷股票部位中40%的科技股是否賺取了足夠的市場曝險補償，同時忽略在母部位層級已分散掉的非系統性波動。當你評估獨立投資時，則應使用夏普比率。

2.6 詹森阿爾法與貝塔——源自資本資產定價模型迴歸

貝塔與阿爾法都來自同一條方程式：超額報酬的資本資產定價模型迴歸：

$$ R_p - R_f = \alpha + \beta (R_m - R_f) + \varepsilon $$

將你的月報酬對S&P 500月報酬進行迴歸，即可得到：

$\beta$ 為斜率。它告訴你市場每波動一單位，你的投資組合會移動多少。$\beta = 1.2$ 意味著市場下跌1%，你大約下跌1.2%。
$\alpha$ 為截距。它代表你的超越部分——超過資本資產定價模型依據你所承擔的貝塔曝險所預期報酬的額外收益。以年化計算，阿爾法是聖杯。

幾個誠實的現實：

多數散戶策略的阿爾法在統計上與零無異。阿爾法很稀罕。對於不足60個月度觀測值的阿爾法估計，請視為極度不可靠的雜訊。

就風險分解而言，貝塔往往比阿爾法更有用。若 $\beta = 1.4$，你所謂的「選股」其實是1.4倍的S&P 500槓桿加上一些雜訊；這個槓桿倍數解釋了淨值曲線大部分的波動。

阿爾法在短期窗口內可能因運氣而持續存在。它也可能因未揭露的因子曝險（小型股、價值股、低波動性、動能）而持續存在。現代歸因分析會先剔除這些因子，才宣稱「阿爾法」的存在。

本課末尾的互動工具可讓你即時繪製資本資產定價模型散點圖：投資組合月超額報酬對S&P 500月超額報酬，其中 $\alpha$ 為截距，$\beta$ 為斜率。

2.7 各指標的分歧，是刻意設計的結果

之所以存在五個以上的比率，是因為它們各自強調報酬分佈的不同面向。下方圖表以達摩德仁1928至2024年資料，對四種典型投資組合分別計算夏普比率、索提諾比率、卡爾瑪比率與特雷諾比率：

一個2×2長條圖矩陣，顯示四種風險調整指標在四種模型投資組合（100%股票、60/40、30/70、100%債券）的比較結果，以達摩德仁1928至2024年資料計算。每個指標面板對投資組合的排名各不相同。夏普比率偏好60/40組合；卡爾瑪比率對100%股票嚴重懲罰，因1929至32年的大回撤所致；特雷諾比率對重債券的投資組合因其股票貝塔極小而無意義或出現極端值。視覺重點：選用不同指標，得出不同贏家。

請注意：以夏普比率衡量，60/40組合得分最高，因為波動性的相關性折扣（第4週）提升了分母效果。以卡爾瑪比率衡量，全債券組合勝出，因為在樣本期間內，債券的最大回撤比1929至32年的股票損失更淺。以特雷諾比率衡量，全股票投資組合看起來表現尚可，因為貝塔在定義上等於1——但債券投資組合的特雷諾比率以股票貝塔計算，結果並不可靠。相同資料，四種不同排名。

這不是缺陷，而是全部的重點所在。一份有說服力的投資組合評估報告，至少應呈現三個指標，並說明它們在哪些地方一致、在哪些地方分歧。

2.8 夏普比率隨時間的變化——市場環境的故事

即使是同一資產，夏普比率也並非常數。下圖為S&P 500相對3個月期國庫券的滾動10年夏普比率，自1937年至今：

S&P 500相對3個月期國庫券的滾動10年夏普比率，1937至2024年，以達摩德仁年度資料計算。曲線在約0.0（1970年代停滯性通膨時期）至近1.5（後金融海嘯2010年代）之間大幅震盪，中間在2002年及2009年附近出現低谷。此圖說明為何從單一十年窗口擷取的簡單夏普比率引用並不可靠：市場環境決定了這個數字。

這條曲線波動劇烈。在1970年代，10年窗口的超過國庫券報酬約為零，夏普比率接近0.0。在1980至1990年代的順風期，夏普比率攀升至1.0以上。2000年代的雙重失落十年（科技泡沫加上全球金融海嘯）將其推回接近零。2010年代在量化寬鬆驅動的本益比擴張下，重新回升至約1.5。

結論：當有人引用「S&P 500的長期夏普比率為X」時，務必追問：這是哪個窗口期的X。 1980至2020年的環境屬於異常——其夏普比率亦然。

3. 常見迷思

「夏普比率2很棒。」 這個數字「太」高了。真實、長期、具承載量的夏普比率超過約1.2極為罕見。短窗口夏普比率達到2，通常可分解為選擇偏誤（僅看倖存者）、資料不足（過度擬合），或隱藏的尾部風險（即將爆倉）。

「夏普比率越高，風險越低。」 夏普比率越高，代表每單位被衡量到的風險所獲得的超額報酬越高。若風險衡量標準（標準差）遺漏了厚尾效應，表觀夏普比率就是謊言——波動性尾部牽動全局。

「卡爾瑪比率比夏普比率更公平，因為它使用真實回撤。」 卡爾瑪比率依賴於樣本窗口。績效紀錄中沒有遭遇危機的策略，卡爾瑪比率會人為偏高。正確的比較方式是在包含壓力時期的共同窗口下計算卡爾瑪比率。

「索提諾比率獎勵技巧。」 索提諾比率獎勵的是報酬形態，而非技巧。任何持續多頭市場中，未做風險管理的高槓桿純多頭股票部位都會有高索提諾比率。

「貝塔等於風險。」 貝塔等於對你所迴歸之市場的系統性風險。相對S&P 500的 $\beta=0.4$ 「低貝塔」股票，對油價的貝塔可能高達2。你計算出的貝塔完全取決於所選的市場指數。

「阿爾法證明有技巧。」 阿爾法證明的是在特定因子模型下無法解釋的超額報酬。若你的模型遺漏了小型股、價值股、動能或品質因子，你讀到的阿爾法其實只是已知的因子溢酬。1995年前學術回測中的大多數「阿爾法」，此後已被證明是被遺漏的因子曝險。

「資訊比率衡量的與夏普比率相同。」 不同。夏普比率是總超額報酬除以總波動性；資訊比率是主動超額報酬除以追蹤誤差。資訊比率低但夏普比率高的基金經理，只是在吃市場貝塔。

「特雷諾比率因為使用貝塔，所以比夏普比率更好。」 特雷諾比率只有在投資組合是較大分散帳簿的一部分、且非系統性風險確實能夠分散掉的情況下才有意義。對於獨立的退休帳戶，夏普比率才是正確的指標。

「年化夏普比率等於月化夏普比率乘以12。」 不。應乘以 $\sqrt{12}$。乘以12會將夏普比率膨脹3.46倍，是一種典型的履歷造假訊號。

「風險調整後報酬是唯一重要的事。」 風險調整後報酬的作用在於比較絕對報酬相近的策略之間的優劣。但12%報酬下夏普比率0.6的策略，財富累積速度遠超過4%報酬下夏普比率1.2的策略。真實財富建立在絕對報酬之上；夏普比率只是幫助你在通往同一目標的兩條路中做選擇。

4. 問答章節

Q1. 描述一檔基金時，應該優先引用哪個指標？ A1. 夏普比率仍是預設選項，對有基礎的讀者而言最易理解。搭配最大回撤，以及索提諾比率或卡爾瑪比率擇一，讓讀者能辨識厚尾策略。2026年還只引用夏普比率，是個黃色警示訊號。

Q2. 應該使用什麼無風險利率？ A2. 對美元計價的投資組合而言，使用與報酬序列時間對應的3個月期國庫券殖利率。達摩德仁的年度資料表中包含此欄位。年化序列使用年末國庫券利率；月化序列使用當期國庫券利率除以12。

Q3. 我的月化夏普比率是0.4，年化是1.4，為何差距這麼大？ A3. 年化夏普比率 = 月化夏普比率 × √12 = 0.4 × 3.46 = 1.39，這是正確的結果。

Q4. 夏普比率要有多長的窗口才有意義？ A4. 至少3年（36個月度觀測值）。低於此數，夏普比率的標準誤差大到數字幾乎沒有意義。機構資產配置決策通常要求5至10年的樣本。

Q5. 若我的投資組合幾乎沒有市場貝塔，特雷諾比率有用嗎？ A5. 沒有。$\beta \approx 0$ 時的特雷諾比率在數學上不穩定（除以接近零的數）。對市場中性策略，應使用夏普比率和卡爾瑪比率。特雷諾比率適用於具有明確方向性市場曝險的子投資組合。

Q6. 索提諾比率 > 夏普比率，我是否應該總是偏好索提諾比率高的策略？ A6. 可能是——但前提是確認樣本包含真實的回撤事件。趨勢跟隨策略在持續趨勢中的索提諾比率看起來很漂亮；真正的考驗是在震盪均值回歸的環境下表現如何。

Q7. 為何避險基金引用資訊比率多於夏普比率？ A7. 因為避險基金的有限合夥人通常以指數為基準（股票多空對照S&P 500，市場中性對照國庫券等）。資訊比率是回答「你的主動風險是否得到了回報？」的自然指標。夏普比率回答的是不同問題：「你的絕對報酬是否補償了我所承受的絕對波動性？」

Q8. 投資組合可以有正阿爾法但負夏普比率嗎？ A8. 可以，在壓力時期就會如此。阿爾法只衡量超越資本資產定價模型預期的部分。若市場和你的投資組合都在虧損，但你虧損的幅度小於依據貝塔所預期的虧損，阿爾法為正，但原始夏普比率為負。2008年的國庫券管理人就有這樣的經驗。

Q9. 如何計算多空投資組合的貝塔？ A9. 使用相同的迴歸方式：投資組合的月超額報酬對S&P 500的月超額報酬進行迴歸，斜率即為你的淨貝塔。總貝塔（多頭貝塔與空頭貝塔絕對值的總和）是風險歸因中的另一項曝險衡量指標。

Q10. 無風險利率近十年接近於零，這會扭曲夏普比率嗎？ A10. 會使其膨脹。當 $R_f \approx 0$ 時，原始報酬約等於超額報酬，因此利率下降時夏普比率機械性地上升。若要跨環境比較，務必使用當期國庫券利率，而非固定假設值。

Q11. 為何S&P 500的滾動夏普比率波動如此劇烈？ A11. 因為分子與分母都隨市場環境移動。在低波動性的多頭市場（1990年代、2010年代），分子高、分母低——夏普比率大幅攀升。在停滯性通膨（1970年代）或危機十年（2000年代），分子崩潰、分母上升——夏普比率跌落谷底。市場環境幾乎決定了所有單一數字統計量。

Q12. 陳馬會用哪個單一數字評估自己的年度表現？ A12. 兩個數字，而非一個：實現的年複合成長率與年內最大回撤。再做一個合理性檢查：3年與10年滾動夏普比率，以判斷這一年是趨勢延續還是曇花一現。「風險調整後報酬」以單一比率呈現，永遠是片面的。

第十七周：业绩指标——夏普比率、索提诺比率、卡玛比率、信息比率、特雷诺比率、阿尔法与贝塔

1. 为何这一内容至关重要

单独的收益数字几乎毫无意义。"我去年赚了18%"只是一句陈述，而非一个评价。它没有告诉你为了获得这一收益承担了多少风险，策略亏损的频率，或者同样的本金投入指数基金会不会表现更好。专业投资者、资产配置人、尽职调查团队，以及能够客观评估自身的个人投资者，都生活在风险调整后收益的世界里——即每承担一单位"痛苦"所获得的回报。

学习这一内容有四个理由。

评估基金和管理人。 全球每一份基金说明书都会引用夏普比率、最大回撤和跟踪误差。如果你看不懂这些数字，无法直观感受夏普比率0.4与1.2的实际差异——它们对客户账户报表意味着什么——你就会为平庸的管理人支付过高费用，同时错过真正优秀的人才。

客观评估自己。 只有当你承担的波动性低于30%才算赚得了30%的年收益，而且还要证明这并非单纯依靠30%的市场贝塔。没有夏普比率、索提诺比率、阿尔法和贝塔，你的年终总结不过是自说自话。

针对不同问题选择正确指标。 夏普比率是默认选项，但它对上行波动性和下行波动性一视同仁。卡玛比率聚焦于最大痛苦。信息比率衡量你的主动押注是否真正带来了回报。特雷诺比率仅关注你无法通过分散投资消除的系统性风险。每个指标回答的是不同的问题；用错指标就会得出错误答案。

波动性的尾部左右全局。 标准差假设收益服从正态分布，而实际并非如此。尾部是肥尾。因此夏普比率会系统性地低估惩罚那些平时看似平稳、偶尔爆仓的策略——例如做空波动性、持有流动性差的信用资产、带杠杆的套利策略。索提诺比率和卡玛比率在一定程度上弥补了这一缺陷。了解哪个指标会让哪种策略显得更好看，是尽职调查中大部分阿尔法的来源所在。

本课将梳理完整的指标体系，对四个模型投资组合在达摩达兰1928—2024年数据集上运行每个指标，并展示不同指标的排名如何颠覆你的选择偏好。

2. 你需要掌握的内容

2.1 夏普比率——每单位总波动性的超额收益

夏普比率是一切的基础。比尔·夏普（1990年诺贝尔奖得主）于1966年提出这一公式，计算方法简单明了：

$$ \text{夏普比率} = \frac{R_p - R_f}{\sigma_p} $$

分子：超额收益——你的投资组合收益率减去无风险利率（3个月国债）。分母：你的投资组合收益率的总标准差。

夏普比率回答的问题是：该投资组合每承担一单位总波动性，获得了多少收益？ 数值越高越好。以下是长期年化夏普比率的粗略参考基准：

夏普比率（年化）	解读
< 0	跑输无风险利率，承担风险却得到负补偿。
0.0 - 0.3	平庸。标普500指数过去一个世纪平均约为0.4。
0.3 - 0.6	尚可。大多数均衡型投资组合处于此区间。
0.6 - 1.0	真正优秀——若确实真实且持续。
1.0 - 2.0	卓越。排名前四分之一的对冲基金、运营良好的风险平价策略。
> 2.0	存疑。要么数据窗口过短，要么隐藏尾部风险，要么存在欺诈。

以下两点在实践中尤为重要。

频率换算陷阱。 夏普比率通常以年化形式呈现。如果你从月度收益计算，必须乘以$\sqrt{12}$，而非12。从日度收益计算，则乘以$\sqrt{252}$。这基于月度收益相互独立的假设——虽然并不完全成立，但这一惯例已广泛采用。月度夏普比率为0.30的策略，年化夏普比率为$0.30 \times \sqrt{12} \approx 1.04$，而非3.6。

肥尾问题。 夏普比率使用$\sigma$，即假设收益大致围绕均值对称分布。而实际并非如此。1987年"黑色星期一"的-22%在正态模型下属于20个标准差的事件——意味着在宇宙的寿命内都不应该发生，然而它确实发生了。因此，夏普比率会系统性地奖励那些平时表现平稳、偶发暴雷的策略（做空波动性、流动性差的信用资产、带杠杆的套利）。波动性的尾部左右全局——切勿仅凭夏普比率来挑选管理人。

2.2 索提诺比率——仅考虑下行偏差

索提诺比率是对夏普比率的第一次修正。它用仅计算下行偏差取代总波动性：即收益率低于目标值（通常为零或无风险利率）时的标准差。

$$ \text{索提诺比率} = \frac{R_p - R_f}{\sigma_d} \quad \text{其中} \quad \sigma_d = \sqrt{\frac{1}{N}\sum_{r_i < t}(r_i - t)^2} $$

从设计上看，上行波动性不再拉低你的得分——只有亏损才会。对于正偏态策略（大量小亏损、偶发大盈利；趋势跟踪是典型案例），索提诺比率将明显高于夏普比率。对于负偏态策略（做空波动性、在压路机前捡硬币），索提诺比率与夏普比率相近甚至更低。

一条实用经验法则：当索提诺比率至少是夏普比率的1.4倍时，该策略具有正偏态，管理人确实在管控下行风险。当索提诺比率与夏普比率相差无几时，收益分布是对称的甚至更差——左尾和右尾形态相似，管理人只是在承担风险而已。

2.3 卡玛比率——每单位最大痛苦所获得的收益

卡玛比率对以下问题给出了最简洁的回答：我的收益除以最大回撤是多少？

$$ \text{卡玛比率} = \frac{\text{年化收益率}}{|\text{最大回撤}|} $$

如果一个策略年化收益率为12%，历史最大峰谷回撤为30%，则卡玛比率为0.40。卡玛比率高于0.5属于良好水平；在较长样本期内高于1.0则属罕见且卓越。标普500指数自1928年以来的卡玛比率约为0.10（约10%收益率/约86%的1929—1932年回撤）。

卡玛比率的优势在于：它聚焦于每位投资者真正关心的单一数字——他们所经历的最大亏损。其弱点在于：它取决于样本窗口。一个2010年成立、从未经历2008年危机的策略，卡玛比率会显得虚高；而恰好在危机前开始运行的策略，看起来会比实际更差。务必追问：这个卡玛比率是否包含了最恶劣的市场环境？

2.4 信息比率——每单位跟踪误差的主动收益

对于主动管理人——即声称能够超越特定基准的管理人——单独使用夏普比率是不够的。正确的问题是：每偏离基准一单位，你能产生多少额外收益？

信息比率的计算公式为：

$$ \text{信息比率} = \frac{R_p - R_b}{\sigma(R_p - R_b)} = \frac{\text{主动收益}}{\text{跟踪误差}} $$

分子：主动收益（你的收益率减去基准收益率）。分母：跟踪误差（两者差值的标准差）。跟踪误差低、主动收益小幅为正的"隐形指数基金"可以拥有较高的信息比率；而主动收益高、跟踪误差也高的激进选股者，信息比率可能平平无奇。

行业通行标准：

信息比率 < 0.0：跑输基准。应解雇该管理人。
信息比率 = 0.5：机构主动管理人的前四分之一水平。
信息比率 = 1.0：前十分位，真正卓越。
信息比率 > 2.0：极为罕见；务必要求详细了解策略细节。

信息比率是每位养老金顾问用来评估主动管理人的核心指标。如果你支付的费率高于被动管理，就应该了解自己的信息比率。

2.5 特雷诺比率——每单位贝塔的超额收益

夏普比率除以总风险，而特雷诺比率只除以系统性风险——即你无法通过分散投资消除的那部分：

$$ \text{特雷诺比率} = \frac{R_p - R_f}{\beta_p} $$

其中$\beta_p$是你的投资组合收益率对市场收益率进行回归所得到的斜率。一个$\beta = 1$、超额收益为12%的多元化股票子投资组合，特雷诺比率为0.12。$\beta \approx 0$的市场中性基金会产生近似除以零的情况——特雷诺比率无意义或趋向无穷大，这提示特雷诺比率并非适合对冲策略的指标。

当你在一个更大的投资组合内评估某个子投资组合时，应使用特雷诺比率——例如，判断你股票仓位中40%的科技股是否为其市场风险敞口赚取了足够收益，而忽略那些在母组合层面已被分散化消除的非系统性噪音。评估独立投资时，则应使用夏普比率。

2.6 詹森阿尔法与贝塔——来自CAPM回归

贝塔和阿尔法均来自同一个方程：超额收益的CAPM回归：

$$ R_p - R_f = \alpha + \beta (R_m - R_f) + \varepsilon $$

对你的月度收益率与标普500指数月度收益率进行回归，可得：

$\beta$为斜率，告诉你市场每变动一单位，你的投资组合会变动多少。$\beta = 1.2$意味着市场下跌1%会拖累你下跌约1.2%。
$\alpha$为截距，即你在CAPM基于贝塔敞口所预测的收益之上额外赚取的部分。年化后的阿尔法是投资者梦寐以求的终极目标。

几点诚实的现实认知：

大多数个人投资者的策略，其阿尔法在统计上与零无异。阿尔法极为稀缺。对于观测期不足60个月的任何阿尔法估计值，都应视为极高噪音。

贝塔在风险分解方面往往比阿尔法更有价值。如果$\beta = 1.4$，你的"选股"实际上是1.4倍标普500杠杆加上一些噪音；这个杠杆倍数解释了权益曲线上发生的绝大部分变动。

阿尔法可能在短期内因运气而持续存在。它也可能因未披露的因子敞口而持续存在（小盘股、价值、低波动性、动量）。现代业绩归因在宣称"阿尔法"之前，会先剥离这些已知因子。

本课末尾的互动工具允许你实时绘制CAPM散点图：投资组合月度超额收益对标普500超额收益，$\alpha$为截距，$\beta$为斜率。

2.7 指标之间的分歧——有意为之

存在五种以上比率的全部原因在于，它们强调收益分布的不同部分。下图对四个典型投资组合使用达摩达兰1928—2024年数据，分别运行夏普比率、索提诺比率、卡玛比率和特雷诺比率：

一个2×2柱状图网格，展示四个风险调整后指标在四个模型投资组合（100%股票、60/40、30/70、100%债券）上的表现，基于达摩达兰1928—2024年数据。每个指标面板对投资组合的排名各不相同。夏普比率青睐60/40组合；卡玛比率对100%股票组合惩罚最重，因为1929—1932年的回撤最大；特雷诺比率对重债券组合无意义或极端，因为其股票贝塔较小。核心要点：换一个指标，就会得出不同的

注意：从夏普比率看，60/40组合得分最高，因为波动性上的相关性折扣（第4周）提升了分母的分母。从卡玛比率看，全债券组合胜出，因为该样本中债券系列的最大回撤浅于1929—1932年的股票损失。从特雷诺比率对股票贝塔的角度看，全股票投资组合表现尚可，因为贝塔按构造等于1——但债券投资组合的特雷诺比率是基于股票贝塔计算的，结果显得不可靠。数据相同，排名却各异。

这不是缺陷，而恰恰是关键所在。一份可信的投资组合评估报告应至少呈现三个指标，并解释它们在哪些地方一致、在哪些地方存在分歧。

2.8 夏普比率随时间的演变——市场环境的故事

即便对于单一资产，夏普比率也不是一个常数。下图是标普500指数（超过3个月国债）自1937年以来的滚动10年夏普比率：

标普500指数超过3个月国债的滚动10年夏普比率，1937—2024年，基于达摩达兰年度数据计算。该线在1970年代滞胀时期约为0.0，在2010年代后金融危机时期接近1.5之间大幅震荡，2002年和2009年前后出现中间低谷。该图直观呈现了为何从单一十年得出的夏普比率引用并不可靠：市场环境决定了这一数字。

这条线波动剧烈。1970年代，10年窗口内超额收益约为零，夏普比率接近0.0。1980至1990年代的顺风期，夏普比率攀升至1.0以上。2000年代双重失落的十年（互联网泡沫+金融危机）将其打回接近零的位置。2010年代在量化宽松驱动的估值扩张支撑下，夏普比率又重建至约1.5。

结论：当有人引用"标普500的长期夏普比率是X"时，务必追问：X是在哪个窗口计算的？ 1980—2020年的市场环境是异常的——它的夏普比率同样如此。

3. 常见误区

"夏普比率2.0很厉害。" 这个数字太厉害了。真实、长期、具有规模承载能力的夏普比率超过约1.2极为罕见。短窗口夏普比率为2.0通常可分解为以下几种情况：选择性偏差（幸存者）、数据过短（过度拟合），或隐藏尾部风险（即将爆仓）。

"夏普比率越高=风险越低。" 夏普比率越高=每单位已测量风险的超额收益越好。如果风险度量（标准差）遗漏了肥尾，表观夏普比率就是虚假的——波动性的尾部左右全局。

"卡玛比率比夏普比率更公平，因为它使用真实回撤。" 卡玛比率依赖样本选取。历史上未经历危机的策略，卡玛比率会人为偏高。正确的比较方式是在包含压力时期的相同窗口内计算卡玛比率。

"索提诺比率奖励的是投资技能。" 索提诺比率奖励的是收益形态，而非技能。任何在持续牛市中没有风险管理的带杠杆纯多头股票账户，都会拥有较高的索提诺比率。

"贝塔=风险。" 贝塔=对你所回归的市场的系统性风险。标普500贝塔为0.4的"低贝塔"股票，其对油价的贝塔可能高达2。你计算出的贝塔完全取决于所选择的市场指数。

"阿尔法证明了投资技能。" 阿尔法证明的是在给定因子模型下无法解释的超额收益。如果你的模型遗漏了小盘股、价值、动量或质量因子，你所读出的阿尔法实际上只是已知的因子溢价。学术回测中1995年以前大部分"阿尔法"，此后已被证实是遗漏因子敞口。

"信息比率衡量的与夏普比率相同。" 不对——夏普比率是总超额收益除以总波动性，信息比率是主动超额收益除以跟踪误差。信息比率低但夏普比率高的管理人，不过是在承担市场贝塔。

"特雷诺比率因为使用贝塔所以优于夏普比率。" 特雷诺比率仅在投资组合是更大多元化账户的一部分（非系统性风险确实已被分散化消除）时才有意义。对于独立的退休账户，夏普比率才是正确指标。

"年化夏普比率等于月度夏普比率乘以12。" 错误。应乘以$\sqrt{12}$。乘以12会将夏普比率虚增3.46倍，是简历造假的经典信号。

"风险调整后收益是唯一重要的事。" 风险调整后收益在比较绝对收益相近的策略时才有意义。但夏普比率为0.6、年化收益率12%的策略，其财富积累速度远超夏普比率为1.2、年化收益率4%的策略。真正的财富由绝对收益构建；夏普比率只是帮你在通往相同终点的两条路之间做出选择。

4. 问答环节

Q1. 介绍基金时，我应该首先引用哪个指标？ A1. 夏普比率仍然是默认选项，也是最易于理解的指标。搭配最大回撤以及索提诺比率或卡玛比率中的一个，使读者能够识别肥尾策略。在2026年仅引用夏普比率是一个警示信号。

Q2. 我应该使用哪个无风险利率？ A2. 对于以美元计价的投资组合，使用与收益率序列在时间上匹配的3个月国债收益率。达摩达兰的年度表格包含此列数据。年度序列使用年末国债利率；月度序列使用当期国债利率除以12。

Q3. 我的月度夏普比率为0.4，年化后为1.4，为什么差距这么大？ A3. 年化夏普比率 = 月度夏普比率 × √12 = 0.4 × 3.46 = 1.39，计算正确。

Q4. 夏普比率有意义，需要多长的时间窗口？ A4. 至少3年（36个月观测值）。低于此水平，夏普比率的标准误差大到数字几乎没有参考价值。机构资产配置决策通常需要5到10年的数据。

Q5. 如果我的投资组合没有市场贝塔，特雷诺比率有用吗？ A5. 没用。$\beta \approx 0$时特雷诺比率在数学上不稳定（近似除以零）。对于市场中性策略，应使用夏普比率和卡玛比率。特雷诺比率适用于具有明确市场方向性敞口的子投资组合。

Q6. 索提诺比率 > 夏普比率，我是否应该总是偏好高索提诺比率的策略？ A6. 大概率是的——但前提是要确认样本包含了真实的回撤事件。趋势跟踪策略在持续趋势行情中，索提诺比率看起来非常漂亮；真正的考验是它在震荡均值回归行情中的表现。

Q7. 为什么对冲基金更多引用信息比率而非夏普比率？ A7. 因为对冲基金的有限合伙人通常以某个指数作为基准（多空股票对标标普500，市场中性对标国债等）。信息比率是回答"你的主动风险是否得到了回报"的自然指标。夏普比率回答的是另一个问题："你的绝对收益是否补偿了我的绝对波动性？"

Q8. 投资组合可能在阿尔法为正的情况下，夏普比率为负吗？ A8. 可以，在压力时期会出现这种情况。阿尔法只衡量超出CAPM预测的部分。如果市场和你的投资组合都在亏损，但你亏损的幅度少于CAPM根据你的贝塔所预测的损失，阿尔法为正而原始夏普比率为负是完全可能的。2008年的国债管理人就经历过这种情况。

Q9. 如何计算多空投资组合的贝塔？ A9. 回归方式相同：投资组合月度超额收益对标普500月度超额收益进行回归，斜率即为净贝塔。总贝塔（多头贝塔加上空头贝塔绝对值之和）是用于风险归因的另一个独立敞口指标。

Q10. 无风险利率近十年接近零，这会扭曲夏普比率吗？ A10. 会导致夏普比率虚高。当$R_f \approx 0$时，原始收益率等于超额收益率，因此利率下降时夏普比率会机械性上升。为了进行跨时期比较，务必使用同期国债利率，而非固定假设值。

Q11. 为什么标普500的滚动夏普比率波动如此剧烈？ A11. 因为分子和分母都随市场环境变化。在低波动性牛市中（1990年代、2010年代），分子高、分母低——夏普比率急剧攀升。在滞胀时期（1970年代）或危机十年（2000年代），分子崩塌、分母上升——夏普比率暴跌。市场环境几乎决定了所有单一数字统计指标的表现。

Q12. 陳馬会用哪个单一数字来评估自己的年度表现？ A12. 两个数字，而非一个：实现的复合年均增长率和年内最大回撤。然后做一个理智检验：观察3年和10年滚动窗口的夏普比率，判断这一年是符合趋势还是昙花一现。"风险调整后收益"用单一比率表达，永远是片面的。