Skip to content

Commit

Permalink
aggregate by group (total and categories) (#2643)
Browse files Browse the repository at this point in the history
  • Loading branch information
bzantium authored Jan 21, 2025
1 parent ed9c6fc commit b2c090c
Show file tree
Hide file tree
Showing 204 changed files with 442 additions and 105 deletions.
3 changes: 0 additions & 3 deletions lm_eval/tasks/kmmlu/cot_hard/_cot_kmmlu_yaml
Original file line number Diff line number Diff line change
@@ -1,6 +1,3 @@
tag:
- kmmlu
- kmmlu_hard_cot
dataset_path: HAERAE-HUB/KMMLU-HARD
output_type: generate_until
validation_split: dev # not meant to be used, only here to silence warnings
Expand Down
11 changes: 11 additions & 0 deletions lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard.yaml
Original file line number Diff line number Diff line change
@@ -0,0 +1,11 @@
group: kmmlu_cot_hard
task:
- kmmlu_cot_hard_stem
- kmmlu_cot_hard_other
- kmmlu_cot_hard_applied_science
- kmmlu_cot_hard_humss
aggregate_metric_list:
- metric: exact_match
weight_by_size: True
metadata:
version: 2.0
Original file line number Diff line number Diff line change
@@ -0,0 +1,8 @@
group: kmmlu_cot_hard_applied_science
task:
- kmmlu_cot_hard_applied_science_tasks
aggregate_metric_list:
- metric: exact_match
weight_by_size: True
metadata:
version: 2.0
8 changes: 8 additions & 0 deletions lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_humss.yaml
Original file line number Diff line number Diff line change
@@ -0,0 +1,8 @@
group: kmmlu_cot_hard_humss
task:
- kmmlu_cot_hard_humss_tasks
aggregate_metric_list:
- metric: exact_match
weight_by_size: True
metadata:
version: 2.0
8 changes: 8 additions & 0 deletions lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_other.yaml
Original file line number Diff line number Diff line change
@@ -0,0 +1,8 @@
group: kmmlu_cot_hard_other
task:
- kmmlu_cot_hard_other_tasks
aggregate_metric_list:
- metric: exact_match
weight_by_size: True
metadata:
version: 2.0
8 changes: 8 additions & 0 deletions lm_eval/tasks/kmmlu/cot_hard/_kmmlu_cot_hard_stem.yaml
Original file line number Diff line number Diff line change
@@ -0,0 +1,8 @@
group: kmmlu_cot_hard_stem
task:
- kmmlu_cot_hard_stem_tasks
aggregate_metric_list:
- metric: exact_match
weight_by_size: True
metadata:
version: 2.0
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_accounting.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -78,4 +78,5 @@ fewshot_config:
당기순이익은 과소 계상됩니다. 왜냐하면 매출원가가 더 높아지면 이익은 줄어들기 때문입니다. , 상품재고액을 과대 계상한 경우 매출원가는
과대 계상되고, 당기순이익은 과소 계상됩니다. '따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_accounting
task: kmmlu_cot_hard_accounting
tag: kmmlu_cot_hard_humss_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -80,4 +80,5 @@ fewshot_config:
각 선택지를 분석한 결과 (C) 선택지인 '감자의 바이러스 병을 막기 위해 평지에서 채종한다.'가 가장 잘못된 방법으로 보입니다. 이는
감자의 바이러스 병 예방과 평지에서의 채종 사이에 직접적인 연관성이 없기 때문입니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_agricultural_sciences
task: kmmlu_cot_hard_agricultural_sciences
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -85,4 +85,5 @@ fewshot_config:
(D) 옆놀이의 안정성 향상을 위해서는 트위스트가 중요한 역할을 합니다. 트위스트는 날개 팁 부분의 각도를 조절하여, 항공기가 고속에서도
안정적으로 비행할 수 있도록 돕습니다. 따라서, 정답은 (D) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_aviation_engineering_and_maintenance
task: kmmlu_cot_hard_aviation_engineering_and_maintenance
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_biology.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -80,4 +80,5 @@ fewshot_config:
없어야 합니다. 이러한 조건을 충족하는 미생물은 절대호산성 미생물입니다. 절대호산성 미생물은 극도로 산성 환경에서만 생존할 수 있으며,
중성 또는 알칼리성 환경에서는 성장할 수 없습니다. 따라서, 정답은 (A) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_biology
task: kmmlu_cot_hard_biology
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -87,4 +87,5 @@ fewshot_config:
압력, V는 부피입니다. W = -P1Vln(P2/P1) = -(10×10^5 Pa)(0.05m^3)ln((1×10^5 Pa)/(10×10^5
Pa)) = 0입니다. 따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_chemical_engineering
task: kmmlu_cot_hard_chemical_engineering
tag: kmmlu_cot_hard_stem_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_chemistry.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -76,4 +76,5 @@ fewshot_config:
황산의 분자량은 98g/mol입니다. 황산의 몰 수는 49g ÷ 98g/mol = 0.5mol입니다. 이 수용액의 물 농도는 0.5mol/1L
= 0.5M입니다. 따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_chemistry
task: kmmlu_cot_hard_chemistry
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -97,4 +97,5 @@ fewshot_config:
것이며, 이 계약은 미국의 근대도시계획 성립기에 지역제의 바탕이 된 제도는 (A) 협약(covenant)이 가장 적절한 선택입니다. 따라서,
정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_civil_engineering
task: kmmlu_cot_hard_civil_engineering
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -96,4 +96,5 @@ fewshot_config:
주어진 설명에서 언급된 감사 추적(Auditing)이나 Shadow Password와 같은 부가적인 기능보다는 사용자 간 침범 차단과 사용자별
파일 권한 설정에 초점을 맞춘 것으로 정의됩니다. 따라서, 정답은 (B) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_computer_science
task: kmmlu_cot_hard_computer_science
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -83,4 +83,5 @@ fewshot_config:
압축비가 9입니다. 이를 식에 대입하여 연소실 체적을 계산해 보겠습니다. 행정체적 = 240 압축비 = 9 연소실_체적 = 행정체적 /
(압축비 - 1) = 240 / 8 = 30 연소실의 체적은 30cc입니다. 따라서, 정답은 (B) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_construction
task: kmmlu_cot_hard_construction
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -106,4 +106,5 @@ fewshot_config:
고려에 따라 변경된 경우에 형법 제1조 제2항이 적용되는 것은 맞지만, 법령의 변경이 있더라도 그것이 반성적 고려에서 비롯된 것이 아니라면
형법 제1조 제2항이 적용되지 않습니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_criminal_law
task: kmmlu_cot_hard_criminal_law
tag: kmmlu_cot_hard_humss_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_ecology.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -88,4 +88,5 @@ fewshot_config:
질소는 질소 가스나 암모니아의 형태로 존재합니다. , 위의 분석에 따르면, (B) 옵션의 설명이 잘못되었습니다. 아연과 코발트는 일반적으로
미량원소로 분류되지만, 이 설명에서는 그들을 다량 원소로 잘못 분류하고 있습니다. 따라서, 정답은 (B) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_ecology
task: kmmlu_cot_hard_ecology
tag: kmmlu_cot_hard_stem_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_economics.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -87,4 +87,5 @@ fewshot_config:
- 7,000,000원)은 어떻게 처리되었을까요? 이 금액은 회사의 이익에서 차감되어야 합니다. 이는 이익잉여금, 즉 회사가 벌어들인 이익에서
퇴직금 등을 지급한 후 남은 금액이 감소한다는 의미입니다. 선택지 D는 옳지 않습니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_economics
task: kmmlu_cot_hard_economics
tag: kmmlu_cot_hard_humss_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_education.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -81,4 +81,5 @@ fewshot_config:
수 있습니다. 하지만, 평생교육법에는 전국평생학습도시협의회의 구성 및 운영에 필요한 사항은 교육부령으로 정한다는 내용은 없습니다. 이를
통해 선택지 (B)가 평생교육법 상평생학습도시에 대한 설명으로 옳지 않다는 것을 알 수 있습니다. 따라서, 정답은 (B) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_education
task: kmmlu_cot_hard_education
tag: kmmlu_cot_hard_humss_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -93,4 +93,5 @@ fewshot_config:
Pyrometer)입니다. 이는 흑체 또는 비슷한 조건의 물체로부터 방사되는 가시광선의 강도를 통해 온도를 측정하는 방식을 사용하며, 흑체의
방사율을 1로 설정하여 보정하는 원리를 기반으로 합니다. 따라서, 정답은 (A) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_electrical_engineering
task: kmmlu_cot_hard_electrical_engineering
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -79,4 +79,5 @@ fewshot_config:
합니다. 마지막으로 선택지 (D)는 컴퓨터 시스템의 하드웨어 오류를 발견하고 그에 대한 적절한 조치를 한다는 내용입니다. 이 역시 운영체제의
기능으로, 하드웨어 오류를 감지하고 적절한 처리를 하여 시스템의 안정성을 유지하는 역할을 합니다. 따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_electronics_engineering
task: kmmlu_cot_hard_electronics_engineering
tag: kmmlu_cot_hard_applied_science_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -85,4 +85,5 @@ fewshot_config:
요인이 아닙니다. , 태양광발전 모듈의 I-V 특성곡선에서 일사량에 따라 가장 많이 변화하는 것은 전류입니다. 따라서, 정답은 (B)
입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_energy_management
task: kmmlu_cot_hard_energy_management
tag: kmmlu_cot_hard_applied_science_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -82,4 +82,5 @@ fewshot_config:
전통적인 구성요소는 아닙니다. 과정분석은 보다 일반적인 용어로, 다양한 맥락에서 사용될 수 있습니다. (D) 목록분석 (Inventory
Analysis): 이 역시 LCA의 핵심 단계 중 하나입니다. 따라서, 정답은 (C) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_environmental_science
task: kmmlu_cot_hard_environmental_science
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_fashion.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -84,4 +84,5 @@ fewshot_config:
수선 등을 포함한 종합적인 서비스를 제공하는 것으로 보입니다. 이는 일반적인 클리닝 서비스와는 차별화된 서비스라고 볼 수 있습니다. 따라서,
정답은 (D) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_fashion
task: kmmlu_cot_hard_fashion
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -78,4 +78,5 @@ fewshot_config:
이 품종은 상대적으로 높은 온도에 더 민감하게 반응하며, 일장의 변화에는 덜 민감한 특성을 가지고 있어 한국의 기후 특성에서 효과적으로
성장할 수 있는 조건을 가지고 있습니다. 따라서, 정답은 (D) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_food_processing
task: kmmlu_cot_hard_food_processing
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -85,4 +85,5 @@ fewshot_config:
이들은 모두 환경에 해롭습니다. 물은 염소 가스의 재해 방지용으로서의 흡수제나 재해제로서 적합하지 않습니다. 따라서, 정답은 (D)
입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_gas_technology_and_engineering
task: kmmlu_cot_hard_gas_technology_and_engineering
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_geomatics.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -75,4 +75,5 @@ fewshot_config:
공식은 실제 거리의 제곱근에 축척분모를 곱한 값이 측정된 면적이 될 것입니다. 이렇게 보면, 공식이 의미하는 바를 잘 나타내는 것 같습니다.
따라서, 정답은 (B) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_geomatics
task: kmmlu_cot_hard_geomatics
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_health.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -85,4 +85,5 @@ fewshot_config:
일반적으로는 사업장에서 자체적으로 실시하는 것이 일반적입니다. , 국민건강증진기금의 사용 범위에는 포함되지 않을 수 있습니다. 따라서,
정답은 (D) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_health
task: kmmlu_cot_hard_health
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -82,4 +82,5 @@ fewshot_config:
절삭저항의 대부분을 차지합니다. 이러한 정보를 바탕으로, 주분력이 절삭저항의 대부분을 차지하므로, 탄소강을 가공할 때 가장 큰 절삭저항을
주는 것은 주분력일 것이라고 추론할 수 있습니다. 따라서, 정답은 (D) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_industrial_engineer
task: kmmlu_cot_hard_industrial_engineer
tag: kmmlu_cot_hard_applied_science_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -80,4 +80,5 @@ fewshot_config:
피어스 B-E형 발진 회로에서는 컬렉터-이미터 간의 임피던스가 유도성일 때 가장 안정한 발진을 지속할 수 있습니다. 따라서, 정답은 (B)
입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_information_technology
task: kmmlu_cot_hard_information_technology
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -92,4 +92,5 @@ fewshot_config:
지칭하지 않으며, 실제 설계 및 계획 과정에서는 보통 최소값, 최대값, 또는 목표값과 같이 더 구체적이고 명확한 기준을 바탕으로 최적치수를
결정합니다. 따라서, 정답은 (C) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_interior_architecture_and_design
task: kmmlu_cot_hard_interior_architecture_and_design
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -97,4 +97,5 @@ fewshot_config:
군사 기구로, 흥선대원군은 왕권 강화를 위해 비변사의 기능을 약화시켰습니다. (D) 통상 수교 거부 정책을 추진하였다 - 흥선대원군은 외세의
침략을 막기 위해 통상 수교 거부 정책을 추진하였습니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_korean_history
task: kmmlu_cot_hard_korean_history
tag: kmmlu_cot_hard_humss_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_law.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -81,4 +81,5 @@ fewshot_config:
중 하나입니다. (D) 네트워크 취약성으로 발생하는 문제는 물리적 통제절차의 개선으로 해결해야 한다는 것은, 네트워크 보안 문제를 해결하기
위해 물리적인 통제 절차를 개선하는 것입니다. 이는 네트워크 보안을 강화하는 데 매우 중요한 역할을 합니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_law
task: kmmlu_cot_hard_law
tag: kmmlu_cot_hard_humss_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -83,4 +83,5 @@ fewshot_config:
선택지는 해칭이 주된 중심선 또는 단면도의 주된 외형선에 대하여 90℃ 기울기로 그린다는 내용인데, 이는 잘못된 내용입니다. 일반적으로
해칭은 45도 기울기로 그려집니다. , 이 선택지는 해칭의 일반적인 원칙을 잘못 설명하고 있습니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_machine_design_and_manufacturing
task: kmmlu_cot_hard_machine_design_and_manufacturing
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_management.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -76,4 +76,5 @@ fewshot_config:
각 부문별로 목표를 정하고 분산된 시스템을 구축하는 것은 물류 시스템의 효율성을 높일 수 있지만, 이는 통합적인 관리가 어려울 수 있습니다.
따라서, 정답은 (B) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_management
task: kmmlu_cot_hard_management
tag: kmmlu_cot_hard_humss_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -98,4 +98,5 @@ fewshot_config:
(D) 아르곤: 아르곤도 불활성 기체로, 지방질에 용해되거나 마취 효과를 나타내지 않습니다. 아르곤은 주로 산업 공정에서 보호 가스로 사용됩니다.
따라서, 정답은 (B) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_maritime_engineering
task: kmmlu_cot_hard_maritime_engineering
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_marketing.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -91,4 +91,5 @@ fewshot_config:
있으며, 상담원이 고객의 반론에 대한 자연스러운 대응력을 갖추면 고객의 불만이나 반대를 효과적으로 처리할 수 있습니다. 따라서, 정답은
(A) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_marketing
task: kmmlu_cot_hard_marketing
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -84,4 +84,5 @@ fewshot_config:
구별하는 데 사용될 수 있습니다. 냉간가공은 재결성 온도 이하에서 이루어지며, 열간가공은 재결성 온도 이상에서 이루어집니다. , 냉간가공과
열간가공을 구별하는 기준은 재결성 온도라고 할 수 있습니다. 따라서, 정답은 (C) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_materials_engineering
task: kmmlu_cot_hard_materials_engineering
tag: kmmlu_cot_hard_stem_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_math.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -95,4 +95,5 @@ fewshot_config:
+ ω2019 입니다. , ω^2017 + ω^2019 = ω + 1 입니다. 주어진 식에 ω + 1을 대입하면 ω + 1 + ω +
1 + 1 + 1이 됩니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_math
task: kmmlu_cot_hard_math
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -77,4 +77,5 @@ fewshot_config:
어떤 것일까요? V벨트의 단면 크기는 알파벳이 뒤로 갈수록 커집니다 즉, A형은 B형보다 작고, B형은 C형보다 작으며, 이런 식으로 D형,
E형으로 진행됩니다. , 주어진 선택지 중에서 가장 단면이 큰 V벨트는 E형일 것입니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_mechanical_engineering
task: kmmlu_cot_hard_mechanical_engineering
tag: kmmlu_cot_hard_stem_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -91,4 +91,5 @@ fewshot_config:
시험체의 두께 t를 계산하면 다음과 같습니다. t = v / (2f) = 4800 / (2 * 2 * 10^6) = 0.0012m = 1.2mm
따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_nondestructive_testing
task: kmmlu_cot_hard_nondestructive_testing
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_patent.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -110,4 +110,5 @@ fewshot_config:
발명에 대해서는 먼저 출원한 자만이 특허를 받을 수 있다고 규정하고 있으므로, 乙은 특허를 받을 수 없습니다. , (D)는 옳은 설명입니다.
따라서, 정답은 (A) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_patent
task: kmmlu_cot_hard_patent
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -88,4 +88,5 @@ fewshot_config:
범위에서도 활용되는 전략입니다. 도시의 이미지를 국제적으로 홍보하고, 외국인 투자자나 관광객을 유치하는 것이 도시마케팅의 일부이기 때문입니다. 도시마케팅의
공간적 범위가 국내로만 한정되어 있다는 것은 잘못된 설명입니다. 따라서, 정답은 (D) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_political_science_and_sociology
task: kmmlu_cot_hard_political_science_and_sociology
tag: kmmlu_cot_hard_humss_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_psychology.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -95,4 +95,5 @@ fewshot_config:
이러한 분석을 통해 고급 상담자의 특징은 (C) 내담자에게 의도적으로 주의를 기울이고 중요한 정보를 수집하고 인식할 수 있다는 것으로 보입니다.
이는 상담자의 기본적인 역량을 넘어서서 고급 상담자가 갖추어야 할 능력으로 보입니다. 따라서, 정답은 (C) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_psychology
task: kmmlu_cot_hard_psychology
tag: kmmlu_cot_hard_humss_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -90,4 +90,5 @@ fewshot_config:
산업안전ᆞ보건과 관련된 그 밖의 사항 , 선택지 중에서 산업안전보건위원회의 심의ᆞ의결을 거치지 않아도 되는 사항은 (B) 안전ᆞ보건과
관련된 안전장치 구입 시의 적격품 여부 확인에 관한 사항입니다. 따라서, 정답은 (B) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_public_safety
task: kmmlu_cot_hard_public_safety
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -85,4 +85,5 @@ fewshot_config:
위한 것입니다. (D) 기관의 과냉 및 소음방지를 위해 일정 회전수 이상 시 슬립 발생: 유체 커플링식 냉각 팬은 기관의 과냉 및 소음
방지를 위해 일정 회전수 이상 시 슬립이 발생합니다. 이는 유체 커플링의 특성 때문입니다. 따라서, 정답은 (A) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_railway_and_automotive_engineering
task: kmmlu_cot_hard_railway_and_automotive_engineering
tag: kmmlu_cot_hard_applied_science_tasks
3 changes: 2 additions & 1 deletion lm_eval/tasks/kmmlu/cot_hard/kmmlu_cot_hard_real_estate.yaml
Original file line number Diff line number Diff line change
Expand Up @@ -88,4 +88,5 @@ fewshot_config:
따르면 개업공인중개사는 등록한 관할구역 외의 지역에 있는 중개대상물을 중개할 수 있습니다. 이 내용은 잘못된 내용입니다. 따라서, 정답은
(D) 입니다.
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_real_estate
task: kmmlu_cot_hard_real_estate
tag: kmmlu_cot_hard_other_tasks
Original file line number Diff line number Diff line change
Expand Up @@ -88,4 +88,5 @@ fewshot_config:
= 200.15K입니다. 그러므로, W = 1kJ * (300.15K - 200.15K) / 200.15K = 0.5kJ입니다. 따라서,
정답은 (D) 입니다.'
include: _cot_kmmlu_yaml
task: kmmlu_hard_cot_refrigerating_machinery
task: kmmlu_cot_hard_refrigerating_machinery
tag: kmmlu_cot_hard_other_tasks
Loading

0 comments on commit b2c090c

Please sign in to comment.