Skip to content

記事データ・コーパス

読売新聞の言語資源コーパス

読売新聞の記事は、政治、経済、国際、社会、科学、文化、スポーツなど多種多様なジャンルにわたり、事実関係を過不足なく、適切な日本語で記述しています。記事に登場するさまざまな名称や住所表記等も一定のスタイルを保っており、校閲もされた「きれいで信頼に足る」言語資料です。

読売新聞では、新聞制作がデジタル化されてからの記事データ、掲示板「発言小町」の投稿データなどを言語資源として自然言語処理などの解析用に提供します。

記事データ

「読売新聞」と英字紙「The Japan News」の記事本文および属性データを1年ごとにディスクに収録し、「記事データ(邦文・英文)」として、大学・企業の研究・開発用に利用ライセンスを販売しています。

読売新聞記事データ(1987年~)

読売新聞の過去30年を超える年数分の東京・中部・大阪・西部各本支社の本版と全地域版(県版)の記事を年間約30万本収録しています。タイトル、本文、掲載日のほか、キーワード、分類コードなど詳細情報15項目のタグが付けられています。

The Japan News 記事データ(1989年~)

The Japan Newsは全国紙が発行する唯一の日刊英字紙です。1989年以降の英文記事を、1年あたり約5000本を収録しました。英文記事は読売新聞の記事から翻訳したものが大半です。

データ構成

読売新聞 The Japan News
ID番号
記事ID
記事分類コード
掲載年月日
タイトル
記事本文
面種コード
面名
版コード
見出し(扱い)段数
本文文字数
写真・図表有無
キーワード
キーワード(カタカナ)

読売新聞の記事データ仕様

The Japan Newsの記事データ仕様

ヨミダス用語辞書

「ヨミダス用語辞書」は読売新聞の記事データベース「ヨミダス」検索用に開発したシソーラス辞書です。新聞用語の関係を整理したもので、違う言い回しや略語を使っても目的の記事にたどり着けるようにしています。読売新聞の社内データベースでも活用しており、新聞用語の標準ルールに準拠して編集しています。

例)「衆院選」はいろいろな表記があり、記事中に「衆院選挙」「衆議院選挙」「衆院議員選」「衆議院議員選挙」として出てきても、「衆院選」ですべて検索できるようにしています。

日英コーパス

日英コーパス(2006年~)

日英コーパスは、読売新聞記事データ(邦文・英文)から、対応する日英文をペアとして抽出した言語資料です。読売新聞の日本語と、The Japan Newsの英語の新聞記事データから、対になる邦文と英文について、記事と記事、文と文をそれぞれリスト化しました。

機械翻訳などのAI研究用に1年単位で利用権を販売しています。

日英コーパスの記事データ仕様

発言小町投稿データ

発言小町投稿データ(2019年~)

「発言小町」は、読売新聞社が運営する女性向け掲示板です。恋愛、子育て、仕事の悩みなどを匿名で相談でき、女性のホンネが集積しています。投稿データは、担当スタッフが日本語を整え、誹謗中傷は省いています。こうしたデータを1年ごとにディスクに収録し、データ解析用に1年単位で利用権を販売します。

年間52万件におよぶ投稿を、トレンド分析やセンチメント分析などにご活用いただけます。

参考)発言小町  https://komachi.yomiuri.co.jp/

発言小町データ仕様

ご利用について

いずれもデータ利用権の販売となります。データそのものの販売ではありません。

ご契約にあたっては研究者、研究室単位で、読売新聞東京本社と「利用許諾契約書」を取り交わしていただきます。

料金はお問い合わせください。

商用利用の場合にもお問い合わせをお願いいたします。

お問い合わせ

読売新聞東京本社メディア局事業部データベースグループ

〒100-8055 東京都千代田区大手町1-7-1

TEL:03-3216-8513(直通)/ FAX:03-3217-8262

E-mail:yomidas@yomiuri.com

ページ上部へ