107. LLMをゼロから作るということ w/ Takahiro Omi

14-11-2023 • 38分

ストックマークの近江さんをゲストに、大規模言語モデルをゼロから作る方法、学習のデータセット、モデルアーキテクチャ、学習環境への取り組みなどについて語っていただきました。

話したネタ

どのような大規模言語モデルと作ったのか？特徴は何か？
データセットに何を使ったのか？
日本語と英語とのバランスは？
最終的なToken数は？
事前学習モデルを作りたいとして、何から考えるのか？
ノイズのクリーニングと、その方法
今回活用したモデルアーキテクチャ(Llama)
前回のアーキテクチャは GPT-NeoX
今回の学習環境は？
AWS Trainum 32コア x 16ノード
学習にかかった時間は？
学習時に大変だったこと・上手くいかなかったことは？
学習中のチェックポイントとは何か？
なぜ、Token生成が速いのか？
手元でLLMを動かすときの一番のネックは？
bit数を落とすFineTuning
Tokenizerとは何か？
日本語の単語区切りはどのように考えるのか？
今回のLLM作成のTokenizerは何を使ったのか？
ビジネスドメインでのLLM評価
ストックマーク株式会社のRecruitページ

See Privacy Policy at https://art19.com/privacy and California Privacy Notice at https://art19.com/privacy#do-not-sell-my-info.

お客様へのおすすめ

ゆるコンピュータ科学ラジオ

ゆるコンピュータ科学ラジオ

ゆるコンピュータ科学ラジオ

TED Radio Hour

NPR

石川温のスマホNo.1メディア

石川温のスマホNo.1メディア

ラジオNIKKEI

backspace.fm

backspace.fm

となりのデータ分析屋さん

となりのデータ分析屋さん

佐々木亮とたっちゃん

ひまじんプログラマーの週末エンジニアリングレッスン

ひまじんプログラマーの週末エンジニアリングレッスン

ひまじんプログラマー

Off Topic // オフトピック

Off Topic // オフトピック

Off Topic

耳で学ぶAI、ロボシンク

耳で学ぶAI、ロボシンク

矢野哲平

Joi Ito's Podcast

Joi Ito's Podcast

伊藤穰一

デデデータ!!〜“あきない”データの話〜

デデデータ!!〜“あきない”データの話〜

DATAFLUCT

podcast – #セキュリティのアレ

podcast – #セキュリティのアレ

podcast – #セキュリティのアレ

ものづくりnoラジオ-しぶちょー技術研究所

ものづくりnoラジオ-しぶちょー技術研究所

しぶちょー

Qiita FM-エンジニアのキャリアを深掘り-

Qiita FM-エンジニアのキャリアを深掘り-

Qiita

TED Tech

TED Tech

ガジェタッチ

ガジェタッチ

リンクマン/弓月ひろみ

トレンドウォッチ

トレンドウォッチ

くりらじ

聴くエンジニアtype

聴くエンジニアtype

エンジニアtype

EXODUS〜ブロックチェーン/暗号資産/NFT/DAOなどweb3領域専門ポッドキャスト

EXODUS〜ブロックチェーン/暗号資産/NFT/DAOなどweb3領域専門ポッドキャスト

設楽悠介/大木悠

fukabori.fm

iwashi

Lofi ~ Sleep/Chill

Lofi ~ Sleep/Chill

Lofi King