• 株式会社ずんだもん技術室AI放送局 podcast 20240815

  • Aug 14 2024
  • Length: Less than 1 minute
  • Podcast

株式会社ずんだもん技術室AI放送局 podcast 20240815

  • Summary

  • 関連リンク AI・機械学習チームで学んだ開発技法で趣味の通知系ツールを量産した この記事では、エムスリー株式会社のAI・機械学習チームのエンジニアである高田氏が、チームで培った開発ノウハウを活かして趣味で作った通知系ツールの開発事例を紹介しています。チームでは、開発スピードを重視し、Googleスプレッドシートを簡易な管理画面として活用し、BigQueryやGoogle Sheets APIと連携してデータ分析を行うアーキテクチャを採用しています。また、Python製のタスクパイプラインツール「gokart」やデータバリデーションライブラリ「pandera」を用いることで、データの品質を担保しながら開発を進めています。 記事では、具体的にYouTubeライブ開始通知、ポイ活案件検知、ANAトクたびマイル通知の3つの趣味プロダクトを紹介しています。これらのプロダクトは、スプレッドシートで管理画面を作成し、panderaでデータバリデーションを行うことで、短時間で開発することができました。 これらの事例から、スプレッドシートとpanderaを組み合わせることで、開発スピードを落とすことなく、データの品質を担保することができると分かります。この記事は、新人エンジニアにとって、開発の効率化やデータ品質の重要性を理解する上で参考になる内容です。 引用元: https://www.m3tech.blog/entry/2024/08/14/170000 ゼロからRAGを作るならこんなふうに この記事は、RAG(Retrieval-Augmented Generation)をゼロから作りたいエンジニア向けのガイドです。DifyやLangChainのようなフルマネジメントサービスではなく、自分で開発をハンドリングしたいエンジニアのために、ベクトルDBや埋め込みモデルの選定の勘所を解説しています。 RAGは、LLM(大規模言語モデル)に企業が保有するデータを組み合わせて活用する手法として注目されています。ファインチューニングと比べて、既存のデータを活用でき、データの取り出し方を調整することで柔軟に知識を導入・除外できる点がメリットです。 この記事では、DifyやLangChainを使わずにシンプルなRAGを構成する際に考慮すべき点を、以下の4つの観点から解説しています。 開発フリーでPoCに使いたいならフルマネジメントサービス Vertex AI SearchやNotebookLMは、社内資料やWebサイトからRAGを簡単に作成できます。Vertex AI Searchは多様なデータソースに対応し、NotebookLMは小さなデータセットに最適です。 社内向けのデータを使うなら、まずはベクトルDBを選定しよう ベクトルDBは、RAGのコスト面とできる範囲を制限するクリティカルポイントになります。多くのベクトルDBが存在するため、価格、ホスティングの容易さ、検索インターフェースなどを考慮して適切なものを選択する必要があります。 外向きのデータを使いたいならクローラーなど他のツールとの統合を考慮する Webデータを使う場合は、クローラーやAPI経由のアクセスなどを検討する必要があります。FirecrawlはLLMベースでWebページを構造化された状態で取得できますが、構造化に問題がある場合もあるため、実際に確認することが重要です。 日本語埋め込み(Embedding)モデルを選ぶ OpenAIのtext-embedding-ada-002やtext-embedding-3-largeなどがよく使われます。ローカルの埋め込みモデルも精度が高く、コストと実行速度の面から比較検討する価値があります。pkshatech/GLuCoSE-base-jaやintfloat/multilingual-e5-largeは、精度が高く、部分的な実用に耐えうるモデルです。 この記事は、RAGを初めて構築するエンジニアにとって、技術選定の勘所を理解するのに役立つ内容となっています。 引用元: https://zenn.dev/minedia/articles/8f4ef7f2daed11 LangChain Integration Docs: Find information faster with revamped pages & API references LangChainは、LLM、ベクトルストア、ツール、ドキュメントローダーなど、1,000を超える統合を提供する、広範な統合のエコシステムを提供しています。今回、PythonとJavaScriptの両方で、統合ドキュメントが全面的に見直され、コミュニティにとってより便利でアクセスしやすくなりました。主な変更点としては、すべての統合ページの標準化されたフォーマット、特定の機能をサポートする統合を強調表示する「機能」テーブルを含む各コンポーネント...
    Show more Show less

What listeners say about 株式会社ずんだもん技術室AI放送局 podcast 20240815

Average customer ratings

Reviews - Please select the tabs below to change the source of reviews.