首页 游戏 软件 资讯 排行榜 专题
首页
手机教程
DeepSeek助力快速生成DNBC4tools所需样本对应信息

DeepSeek助力快速生成DNBC4tools所需样本对应信息

热心网友
16
转载
2025-07-04

工欲善其事 必先利其器

前面我们介绍了华大 DNBelab C SeriesTM 单细胞转录组定量的基本流程: DNBC4tools—华大DNBelab系列单细胞分析pipeline

明确需求

其中在准备样本数据步骤有提到,多样本处理首先需要制作一个自己的样本信息对应列表sample.tsv :

第一列是样本名称第二列是 cDNA 文库测序数据,多个 fastq 文件以逗号分隔,R1 和 R2 文件以分号分隔。第三列是寡核苷酸文库测序数据。多个 fastq 文件以逗号分隔,R1 和 R2 文件以分号分隔。

比如我需要处理的样本文件名是:

DeepSeek助力快速生成DNBC4tools所需样本对应信息图片

需要生成的sample.tsv 文件格式是:

代码语言:javascript代码运行次数:0运行复制
$sample1 /data/cDNA1_R1.fq.gz;/data/cDNA1_R2.fq.gz /data/oligo1_R1.fq.gz,/data/oligo4_R1.fq.gz;/data/oligo1_R2.fq.gz,/data/oligo4_R2.fq.gz $sample2 /data/cDNA2_R1.fq.gz;/data/cDNA2_R2.fq.gz /data/oligo2_R1.fq.gz;/data/oligo2_R2.fq.gz $sample3 /data/cDNA3_R1.fq.gz;/data/cDNA3_R2.fq.gz /data/oligo3_R1.fq.gz;/data/oligo3_R2.fq.gz
登录后复制

我们现在需要根据样本文件名规律来生成示例文件的对应信息。手写是不可能手写的,容易出错不说,还不能重复。这里通常需要我们来编程批量进行文本处理。

DeepSeek 助力

初步观察这个需求实现起来还是挺复杂的,以前往往需要花费一定时间来进行代码实现。现在AI盛行,这个时候我们就可以使用DeepSeek来快速生成我们需要的代码。比如下面的代码:

代码语言:javascript代码运行次数:0运行复制
ls *.gz | awk -F_ 'BEGIN {OFS="\t"} {    sample = $1;    lib = $2;    split($3, temp, ".");    direction = temp[1];        all_samples[sample] = 1;        if (lib ~ /^L[0-9]+/) {        lib_num = substr(lib, 2) + 0;  # 提取L后面的数字                # 记录文库顺序        if (!(sample SUBSEP lib_num in lib_seen)) {            libs_order[sample] = libs_order[sample] ? libs_order[sample] " " lib_num : lib_num;            lib_seen[sample, lib_num] = 1;        }                # 存储文件路径        if (direction == "f1") {            f1_files[sample, lib_num] = $0;        } else if (direction == "r2") {            r2_files[sample, lib_num] = $0;        }    } else if (lib == "oligo") {        if (direction == "f1") {            oligo_f1[sample] = $0;        } else if (direction == "r2") {            oligo_r2[sample] = $0;        }    }}END {    for (sample in all_samples) {        # 处理L00数据        l00_f1 = "";        l00_r2 = "";                if (sample in libs_order) {            split(libs_order[sample], lib_nums, " ");            n = length(lib_nums);                        # 冒号排序确保文库顺序            for (i=1; i<=n; i++) {                for (j=1; j<=n-i; j++) {                    if (lib_nums[j+1] < lib_nums[j]) {                        tmp = lib_nums[j];                        lib_nums[j] = lib_nums[j+1];                        lib_nums[j+1] = tmp;                    }                }            }                        # 构建f1和r2列表            for (i=1; i<=n; i++) {                num = lib_nums[i];                if ((sample, num) in f1_files) {                    l00_f1 = l00_f1 ? l00_f1 "," f1_files[sample, num] : f1_files[sample, num];                }                if ((sample, num) in r2_files) {                    l00_r2 = l00_r2 ? l00_r2 "," r2_files[sample, num] : r2_files[sample, num];                }            }        }                # 合并L00字段        l00_combined = l00_f1 ";" l00_r2;                # 处理Oligo数据        oligo_data = "";        if (oligo_f1[sample] && oligo_r2[sample]) {            oligo_data = oligo_f1[sample] ";" oligo_r2[sample];        }                print sample, l00_combined, oligo_data;    }}'  > sample2.tsv
登录后复制

快速得到我们需要的样本对应信息文件sample2.tsv :(检查文件信息)

代码语言:javascript代码运行次数:0运行复制
$cat sample2.tsv D10     D10_L001_f1.fq.gz,D10_L002_f1.fq.gz;D10_L001_r2.fq.gz,D10_L002_r2.fq.gz D10_oligo_f1.fq.gz;D10_oligo_r2.fq.gzD15     D15_L001_f1.fq.gz,D15_L002_f1.fq.gz;D15_L001_r2.fq.gz,D15_L002_r2.fq.gz D15_oligo_f1.fq.gz;D15_oligo_r2.fq.gzD5-2    D5-2_L001_f1.fq.gz,D5-2_L002_f1.fq.gz;D5-2_L001_r2.fq.gz,D5-2_L002_r2.fq.gz     D5-2_oligo_f1.fq.gz;D5-2_oligo_r2.fq.gzD2-1    D2-1_L001_f1.fq.gz,D2-1_L002_f1.fq.gz;D2-1_L001_r2.fq.gz,D2-1_L002_r2.fq.gz     D2-1_oligo_f1.fq.gz;D2-1_oligo_r2.fq.gzD8-2    D8-2_L001_f1.fq.gz,D8-2_L002_f1.fq.gz;D8-2_L001_r2.fq.gz,D8-2_L002_r2.fq.gz     D8-2_oligo_f1.fq.gz;D8-2_oligo_r2.fq.gzD5-1    D5-1_L001_f1.fq.gz,D5-1_L002_f1.fq.gz;D5-1_L001_r2.fq.gz,D5-1_L002_r2.fq.gz     D5-1_oligo_f1.fq.gz;D5-1_oligo_r2.fq.gzD2-2    D2-2_L001_f1.fq.gz,D2-2_L002_f1.fq.gz;D2-2_L001_r2.fq.gz,D2-2_L002_r2.fq.gz     D2-2_oligo_f1.fq.gz;D2-2_oligo_r2.fq.gzD12     D12_L001_f1.fq.gz;D12_L001_r2.fq.gz     D12_oligo_f1.fq.gz;D12_oligo_r2.fq.gzD8-1    D8-1_L001_f1.fq.gz,D8-1_L002_f1.fq.gz;D8-1_L001_r2.fq.gz,D8-1_L002_r2.fq.gz     D8-1_oligo_f1.fq.gz;D8-1_oligo_r2.fq.gz
登录后复制

然后就是批量生成运行脚本代码语言:javascript代码运行次数:0运行复制

dnbc4tools rna multi --list sample2.tsv --genomeDir ~/reference/human/homo_ensembl_112_dnbc4_index --threads 10
登录后复制

DeepSeek助力快速生成DNBC4tools所需样本对应信息示例

示例

至此,后面提交批量运行任务即可。详见:

DNBC4tools—华大DNBelab系列单细胞分析pipeline玩转服务器—从前台到后台,让你的任务无忧运行
来源:https://www.php.cn/faq/1384552.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Excel表格筛选技巧快速定位数据提升工作效率
AI教程
Excel表格筛选技巧快速定位数据提升工作效率

Excel筛选功能能高效处理海量数据。基础筛选通过列标题下拉菜单勾选或搜索快速定位数据。高级筛选需设置条件区域,可满足多条件复杂查询。FILTER函数能实现动态自动化筛选,结果随数据源同步更新。掌握这些方法可显著提升数据处理效率。

热心网友
05.23
Excel表格美化技巧:轻松提升数据可读性与呈现效果
AI教程
Excel表格美化技巧:轻松提升数据可读性与呈现效果

Excel表格可通过多种方法美化以提升可读性。使用内置表格样式可一键快速套用格式;通过设置单元格格式能自定义边框与填充颜色;利用条件格式可根据数据规则自动突出显示特定内容。这些技巧能有效增强数据呈现的清晰度与专业性。

热心网友
05.23
Excel批量删除多个表格内容的实用技巧
AI教程
Excel批量删除多个表格内容的实用技巧

Excel提供了多种批量删除数据的方法。使用Ctrl键配合鼠标可选择不连续区域并右键删除;选中连续区域后按Delete键可快速清空内容。通过“开始”选项卡中的“清除”功能,可同时移除格式与内容。对于复杂任务,可利用VBA宏编写脚本,一键清空所有工作表数据。根据需求选择合适方法能提升效率。

热心网友
05.23
Excel表格自动汇总技巧快速提升工作效率
AI教程
Excel表格自动汇总技巧快速提升工作效率

面对表格数据,手动计算易错低效。掌握自动汇总技巧能显著提升效率。常用方法包括:利用筛选功能快速提取和查看特定数据;使用基础的SUM函数进行灵活求和;创建数据透视表进行多维度交互式分析;运用COUNTIF、SUMIF等条件统计函数实现智能计算。根据场景选用合适工具,可使数据处理变得轻松高效。

热心网友
05.23
Excel表格合并技巧:高效精准整合数据的方法
AI教程
Excel表格合并技巧:高效精准整合数据的方法

Excel表格合并有多种方法。复制粘贴适合简单任务;合并计算可汇总多区域数据;PowerQuery能处理复杂合并与数据清洗;CONCATENATE和TEXTJOIN函数专用于合并单元格文本;VBA宏可实现重复任务的自动化。根据数据规模、频率和复杂度选择合适工具,能显著提升数据整理的效率与准确性。

热心网友
05.23

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

刑事案件电子数据取证密码获取程序拟明确
业界动态
刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。

热心网友
05.23
小鹏G9降价12万背后何小鹏的豪赌与挑战
业界动态
小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小

热心网友
05.23
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵
业界动态
魏建军感谢于东来支援环塔拉力赛 红牛千箱胖东来厨师助阵

5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给

热心网友
05.23
2026年比特币官方APP下载入口及官网安全访问指南
web3.0
2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”

热心网友
05.23
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解
AI资讯
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友
05.23